音视频基础篇
视频
泛指将一系列静态影像以电信号的方式加以捕捉、记录、处理、存储、传送和重现的各种技术。
连续的图像变化每秒超过24桢(frame)画面以上时,根据视觉暂留原理,人眼无法辨别单幅的静态画面,这样连续的画面叫视频
视频和电影属于不同的技术,后者利用照相术将动态的影像捕捉为一系列的静态照片。
常见视频格式:MP4、avi、mov、wmv、flv、mkv
视频帧
桢:视频的一个基本概念,表示一张画面,一个视频就是由许许多多桢组成的。
帧率:即单位时间内桢的数量,单位为:桢/秒 或 fps。一秒内包含多少图片,图片越多,画面越顺滑,过渡越自然。
帧率一般以下几个典型值:
1)24/25 fps: 一般的电影帧率
2)30/60 fps:游戏的帧率
85fps以上人眼基本无法察觉出来了,所以更高的帧率在视频里没有意义了。
色彩空间
RGB:电子设备中应用广泛,通过R G B三种及出色,可以混合出所有的颜色。
YUV:一种亮度与色度分离的色彩格式。
早期的电视都是黑白色的,即只有亮度值Y,有了彩色电视以后,加入了UV两种色度,形成现在的YUV,也叫YCbCr.
1)Y:亮度,就是灰度值,除了表示亮度信号外,还含有较多的绿色通道量。
2)U:蓝色通道与亮度Y的差值。
3)V:红色通道与亮度Y的差值。
采用YUV的优势:人眼对亮度敏感,对色度不敏感,因此减少部分UV的数据量(不用完全的采样),人眼无法感知出来,这样可以通过压缩UV的分辨率,在不影响观感的前提下,减少视频的体积。
RGB和YUV的换算
Y = 0.299R + 0.587G + 0.114B
U = -0.147R - 0.289G + 0.436B
V = 0.615R - 0.515G - 0.100B
R = Y + 1.14V
G = Y - 0.39U - 0.58V
B = Y + 2.03U
音频
音频数据的承载方式最常用的是”脉冲编码调制“,即PCM。
声音是连续不断的,是一种模拟信号,只有把声音数字化,转化为数字信号,声音才可以被保存下来。
声音是一种波,有自己的振幅和频率,而数字信号并不能连续保存所有时间点的振幅,事实上,并不需要保存连续的信号,就可以还原到人耳可接受的声音。
根据”奈奎斯特采样定理“,为了不失真的恢复模拟信号,采样频率应该大于等于模拟信号频谱种最高频率的2倍。
PCM分为以下步骤:
模拟信号->采样->量化->编码->数字信号
采样率/采样位数
采样率即采样的频率
采样率要大于原声波频率的2倍,人耳能听到的最高频率为20KHZ,所以为了满足人耳的听觉要求,采样率至少为40KHZ,通常为44.1KHZ,更高的通常为48KHZ.
注意:人耳听觉频率范围【20HZ,20KHZ】
采样位数
涉及到上面提到的振幅量化,波形振幅在模拟信号上也是连续的样本值,而在数字信号种,信号一般是不连续的,所以模拟信号量化以后,只能取一个近似的整数值,为了记录这些振幅值,采样器会采用一个固定的位数来记录这些振幅值,通常有8位,16位,32位。
注意:位数越多,记录的值越准确,还原度越高,但是占用的硬盘空间越大。
音频编码
由于数字信号是由0、1组成的,因此,需要将幅度值转换为一系列0和1进行存储,也就是编码,最后得到的数据就是数字信号,一串0/1组成的数据。
声道数
指支持能不同发声(注意是不同声音)的音响的个数。
单声道:1个声道。
双声道:2个声道。
立体声道:默认为2个声道。
立体声道(4声道):4个声道。
码率
是指一个数据流种每秒能通过的信息量,单位bps(bit per second)
码率=采样率(HZ数) * 采样位数 * 声道数
评论区