侧边栏壁纸
  • 累计撰写 22 篇文章
  • 累计创建 10 个标签
  • 累计收到 5 条评论

目 录CONTENT

文章目录

音视频基础

AF
AF
2024-01-22 / 0 评论 / 0 点赞 / 36 阅读 / 2962 字

音视频基础篇

视频

泛指将一系列静态影像以电信号的方式加以捕捉、记录、处理、存储、传送和重现的各种技术。

连续的图像变化每秒超过24桢(frame)画面以上时,根据视觉暂留原理,人眼无法辨别单幅的静态画面,这样连续的画面叫视频

视频和电影属于不同的技术,后者利用照相术将动态的影像捕捉为一系列的静态照片。

常见视频格式:MP4、avi、mov、wmv、flv、mkv

视频帧

桢:视频的一个基本概念,表示一张画面,一个视频就是由许许多多桢组成的。

帧率:即单位时间内桢的数量,单位为:桢/秒 或 fps。一秒内包含多少图片,图片越多,画面越顺滑,过渡越自然。

帧率一般以下几个典型值

1)24/25 fps: 一般的电影帧率

2)30/60 fps:游戏的帧率

85fps以上人眼基本无法察觉出来了,所以更高的帧率在视频里没有意义了。

色彩空间

RGB:电子设备中应用广泛,通过R G B三种及出色,可以混合出所有的颜色。

YUV:一种亮度与色度分离的色彩格式。

早期的电视都是黑白色的,即只有亮度值Y,有了彩色电视以后,加入了UV两种色度,形成现在的YUV,也叫YCbCr.

1)Y:亮度,就是灰度值,除了表示亮度信号外,还含有较多的绿色通道量。

2)U:蓝色通道与亮度Y的差值。

3)V:红色通道与亮度Y的差值。

采用YUV的优势:人眼对亮度敏感,对色度不敏感,因此减少部分UV的数据量(不用完全的采样),人眼无法感知出来,这样可以通过压缩UV的分辨率,在不影响观感的前提下,减少视频的体积。

RGB和YUV的换算

Y = 0.299R + 0.587G + 0.114B

U = -0.147R - 0.289G + 0.436B

V = 0.615R - 0.515G - 0.100B

R = Y + 1.14V

G = Y - 0.39U - 0.58V

B = Y + 2.03U

音频

音频数据的承载方式最常用的是”脉冲编码调制“,即PCM。

声音是连续不断的,是一种模拟信号,只有把声音数字化,转化为数字信号,声音才可以被保存下来。

声音是一种波,有自己的振幅和频率,而数字信号并不能连续保存所有时间点的振幅,事实上,并不需要保存连续的信号,就可以还原到人耳可接受的声音。

根据”奈奎斯特采样定理“,为了不失真的恢复模拟信号,采样频率应该大于等于模拟信号频谱种最高频率的2倍。

PCM分为以下步骤:

模拟信号->采样->量化->编码->数字信号

采样率/采样位数

采样率即采样的频率

采样率要大于原声波频率的2倍,人耳能听到的最高频率为20KHZ,所以为了满足人耳的听觉要求,采样率至少为40KHZ,通常为44.1KHZ,更高的通常为48KHZ.

注意:人耳听觉频率范围【20HZ,20KHZ】

采样位数

涉及到上面提到的振幅量化,波形振幅在模拟信号上也是连续的样本值,而在数字信号种,信号一般是不连续的,所以模拟信号量化以后,只能取一个近似的整数值,为了记录这些振幅值,采样器会采用一个固定的位数来记录这些振幅值,通常有8位,16位,32位。

注意:位数越多,记录的值越准确,还原度越高,但是占用的硬盘空间越大。

音频编码

由于数字信号是由0、1组成的,因此,需要将幅度值转换为一系列0和1进行存储,也就是编码,最后得到的数据就是数字信号,一串0/1组成的数据。

声道数

指支持能不同发声(注意是不同声音)的音响的个数。

单声道:1个声道。

双声道:2个声道。

立体声道:默认为2个声道。

立体声道(4声道):4个声道。

码率

是指一个数据流种每秒能通过的信息量,单位bps(bit per second)

码率=采样率(HZ数) * 采样位数 * 声道数

常见的音频格式:cd、wave(*.WAV)、AIFF、MP3、MIDI、AAC、WMA、OggVorbis.

0

评论区