编解码学习笔记(2):codec类型
编解码学习笔记(3):Mpeg系列——Mpeg 1和Mpeg 2
编解码学习笔记(4)Mpeg系列——Mpeg 4
编解码学习笔记(5):Mpeg系列——AAC音频
编解码学习笔记(6):H.26x系列
编解码学习笔记(7)Windows Media系列
编解码学习笔记(8)Real系列
编解码学习笔记(九):QuickTime系列
编解码学习笔记(十):Ogg系列
编解码学习笔记(十一):Flash Video系列
编解码学习笔记(十二)
编解码学习笔记(十三):容器(上)
编解码学习笔记(十四):容器(下篇)
媒体业务是网络的主要业务之间。特别是随着移动互联网业务的兴起,媒体业务在运营商和应用开发商中占有重要地位,其中媒体编解码服务涉及需求分析、应用开发和释放license收费等等。最近,由于项目的关系,媒体需要澄清codec,比较搞的是,在豆丁网上看运营商的规范 在我看来,同一运营商同一业务在不同文档中有不同的要求,有些要求应该是历史的延续,也就是说,现在很少使用。所以豆丁上看不出为什么。 wiki上查。中文的wiki信息量有限,很短,而且wiki英文内容多,删减版减肥太多。我还在网上看到一个山寨中文wiki,长得像,红色,叫天下维客。wiki汉语仍然很好,但建议阅读英语。
我对媒体codec做了一些整理和总结,数据来自wiki,其中一小部分来自在线博客的收集。我们将给出网民信息的来源。如果数据已经转移了几次,就没有办法了,鹅留下了声音,我们只能给出一定的轨迹。
编解码器(codec)它指的是一个变信号或数据流的设备或程序。这里指的转换包括将要 编码信号或数据流(通常用于传输、存储或加密)或提取编码流的操作,也包括观察或处理从编码流中恢复适合观察或操作的操作。视频会议和流媒体等应用中经常使用编解码器。
很多媒体数据流需要同时包含音频数据和视频数据,通常会添加一些元数据,如字幕,用于音频和视频数据的同步。这三种数据流可能由不同的程序、过程或硬件处理,但当它们传输或存储时,通常会包装在一起。通常,这种包装是通过视频文件进行的 式来实现的,例如常见的*.mpg, *.avi, *.mov, *.mp4, *.rm, *.ogg or *.tta. 有些格式只能使用某些编解码器,而更多的编解码器可以通过容器使用。
FourCC全称Four-Character Codes,四个字符(4) bytes)在视频数据流格式频数据流格式的四字节wav、avi档案中会有一段FourCC来描述这个AVI使用什么样的档案?codec来 编码wav、avi大量存在等于大量存在IDP3”的FourCC。
视频是计算机中多媒体系统的重要组成部分。为了满足存储视频的需要,人们设置了不同的视频文件格式,将视频和音频放在一个文件中,以便同时回放。视频文件实际上是一个包裹在不同轨道内的容器,使用的容器格式与视频文件的可扩展性有关。
采样率(也称为采样速度或采样频率)定义了每秒从连续信号中提取并形成离散信号的采样数量,它使用赫兹(Hz)表示。采样频率的倒数称为采样周期或采样时间,是采样之间的时间间隔。注意不要使用采样率和比特率(bit rate,又称位速率)混淆。
采样定理表明,采样频率必须大于采样信号带宽的两倍,另一种相同的说法是奈奎斯特频率必须大于采样信号带宽。如果信号的带宽是 100Hz,因此,为了避免混合现象,采样频率必须大于2000Hz。换句话说,采样频率必须至少是信号中最大频率的两倍,否则原始信号无法从信号采样中恢复。
语音采样:
- 8,000 Hz - 电话采样率, 对人说话就够了
- 11,025 Hz
- 22,050 Hz - 无线电广播采样率
- 32,000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率
- 44,100 Hz - 音频 CD, 也常用于 MPEG-1 音频(VCD, SVCD, MP3)采样率
- 47,250 Hz - Nippon Columbia (Denon)世界上第一个商业开发的世界 PCM 录音机采样率
- 48,000 Hz - miniDV、数字电视、DVD、DAT、影和专业音频所用的数字声音所用采样率
- 50,000 Hz - 二十世纪七十年代后期出现的 3M 和 Soundstream 开发的第一款商用数字录音机所用采样率
- 50,400 Hz - 三菱 X-80 数字录音机所用所用采样率
- 96,000 或者 192,000 Hz - DVD-Audio、一些 LPCM DVD 音轨、Blu-ray Disc(蓝光盘)音轨、和 HD-DVD (高清晰度 DVD)音轨所用所用采样率
- 2.8224 MHz - SACD、 索尼 和 飞利浦 联合开发的称为 Direct Stream Digital 的 1 位 sigma-delta modulation 过程所用采样率。
在模拟视频中,采样率定义为帧频和场频,而不是概念上的像素时钟。图像采样频率是传感器积分周期的循环速度。由于积分周期远远小于重复所需时间,采样频率可能与采样时间的倒数不同。
- 50 Hz - PAL 视频
- 60 / 1.001 Hz - NTSC 视频
当模拟视频转换为数字视频的时候,出现另外一种不同的采样过程,这次是使用像素频率。一些常见的像素采样率有:
- 13.5 MHz - CCIR 601、D1 video
分辨率,泛指量测或显示系统对细节的分辨能力。此概念可以用时间、空间等领域的量测。日常用语中之分辨率多用于图像的清晰度。分辨率越高代表图像品质越好,越能表现出更多的细节。但相对的,因为纪录的信息越多,文件也就会越大。目前个人电脑里的图像,可以使用图像 处理软件,调整图像的大小、编修照片等。例如 photoshop,或是photoimpact等软件。
:
用以描述图像细节分辨能力,同样适用于数字图像、胶卷图像、及其他类型图像。常用'线每毫米'、 '线每英吋'等来衡量。通常,“分辨率”被表示成每一个方向上的像素数量,比如640x480等。而在某些情况下,它也可以同时表示成“每英吋像素” (pixels per inch,ppi)以及图形的长度和宽度。比如72ppi,和8x6英吋。
:
各种电视规格分辨率比较视 频的画面大小称为“分辨率”。数位视频以像素为度量单位,而类比视频以水平扫瞄线数量为度量单位。标清电视频号分辨率为 720/704/640x480i60(NTSC)或768/720x576i50(PAL/SECAM)。新的高清电视(HDTV)分辨率可达 1920x1080p60,即每条水平扫瞄线有1920个像素,每个画面有1080条扫瞄线,以每秒钟60张画面的速度播放。
Frame rate中文常译为“画面更新率”或“帧率”,是指视频格式每秒钟播放的静态画面数量。典型的画面更新率由早期的每秒6或8张(frame persecond,简称fps),至现今的每秒120张不等。PAL (欧洲,亚洲,澳洲等地的电视广播格式) 与 SECAM (法国,俄国,部分非洲等地的电视广播格式) 规定其更新率为25fps,而NTSC (美国,加拿大,日本等地的电视广播格式) 则规定其更新率为29.97 fps。电影胶卷则是以稍慢的24fps在拍摄,这使得各国电视广播在播映电影时需要一些复杂的转换手续(参考Telecine转换)。要达成最基本的视觉暂留效果大约需要10fps的速度。
在视频压缩中有损(Lossy )和无损(Lossless)的概念与静态图像中基本类似。无损压缩也即压缩前和解压缩后的数据完全一致。多数的无损压缩都采用RLE行程编码算法。有损 压缩意味着解压缩后的数据与压缩前的数据不一致。在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息,而且丢失的信息不可恢复。几乎所有高压缩的算法都采用有损压缩,这样才能达到低数据率的目标。丢失的数据率与压缩比有关,压缩比越小,丢失的数据越多,解压缩后的效果一般越差。此外,某些有损压 缩算法采用多次重复压缩的方式,这样还会引起额外的数据丢失。
- 无损格式,例如WAV,PCM,TTA,FLAC,AU,APE,TAK,WavPack(WV)
- 有损格式,例如MP3,Windows Media Audio(WMA),Ogg Vorbis(OGG),AAC
帧内(Intraframe)压缩也称为空间压缩 (Spatial compression)。当压缩一帧图像时,仅考虑本帧的数据而不考虑相邻帧之间的冗余信息,这实际上与静态图像压缩类似。帧内一般采用有损压缩算法,由于帧内压缩时各个帧之间没有相互关系,所以压缩后的视频数据仍可以以帧为单位进行编辑。帧内压缩一般达不到很高的压缩。
采用帧间(Interframe)压缩是基于许多视频或 动画的连续前后两帧具有很大的相关性,或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息,根据这一特性,压缩相邻帧之间的冗余量就可以进一步提高压缩量,减小压缩比。帧间压缩也称为时间压缩(Temporalcompression),它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。帧差值(Frame differencing)算法是一种典型的时间压缩法,它通过比较本帧与相邻帧之间的差异,仅记录本帧与其相邻帧的差值,这样可以大大减少数据量。
对称性(symmetric)是压缩编码的一个关键特 征。对称意味着压缩和解压缩占用相同的计算处理能力和时间,对称算法适合于实时压缩和传送视频,如视频会议应用就以采用对称的压缩编码算法为好。而在电子出版和其它多媒体应用中,一般是把视频预先压缩处理好,尔后再播放,因此可以采用不对称(asymmetric)编码。不对称或非对称意味着压缩时需要花费大量的处理能力和时间,而解压缩时则能较好地实时回放,也即以不同的速度进行压缩和解压缩。一般地说,压缩一段视频的时间比回放(解压缩)该视频的时间 要多得多。例如,压缩一段三分钟的视频片断可能需要10多分钟的时间,而该片断实时回放时间只有三分钟。
除wiki外的资料来源:http://tech.lmtw.com/csyy/Using/200411/3142.html
编解码学习笔记(二):codec类型
资料(港台将information翻译为资料)压缩是透过去除资料中的冗余资讯而达成。就视讯资料而言,资料中的冗余资讯可以分成四类:
时间上的冗余资讯(temporal redundancy) 在视讯资料中,相邻的帧(frame)与帧之间通常有很强的关连性,这样的关连性即为时间上的冗余资讯。这即是上一次学习中的帧间压缩。
空间上的冗余资讯(spatial redundancy) 在同一张帧之中,相邻的像素之 间通常有很强的关连性,这样的关连性即为空间上的冗余资讯。这即是上一次学习中的帧内压缩。
统计上的冗余资讯(statistical redundancy) 统计上的冗余资讯指的是欲编码的符号(symbol)的机率分布是不均匀(non-uniform)的。
感知上的冗余资讯(perceptual redundancy) 感知上的冗余资讯是指在人在观看视讯时,人眼无法察觉的资讯。
视讯压缩(英文:Video compression)是指运用资料压缩技术将数位视讯资料中的冗余资讯去除,降低表示原始视讯所需的资料量,以便视讯资料的传输与储存。实际上,原始视讯资料的资料量往往过大,例如未经压缩的电视品质视讯资料的位元率高达216Mbps,绝大多数的应用无法处理如此庞大的资料量,因此视讯压缩是必要的。目前最新的视讯编码标准为ITU-T视讯编码专家组(VCEG)和ISO/IEC动态图像专家组(MPEG)联合组成的联合视讯组(JVT,Joint Video Team)所提出的H.264/AVC。
一个典型的视讯编码器:在进行当前信号编码时,编码器首先会产生对当前信号做预测的信号,称作预测信号(predicted signal),预测的方式可以是时间上的预测(interprediction),亦即使用先前帧的信号做预测,或是空间上的预测 (intra prediction),亦即使用同一张帧之中相邻像素的信号做预测。得到预测信号后,编码器会将当前信号与预测信号相减得到残余信号(residual signal),并只对残余信号进行编码,如此一来,可以去除一部份时间上或是空间上的冗余资讯。接着,编码器并不会直接对残余信号进行编码,而是先将残余信号经过变换(通常为离散余弦变换)然后量化以 进一步去除空间上和感知上的冗余资讯。量化后得到的量化系数会再透过熵编码,去除统计上的冗余资讯。
H.120 |
ITU-T |
是 |
||
H.261 |
ITU-T |
是 |
视讯会议、视讯通话 |
|
MPEG-1 第二部份 |
ISO /IEC |
是 |
影音光碟(VCD ) |
|
H.262/MPEG-2 第二部份 |
ISO / IEC 、ITU-T |
否 |
DVD影碟(DVD-Video )、蓝光(Blu-Ray )影碟、数位视讯广播(DVB)、SVCD |
|
H.263 [6] |
ITU-T |
视讯会议、视讯通话、3G 手机视讯(3GP ) |
||
MPEG-4 第二部份 |
ISO /IEC |
否 |
||
H.264/MPEG-4 AVC[1] |
ISO / IEC 、ITU-T |
否 |
蓝光(Blu-Ray )影碟、数位视讯广播(DVB )、iPod 视讯、高画质DVD(HD DVD ) |
常见的编解码见下表,在以后会分类论述:
视频codec |
ISO/IEC |
MJPEG Motion JPEG 2000 MPEG-1 MPEG-2 (Part 2 ) MPEG-4 (Part 2/ASP Part 10/AVC ) HVC |
ITU-T |
H.120 H.261 H.262 H.263 H.264 H.265 |
|
其它 |
AMV AVS Bink CineForm Cinepak Dirac DV Indeo Microsoft Video 1 OMS Video Pixlet RealVideo RTVideo SheerVideo Smacker Sorenson Video & Sorenson Spark Theora VC-1 VP3 VP6 VP7 VP8 WMV |
|
音频 codec |
ISO/IECMPEG |
MPEG-1 Layer III (MP3) MPEG-1 Layer II MPEG-1 Layer I AAC HE-AAC MPEG-4 ALS MPEG-4 SLS MPEG-4 DST |
ITU-T |
G.711 G.718 G.719 G.722 G.722.1 G.722.2 G.723 G.723.1 G.726 G.728 G.729 G.729.1 |
|
其它 |
AC-3 AMR AMR-WB AMR-WB+ Apple Lossless ATRAC DRA DTS FLAC GSM-HR GSM-FR GSM-EFR iLBC Monkey's Audio TTA (True Audio) MT9 μ-law Musepack Nellymoser OptimFROG OSQ RealAudio RTAudio SD2 SHN SILK Siren Speex TwinVQ Vorbis WavPack WMA |
|
图像压缩 |
ISO/IEC/ITU-T |
JPEG JPEG 2000 JPEG XR lossless JPEG JBIG JBIG2 PNG WBMP |
Others |
APNG BMP DjVu EXR GIF ICER ILBM MNG PCX PGF TGA TIFF |
|
媒体容器 |
通用 |
3GP ASF AVI Bink BXF DMF DPX EVO FLV GXF M2TS Matroska MPEG-PS MPEG-TS MP4 MXF Ogg QuickTime RealMedia RIFF Smacker VOB |
只用于音频 |
AIFF AUWAV |
上面的表格,查看某个具体的codec,可以在中文的wiki中查找,但是英文的wiki咨询更为丰富,见下表
Video compression |
|
||||||||
Audio compression |
|
||||||||
Image compression |
|
||||||||
Media containers |
|
编解码学习笔记(三):Mpeg系列——Mpeg 1和Mpeg 2
MPEG是Moving Picture Experts Group的简称。这个名字本来的含义是指一个研究视频和音频编码标准的小组。现在我们所说的MPEG泛指又该小组制定的一系列视频编码标准。该小组于 1988年组成,至今已经制定了MPEG-1、MPEG-2、MPEG-3、MPEG-4、MPEG-7等多个标准,MPEG-21正在制定中。
MPEG到目前为止已经制定并正在制定以下和视频相关的标准:
- MPEG-1: 第一个官方的视訊音訊压缩标准,随后在Video CD中被采用,其中的音訊压缩的第三级(MPEG-1 Layer 3)简称MP3, 成为比较流行的音訊压缩格式。
- MPEG-2: 广播质量的视訊、音訊和传输协议。被用于無線數位電視-ATSC、DVB以及ISDB、数字卫星电视(例如DirecTV)、 数字有线电视信号,以及DVD视频光盘技术中。
- MPEG-3: 原本目标是为高解析度电视(HDTV)设计,随后發現MPEG-2已足夠HDTV應用,故 MPEG-3的研發便中止。
- MPEG- 4:2003 年发布的视訊压缩标准,主要是扩展MPEG-1、MPEG-2等標準以支援視訊/音訊物件(video/audio "objects")的編碼、3D內容、低位元率編碼(low bitrate encoding)和數位版權管理(Digital Rights Management),其中第10部分由ISO/IEC和ITU-T联合发布,称为H.264/MPEG-4 Part 10。参见H.264。
- MPEG-7:MPEG-7并不是一个视訊压缩标准,它是一个多媒体内容的描述标准。
- MPEG-21:MPEG-21是一个正在制定中的标准,它的目标是为未来多媒体的应用提供一个完整的平台。
媒体codec在于MPEG-1,MPEG-2,MPEG-4,如上图所示。
图中名称解释:在图中DVD地球人都知道,何为DVB?
DVB:数字视频广播(DVB, Digital VideoBroadcasting),是由“DVB Project”维护的一系列为国际所承认的数字电视公开标准。DVB系统传输方式有如下几种:
· 卫星电视(DVB-S 及 DVB-S2)
· 有线电视(DVB-C)
· 无线电视(DVB-T)
· 手持地面无线(DVB-H)
这些标准定义了传输系统的物理层与数据链路层。设备通过同步并行接口(synchronous parallel interface, SPI),同步串行接口(synchronous serial interface, SSI),或异步串行接口(asynchronousserial interface, ASI)与物理层交互。数据以MPEG-2传输流的方式传输,并要求符合更严格的限制(DVB-MPEG)。对移动终端即时压缩传输数据的标准(DVB- H)目前正处于测试之中。
这些传输方式的主要区别在于使用的调制方式,因为不同它们应用的频率带宽的要求不同。利用高频载波的DVB-S使用QPSK调制方式,利用低频载波的DVB-C使用QAM-64 调制方式,而利用VHF 及 UHF载波的DVB-T使用COFDM调制方式。
除音频与视频传输外,DVB也定义了带回传信道(DVB-RC)的数据通信标准(DVB-DATA)。
DVB的codec,视频为:MPEG-2,MPEG-4 AVC;音频为:MP3,AC-3,AAC,HE-AAC。
MPEG-1作为ISO/IEC11172正式发布。
MPEG-1较早的视频编码,质量比较差,主要用于 CD-ROM 存储视频,国内最为大家熟悉的就是 VCD(Video CD),他的视频编码就是采用 MPEG-1。它是为CD光盘介质定制的视频和音频压缩格式。一张70分钟的CD光盘传输速率大约在1.4Mbps。而 MPEG-1采用了块方式的运动补偿、离散余弦变换(DCT)、量化等技术,并为1.2Mbps传输速率进行了优化。MPEG-1 随后被Video CD采用作为内核技术。MPEG-1的输出质量大约和传统录像机VCR,信号质量相当,这也许是Video CD在发达国家未获成功的原因。
MPEG-1音频分三层,就是MPEG-1 Layer I, II, III,其中第三层协议也就是MPEG- 1 Layer 3,简称MP3。MP3目前已经成为广泛流传的音频压缩技术。
MPEG-1有下面几个部分:
- 第一部分(Part 1):系统;
- 第二部分(Part 2):视频;
- 第三部分(Part 3):音频;定义level1,level2,level3,并在MPEG-2中定义了扩展。
- 第四部分(Part 4):一次性测试;
- 第五部分(Part 5):参考软件;
- 1个音频压缩系统限于两个通道(立体声)
- 没有为隔行扫描视频提供标准化支持,且压缩率差
- 只有一个标准化的“profile” (约束参数比特流), 不适应 更高分辨率的视频。MPEG - 1可以支持4k的视频,但难以提供更高分辨率的视频编码并且标识硬件的支持能力。
- 支持只有一个颜色空间,4:2:0。
MPEG-2作为ISO/IEC 13818正式发布,通常用来为广播信号提供视频和音频编码,包括卫星电视、有线电视等。MPEG-2经过少量修改后,也成为DVD产品的内核技术。
MPEG-2有11部分,具体如下:
正式名称是 ISO/IEC 13818-1或 ITU-T中的H.222.0
MPEG-2的系统描述部分(第1部分)定义了传输流,它用来一套在非可靠介质上传输数字视频信号和音频信号的机制,主要用在广播电视领域。
定义了两个不同但相关的容器格式,MPEG transport stream和MPEG program stream,也就是图中的TS和PS。MPEG传输流(TS)为携带可损数字视频和音频,媒体流的开始和结束可以不标识出来,就像广播或者磁带,其中的 例子包括ATSC,DVB,SBTVD 和HDV。MPEG-2系统还定义了MPEG节目流(PS),它为以文件为基础的媒体设计一个容器格式,用于 硬盘驱动器,光盘 和闪存。
MPEG-2 PS(节目流)是为在存储介质保存视频信息而开发的。 MPEG-2 TS(传输流)是为在网络传输视频信息而开发的。目前,MPEG-2 TS最广泛地应用是DVB系统。TS流与PS流的区别在于TS流的包结构是固定度的,而PS流的包结构是可变长度。 PS包与TS包在结构上的这种差异,导致了它们对传输误码具有不同的抵抗能力,因而应用的环境也有所不同。TS码流由于采用了固定长度的包结构,当传输误 码破坏了某一TS包的同步信息时,接收机可在固定的位置检测它后面包中的同步信息,从而恢复同步,避免了信息丢失。而PS包由于长度是变化的,一旦某一 PS包的同步信息丢失,接收机无法确定下一包的同步位置,就会造 成失步,导致严重的信息丢失。因此,在信道环境较为恶劣,传输误码较高时,一般采用TS码流;而在信道环境较好,传输误码较低时,一般采用PS码流由于 TS码流具有较强的抵抗传输误码的能力,因此目前在传输媒体中进行传输的MPEG-2码流基本上都采用了TS码流的包格。
正式名称是 ISO/IEC 13818-2或 ITU-T H.262。
提供隔行扫描和非隔行扫描视频信号的压缩编解码器。
MPEG-2的第二部分即视频部分和MPEG-1类似,但是它提供对隔行扫描视频显示模式的支持(隔行扫描广泛应用在广播电视领域)。MPEG-2视频并没有对低位速率(小于1Mbps)进行优化,在 3Mbit/s及以上位速率情况下,MPEG-2明显优于MPEG-1。 MPEG-2向后兼容,也即是说,所有符合标准的MPEG-2解码器也能够正常播放MPEG-1视频流。
MPEG-2技术也应用在了HDTV传输系统中。MPEG-2 不光运用于 DVD-Video ,现在大部 分 HDTV(高清电视)也采用 MPEG-2 编码,分辨率达到了 1920x1080。由于 MPEG-2 的普及,本来为 HDTV 准备 的 MPEG-3 最终宣告放弃。
MPEG-2视频通常包含多个GOP(GroupOf Pictures),每一个GOP包含多个帧(frame)。帧的帧类(frame type)通常包括I-帧(I-frame)、P-帧(P-frame)和B-帧(B-frame)。其中I-帧采用帧内编码,P-帧采用前向估计,B- 帧采用双向估计。一般来说输入视频格式是25(CCIR标准)或者29.97(FCC)帧/秒。
MPEG-2支持隔行扫描和逐行扫描。在逐行扫描模式下,编码的基本单元是帧。在隔行扫描模式下,基本编码可以是帧,也可以是场(field)。
原始输入图像首先被转换到YCbCr颜色空间。其中Y是亮度,Cb和Cr是两个色度通道。 Cb指蓝色色 度,Cr指红色色度。对于每一通道,首先采用块分区,然后形成“宏块”(macroblocks),宏块构成了编码的基本单元。每一个宏块再分 区成8x8的小块。色度通道分区成小块的数目取决于初始参数设置。例如,在常用的4:2:0格式下,每个色度宏块只采样出一个小块,所以三个通道宏块能够 分区成的小块数目是4+1+1=6个。
对于I-帧,整幅图像直接进入编码过程。对于P-帧和B-帧,首先做运动补偿。通常来说,由于相邻帧之间的相关 性很强,宏块可以在前帧和后帧中对应相近的位置找到相似的区域匹配的比较好,这个偏移量作为运动向量被记录下来,运动估计重构的区域的误差被送到编码器中编码。
对于每一个8×8小块,离散余弦变换把图像从空间域转换到频域。得到的变换系数被量化并重新组织排列顺序,从而增加长零的可能性。之后做游程编码(run-length code)。最后作哈夫曼编码(Huffman Encoding)。
I帧编码是为了减少空间域冗余,P帧和B帧是为了减少时间域冗余。
GOP是由固定模式的一系列I帧、P帧、B帧组成。常用的结构由15个帧组成,具有以下形式 IBBPBBPBBPBBPBB。GOP中各个帧的比例的选取和带宽、图像的质量要求有一定关系。例如因为B帧的压缩时间可能是I帧的三倍,所以对于计算 能力不强的某些实时系统,可能需要减少B帧的比例。
MPEG-2输出的比特流可以是匀速或者变速的。最大比特率,例如在DVD应用上,可达10.4 Mbit/s。如果要使用固定比特率,量化尺度就需要不断的调节以产生匀速的比特流。但是,提高量化尺度可能带来可视的失真效果。比如马赛克现象。
MPEG-2的第三部分定义了音频压缩标准。MPEG-2 BC(Backwards compatible),后向兼容MPEG-1音频。该部分改进了MPEG-1的音频压缩,支持两通道以上的音频,可高达5.1多声道。MPEG-2音频 压缩部分也保持了向后兼容的特点(也称为MPEG - 2 BC),允许的MPEG - 1音频解码器解码两个主立体声组件。还定义音频MPEG-1 Layer I,II ,III额外的比特率和采样频率。
例如mp2,是MPEG-1 Audio level 2,标准有:ISO/IEC 11172-3, ISO/IEC 13818-3。MPEG-1Layer II 定义在 ISO/IEC 11172-3,也就是MPEG-1的第三部分,在 ISO/IEC 13818-3,也就是MPEG-2的第3部分定义扩展。
描述测试程序。
描述软件仿真系统。
描述DSM-CC(数字存储媒体命令及控制)扩展。
MPEG-2的第七部分定义了不能向后兼容的音频压缩(也成为MPEG-2 NBC)。也成为MPEG-2 NBC(not-backwards compatible MPEG-1Audio)。该部分提供了更强的音频功能。通常我们所说的MPEG-2 AAC指的就是这一部分。AAC即Advanced Audio Coding。 AAC是比以前的MPEG音频标准的效率,并在某个程度上没有它的前任MPEG-1 Layer3(MP3)复杂,它没有复杂的混合滤波器(hybrid filter bank)。它支持从1到48个通道,采样率从8-96千赫,多渠道,多语种和多节目(multiprogram)能力。AAC也在MPEG-4标准的第 3部分描述。
已取消。
实时接口扩展。
DSM-CC一致性扩展。
知识产权管理(IPMP)。XML定义在ISO/IEC23001-3。MPEG-2内核技术大约涉及640个专利,这些专利主要集中在20间公司和一间大学。
MPEG- 2提供新的音频编码方式。在第3部分和第7部分介绍。
MPEG-2 BC (backward compatible with MPEG-1 audio formats),使用一半的取样速率处理低位速率的音频,(MPEG-1 Layer 1/2/3 LSF),多通道编码达到5.1个通道。
MPEG-2 NBC (Non-Backward Compatible),提供MPEG-2AAC,且不能向后兼容, 多通道编码达到 48个通道。
例如一台DVD播放机可以说,它支持最多的主要profile和主要level(通常写为MP@ML)。
MPEG-2主要的profile:
YCbCr |
||||||
SP |
Simple Profile |
简单类 |
I帧、P帧 |
4:2:0 |
4:3或16:9 |
|
MP |
Main Profile |
主类 |
I帧、P帧、B帧 |
4:2:0 |
4:3 或16:9 |
|
SNR |
SNR Scalable profile |
信噪比分层类 |
I帧、P帧、B帧 |
4:2:0 |
4:3 或16:9 |
信噪比可伸缩 |
Spatial |
Spatially scalable profile |
空间可分层类 |
I帧、P帧、B帧 |
4:2:0 |
4:3 或16:9 |
信噪比或空间可伸缩 |
442P |
4:2:2 Profile |
I帧、P帧、B帧 |
4:2:2 |
|||
HP |
High profile |
高类 |
I帧、P帧、B帧 |
4:2:0或 4:2:2 |
4:3 或16:9 |
信噪比或空间可伸缩 |
MPEG-2主要的level:
LL |
Low Level |
23.976, 24, 25, 29.97, 30 |
352×288 |
3,041,280 |
4 |
ML |
Main Level |
23.976, 24, 25, 29.97, 30 |
720×576 |
10,368,000,例外为:HP中4:2:0为14,475,600,4:2:2为11,059,200 |
15 |
H-14 |
High-1440 level |
23.976, 24, 25, 29.97, 30, 50, 59.94, 60 |
1440×1152 |
47,001,600,例外为:HP中4:2:0为62,668,800 |
60 |
HL |
High level |
23.976, 24, 25, 29.97, 30, 50, 59.94, 60 |
1920×1152 |
62,668,800,例外为:HP中4:2:0为83,558,400 |
80 |
组合例子
176 × 144 |
15 |
4:2:0 |
0.096 |
Wireless handsets |
|
352 × 288 |
15 |
4:2:0 |
0.384 |
PDAs |
|
320 × 240 |
24 |
||||
352 × 288 |
30 |
4:2:0 |
4 |
Set-top boxes (STB) |
|
720 × 480 |
30 |
4:2:0 |
15 (DVD: 9.8) |
DVD, SD-DVB |
|
720 × 576 |
25 |
||||
1440 × 1080 |
30 |
4:2:0 |
60 (HDV: 25) |
HDV |
|
1280 × 720 |
30 |
||||
1920 × 1080 |
30 |
4:2:0 |
80 |
ATSC 1080i, 720p60, HD-DVB (HDTV). (Bitrate for terrestrial transmission is limited to 19.39Mbit/s) |
|
1280 × 720 |
60 |
||||
4:2:2 |
|||||
720 × 480 |
30 |
4:2:2 |
50 |
Sony IMX using I-frame only, Broadcast "contribution" video (I&P only) |
|
720 × 576 |
25 |
||||
1440 × 1080 |
30 |
4:2:2 |
80 |
Potential future MPEG-2-based HD products from Sony and Panasonic |
|
1280 × 720 |
60 |
||||
1920 × 1080 |
30 |
4:2:2 |
300 |
Potential future MPEG-2-based HD products from Panasonic |
|
1280 × 720 |
60 |
DVD中采用了 MPEG-2标准并引入如下技术参数限制: * 分辨率 o 720 x 480, 704 x 480, 352 x 480, 352 x 240 像素(NTSC制式) o 720 x 576, 704 x 576, 352 x 576, 352 x 288 像素(PAL制式) * 纵横比 o 4:3 o 16:9 * 帧率(帧播放速度) o 59.94 场/秒,23.976帧/秒,29.97帧/秒(NTSC) o 50 场/秒,25帧/秒(PAL) * 视频+音频 比特率 o 平均最大缓冲区 9.8 Mbit/s o 峰值 15 Mbit/s o 最小值 300 Kbit/s * YUV 4:2:0 * 字幕支持 * 内嵌字幕支持(NTSC only) * 音频 o LPCM编码:48kHz或96kHz;16或24-bit;最多可达6声道 o MPEG Layer 2 (MP2):48 kHz,可达5.1声道 o 杜比数字-Dolby Digital(DD,也称为AC-3):48 kHz,32-448kbit/s,可达5.1声道 o 数字家庭影院系统-Digital Theater Systems (DTS):754 kbit/s或1510 kbit/s o NTSC制式DVD必须包含至少一道LPCM或Dolby Digital o PAL制式DVD必须包含至少一道MPEG Layer 2、LPCM或者Dolby Digital * GOP结构 o 必须为GOP提供串行的头信息 o GOP最大可含帧数目:18 (NTSC) / 15 (PAL)
DVB-MPEG相关技术参数: * 必须符合以下一种分辨率: o 720 × 480 像素,24/1.001,24,30/1.001或30帧/秒 o 640 × 480 像素,24/1.001,24,30/1.001或30帧/秒 o 544 × 480 像素,24/1.001,24,30/1.001或30帧/秒 o 480 × 480 像素,24/1.001,24,30/1.001或30帧/秒 o 352 × 480 像素,24/1.001,24,30/1.001或30帧/秒 o 352 × 240 像素,24/1.001,24,30/1.001或30帧/秒 o 720 × 576 像素,25帧/秒 o 544 × 576 像素,25帧/秒 o 480 × 576 像素,25帧/秒 o 352 × 576 像素,25帧/秒 o 352 × 288 像素,25帧/秒
必须符合以下一种分辨率: o 1920 × 1080 像素,最多60帧/秒(1080i) o 1280 × 720 像素,最多60帧/秒(720p) o 720 × 576 像素,最多50帧/秒,25帧/秒(576i,576p) o 720 × 480 像素,最多60帧/秒,30帧/秒(480i,480p) o 640 × 480 像素,最多60帧/秒 注:1080i按 1920×1088像素编码,但是最后8行在显示时抛弃。
YCbCr不是一种绝对色彩空间,是YUV压缩和偏移的版本。右图为UV色版。
Y(Luma,Luminance)视讯,也就是灰阶值。UV 视作表示彩度的 C(Chrominance或Chroma)。主要的采样(subsample)格式有YCbCr 4:2:0、YCbCr 4:2:2、YCbCr 4:1:1和 YCbCr 4:4:4。YUV的表示法称为 A:B:C 表示法:
* 4:4:4 表示完全取样。 * 4:2:2 表示 2:1 的水平取样,没有垂直下采样。 * 4:2:0 表示 2:1 的水平取样,2:1 的垂直下采样。 * 4:1:1 表示 4:1 的水平取样,没有垂直下采样。
最常用Y:UV记录的比重通常 1:1 或2:1,DVD-Video 是以 YUV 4:2:0 的方式记录,也就是我们俗称的I420,YUV4:2:0 并不是说只有U(即 Cb), V(即 Cr)一定为 0,而是指U:V互相援引,时见时隐,也就是说对于每一个行,只有一个U或者V份量,如果一行是4:2:0的话,下一行就是4:0:2,再下一行是 4:2:0...以此类推。
以上来自wiki资料的整理。
编解码学习笔记(四):Mpeg系列——Mpeg 4
在上次对MPEG-2的学习整理中,有一个疑惑,双声道理解,就是左右立体声,但是5.1声道是什么?我们经常看到杜比5.1声道的说法。“0.1”声道具体指什么?今天去wiki查了一下,相关内容也整理入我们的学习笔记。本文档资料来源:
- wiki
- http://baike.baidu.com/view/190268.htm
- http://baike.baidu.com/view/25047.htm
使用杜比数字技术下,最标准常用的是5.1声道设置,但杜比数字容许一系列不同声道的选择。全部可供选择的声道如下列所示:
- 单声道(中央)
- 双声道立体声(左、右),选择性地交叉应用杜比环回
- 三声道立体声(左、中、右)
- 双声道立体声加单环回(左、右、环回)
- 三声道立体声加单环回(左、中、右、环回)
- 四声道环回立体声(左前、右前、左后、右后)
- 五声道环回立体声(左前、中、右前、左后、右后)
以上所有这些设置可选择性地使用低频效果和杜比数字EX矩阵编码中加入附加后环绕声道。杜比编码技术是向下兼容 的,很多杜比播放器/解码器均备有向下混音作用是发布不同声道至可供使用的扬声器。这包括一些功能例如声音数据通过前扬声器播放(如适用),和当中央扬声器不适用时发布中央频道至左或右扬声器。或当用户只有2.0喇叭时,杜比解码器能把多声道信号混音编码为 2.0立体声。
在5.1, 7.1 或其他等文字中,'.1'指的是低频LFE声道。
其实5.1声道就是使用5个喇叭和1个超低音扬声器来实现一种身临其境的音乐播放方式,它是由杜比公司开发的,所以叫做“杜比5.1声道”。在5.1声道系统里采用左(L)、中(C)、右(R)、左后(LS)、右后(RS)五个方向输出声音,使人产生犹如身临音乐厅的感觉。五个声道相互独立,其中“.1” 声道,则是一个专门设计的超低音声道。正是因为前后左右都有喇叭,所以就会产生被音乐包围的真实感。如右图所示。
MPEG-4是一套用于音频、视频信息的压缩编码标准, 由国际标准化组织(ISO)和国际电工委员会(IEC)下属的“動態影像专家组”(Moving Picture Experts Group,即MPEG) 制定,第一版在1998年10月通過,第二版在1999年12月通過。MPEG-4格式的主要用途在於網上流媒体、光碟、語音傳送(視訊電話),以及電視廣播。MPEG-4作为ISO/IEC14496正式发布。ISO/IEC 14496-Coding of audio-visual object (AV对象编码)。
为了应对网络传输等环境,传统的 MPEG-1/2 已经不能适应,所以促使了 MPEG-4 的诞生。 与 MPEG-1和MPEG-2相比,MPEG-4的特点是其更适于交互AV服务以及远程监控。MPEG-4是第一个使你由被动变为主动(不再只是观看,允许 你加入其中,即有交互性)的动态图像标准,它的另一个特点是其综合性。从根源上说,MPEG-4试图将自然物体与人造物体相溶合 (视觉效果意义上的)。MPEG-4的设计目标还有更广的适应性和更灵活的可扩展性。 MPEG-4 采用了一系列新技术,来满足在低带宽下传输较高视频质量的需求。DivX,XviD,MS MPEG4 都是采用的MPEG-4 视频编码,除了在 DVDRip 上面的应用,3GPP现在也接纳了 MPEG-4 作为视频编码方案。
最初MPEG-4的主要目的是用于低比特率下的视频通信,但是作为一个多媒体的编码标准,它的范围最后得到了扩展。在技术方面MPEG-4允许不同的软件/硬件开发商创建多媒体对象来提供更好的适应性、灵活性,为数字电视,动态图像,互联网等业务提供更好的质量。
MPEG-4提供范围从每秒几k比特到每秒数十兆比特的,它具有下面功能:
- 改善MPEG-2的编码效率
- MPEG-4基于更高的编码效率。同已有的或即将形成的其它标准相比,在相同的比特率下,它基于更高的视觉听觉质量,这就 使得在低带宽的信道上传送视频、音频成为可能。同时MPEG-4还能对同时发生的数据流进行编码。一个场景的多视角或多声道数据流可以高效、同步地合成为 最终数据流。这可用于虚拟三维游戏、三维电影、飞行仿真练习等。
- 提供混合媒体数据(视频,音频,语音)的编码能力
- 差错容忍使得内容稳定传输。
- 当在传输有误码或丢包现象时,MPEG4受到的影响很小,并且能迅速恢复。
- 提供受众视听场景的互动能力,MPEG-4终端用户提供不同的对象支持各种互动要求。
- MPEG-4提供了基于内容的多媒体数据访问工具,如索引、超级链接、上传、下载、删除等。利用这些工具,用户可以方便地 从多媒体数据库中有选择地获取自己所需的与对象有关的内容,并提供了内容的操作和位流编辑功能,可应用于交互式家庭购物,淡入淡出的数字化效果等。 MPEG-4提供了高效的自然或合成的多媒体数据编码方法。它可以把自然场景或对象组合起来成为合成的多媒体数据。
- MPEG-4对传输数据网是透明的,它可以兼容各种网络。
- MPEG-4提供了易出错环境的鲁棒性,来保证其在许多无线和有线网络以及存储介质中的应用,此外,MPEG-4还支持基于内容的的可分级性,即把内容、质量、复杂性分成许多小块来满足不同用户的不同需求,支持具有不同带宽,不同存储容量的传输信道和接收