①多媒体是融合两种或者两种以上媒体的一种人-机交互式的信息交流和传播媒体。
对于信息技术来说,多媒体是用各种媒体综合表达信息内容体。对于计算机来说,多媒体是一种将图片、文本、声音、图像等内容混合在一起的计算机技术。
②多媒体技术是利用计算机综合处理文本、图形、图像、声音、动画、视频等信息,建立逻辑关系和人机交互的技术。
③多媒体的关键技术有a、视频音频数据压缩/解压缩技术(如今已有压缩编码/解压缩编码的国际标准JPEG和MPEG)b、多媒体专用芯片技术(专用芯片是多媒体计算机硬件系统结构的关键,一种是固定功能芯片;另一种是可编程的数字信号处理器(DSP)芯片)c、大容量信息存储技术(利用数据压缩技术,在一张CD-ROM可以在光盘上获取70多个完全运动的视频图像或十几个小时的语言信息或数千幅静止图像)d、多媒体输入输出技术(包括媒体转换技术、媒体识别技术、媒体理解技术和综合技术)e、多媒体软件技术(多媒体操作系统、多媒体素材采集制作技术、多媒体编辑创作工具、多媒体数据库技术、超文本/超媒体技术、多媒体应用开发技术)f、多媒体通信技术(是多媒体技术与通信技术的有机结合,它突破了计算机、通信、电视等传统产业相对独立发展的界限,是计算机、通信、电视领域的革命。g、虚拟现实技术(利用计算机技术生成的逼真视觉、听觉触觉、嗅觉等感觉世界,用户可以利用人的自然技能互动调查生成的虚拟实体)
超级媒体和超级文本的区别在于,超级文本主要以文本的形式表达信息,建立的链接关系主要是句子之间的链接关系。除了使用文本外,超级媒体还使用图形、图像、声音、
各种媒体,如动画或影视片段来表达信息,建立的链接关系是文本、图形、图像、声音
媒体之间的链接关系,如动画和影视片段。
①音频的定义是:1.Audio,指人说话的声音频率,通常指300Hz-3400Hz的频带。 2.指存储声音内容的文件。 3.在某些方面,它可以指振动作为过滤器。
②音频分为四类:非平衡模拟音频、平衡模拟音频、非平衡数字音频、平衡数字音频。
③声音三要素:音调、响度、音色。
①数字音频是一个数据序列,在时间上是间歇性的。数字音频将模拟量表示的音频信号转换为由许多二进制数1和0组成的数字音频信号。
②音频信号数字化分为三个步骤。1.取样:按一定时间间隔取样连续信号。奈奎斯特取样定理认为,只要取样频率大于或等于信号中最高频率的两倍,原始信号就可以根据取样完全恢复,这相当于每个周期至少两点,当信号是最高频率。但这只是理论上的定理,在实践中,人们使用混合波形,使信号更接近原始信号。2.量化:取样的离散音频应转换为计算机可以表示的数据范围,称为量化。量化等级取决于量化精度,即用多少位二进制数来表示音频数据。一般有8位,12位或16位。定量精度越高,声音的保真度越高。以8位为例,稍微说明一下原理。如果一台计算机能够接收八位二进制数据,则相当于能够接受256个十进制数,即256个电平数。可以有256个电平代表模拟信号,但实际上,采样后某一时刻信号的电平不一定等于256个电平。此时,取样信号电平只能用最接近的数字代码表示。3、编码:将音频信号取样并量化为二进制,但实际上是编码音频信号,但用不同的取样频率和不同的定量位数记录声音,单位时间所需的存储空间不同。波形声的主要参数包括:取样频率.量化位数.声道数.在压缩之前,波形声的码率计算公式为:波形声的码率=取样频率*量化位数*声道数/8。波形声的代码率一般较大,因此转换后的数据必须压缩。
①不均匀采样有时也被称为随机采样。采样时间间隔完全相等,采样时间间隔不确定,完全随机。
②微小信号采用细量化(Δ小),对于大信号,使用粗量化(Δ大)方法。
③不均匀采样的优点是具有抗频率混合性能,可以突破奈奎斯特频率的限制,实现低采样频率检测高频信号。
非均匀量化的优点是:a.当输入量化器的信号具有不均匀分布的概率密度时,平均信号量化噪声功率比较高。b.当量化不均匀时,量化噪声功率的平方根值基本上与信号抽样值成比例。因此,量化噪声对大小信号的影响大致相同,即提高小信号时的量化信号噪声比。
①MIDI是英语Music Instrument Digital Interface 缩写被翻译成数字乐器接口,也就是说,它的真正含义是不同设备的信号传输接口的名称。
②MIDI文件与WAV表面上看,两种文件都能产生声效或音乐,但它们的本质却完全不同。普通声音文件(*.wav文件)是指计算机在计算机的存储介质(硬盘或CD)中直接将声音信号的模拟信号取样量化成对应声波的数字信号。通常声音文件比较大,比如记录一分钟的声音(立体声,CD音质),大约10,.5M存储空间。一首几分钟的歌需要几十兆的硬盘,一个CD光盘只能容纳十几首歌。为了减少声音文件的存储空间,近年来在计算机技术中采用了压缩技术,在不具备图像播放质量的前提下,将声音文件的大小压缩到原来的10~12分之一,这是近年来流行的MP3文件格式。而MIDI文件不是直接记录乐器的发音,而是记录演奏乐器的各种信息或指令,如使用哪种乐器,何时按键,强度等。至于播放时发出的声音,它是通过播放软件或音源的转换而成的。因此MIDI文件通常比声音文件小得多。一首音乐只有十几K或几十KK,声音文件的千分之一左右,便于存储和携带。
数据传输率=采样频率×量化位数×声道数 音频文件大小=数据传输率×播放时间
8.
真彩色(true-color)指图像中的每个像素值分为R、G、B三种基色分量,每种基色分量直接决定其基色强度,产生的颜色称为真色。
伪色一般是指颜色搜索表(简称CLUT)表示索引值。MS Windows 16
在色位图格式中,用色板索引图像素的编码值0~F表示,在256、216、…直接用于色图像格式RGB编码真实值。16色位图格式记录的图像颜色为伪色,256、2216、…图像格式记录的是真色。
多媒体数据中有多种数据冗余:空间冗余、时间冗余、结构冗余、视觉冗余、知识冗余、图像区域相同性冗余。
a.空间冗余是静态图像中最重要的数据冗余。同一场景表面采样点的颜色之间往往存在空间连贯性,但基于离散像素采样表示物体颜色的方式通常不使用这种连贯性。例如,图像中有一个连续的区域,其像素颜色相同,产生空间冗余。
b.时间冗余是序列图像中经常包含的冗余。一组连续图像之间往往存在时间和空间的相关性,但这种连贯性通常不用于基于离散时间采样来表示运动图像。例如,房间里的两个人在聊天。在这个聊天过程中,背景(房间和家具)一直是一样的,没有移动。此外,只有动作和位置的变化,两个人在聊天。
c.在某些场景中,结构冗余是一种明显的图像分布模式,称为结构。图像中重复或类似的纹理结构可以通过特定的过程生成。例如,地板、蜂窝、砖墙、草席等图形结构上有冗余。已知的分布模式可以通过某个过程生成图像。
d.视觉冗余是人类视觉系统对图像场的敏感性是不均匀和非线性的。对亮度变化敏感,对色度变化相对不敏感;在高亮度区域,人眼对亮度变化的敏感性降低;对物体边缘敏感,内部区域相对不敏感;对整体结构敏感,对内部细节不敏感。根据这些视觉特性对图像信息进行取舍。
e.知识冗余。对于图像中重复出现的部分,我们可以构造出基本模型,并创建对应各种特征的图像库,进而使图像的存储只需要保存一些特征参数,从而可以大大减少数据量。知识冗余是模型编码主要利用的特性。
f.图像区域的相同性冗余。它是指在图像中的两个或多个区域所对应的所有像素值相同或相近,从而产生的数据重复性存储,这就是图像区域的相似性冗余。在以上的情况下,当记录了一个区域中各像素的颜色值,则与其相同或相近的其他区域就不需要记录其中各像素的值。采用向量量化(Vector quantization)方法就是针对这种冗余性的图像压缩编码方法。
①由于媒体元素种类繁多、构成复杂,数字化信息的数据量十分庞大。无疑给存储器的存储量、通信干线的信道传输率以及计算机的速度都增加了极大的压力。如果单纯靠扩大存储器容量、增加通信干线传输率的办法来解决问题是不现实的。通过数据压缩技术可以大大降低数据量,以压缩的形式存储和传输,既节约了存储空间,又提高了通信干线的传输效率,同时也使计算机得以实时处理音频、视频信息,保证播放出高质量的视频和音频节目。
②经研究发现,与音频数据一样,图像数据中存在着大量的冗余。通过去除多媒体那些冗余数据可以极大地降低原始图像数据量,从而解决图像数据量巨大的问题。
答:数据压缩可分成两种类型,一种叫做无损压缩,另一种叫做有损压缩. 无损压缩是指使用压缩后的数据进行重构(或者叫做还原,解压缩),重构后的数据与原来的数据完全相同;无损压缩用于要求重构的信号与原始信号完全一致的场合.一个很常见的例子是磁盘文件的压缩.根据目前的技术水平,无损压缩算法一般可以把普通文件的数据压缩到原来的1/2~1/4.一些常用的无损压缩算法有霍夫曼(Huffman)算法和LZW(Lenpel-Ziv & Welch)压缩算法. 无损压缩:Huffman编码、游程编码、算术编码、词典编码
有损压缩是指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成误解.有损压缩适用于重构信号不一定非要和原始信号完全相同的场合.例如,图像和声音的压缩就可以采用有损压缩,因为其中包含的数据往往多于我们的视觉系统和听觉系统所能接收的信息,丢掉一些数据而不至于对声音或者图像所表达的意思产生误解,但可大大提高压缩比. 有损压缩:预测编码、变换编码、模型编码、基于重要性的编码、混合编码(JPEG,MPEG)
压缩比 图像质量 压缩和解压的速度
APCM是一种根据输入信号的幅度大小来改变量化阶距大小的编码技术,分为前向自适应和后向自适应编码两种类型。而DPCM是根据样本与样本之间存在的信息冗余来进行编码的一种数据压缩技术,它先对输入信号进行预测,计算预测值与真值之间的差,对差值进行编码。两者各考虑了问题的一个方面,如提高量化的自适应性、减少信息冗余,未能全面考虑既提高自适应性又减少信息的冗余。将二者的结合形成了ADPCM压缩技术。
对输入对相邻样本之差编码而不是对样本本身编码,由于相邻样本之差比实际样本幅度小,所以表示差信号需要较小的位数。
对于有些信号(例如图像信号)由于信号的瞬时斜率比较大,很容易引起过载,因此,不能用简单增量调制(△M编码)进行编码,对于这类瞬时斜率比较大的信号,通常采用一种综合了增量调制和PCM脉冲编码调制两者特点的调制方法进行编码,这种编码方式被简称为脉码增量调制,或称差值脉码调制,用DPCM表示。 这种调制方式的主要特点是把增量值分为个等级,然后把个不同等级的增量值编为位二进制代码( )再送到信道传输,因此,它兼有增量调制和PCM的各自特点。
此外,在相同比特速率条件下,DPCM比PCM信噪比也有很大的改善。与ΔM相比,由于它增多了量化级,因此,在改善量化噪声方面优于ΔM系统。DPCM的缺点是易受到传输线路上噪声的干扰,在抑制信道噪声方面不如ΔM。
备注:MPEG4里的预测编码方法,简称预测法(DPCM)
自适应脉冲编码调制是一种根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变;也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。 改变量化阶大小的方法有两种:前向自适应(forward adaptation)和后向自适应(backward adaptation)。
算术编码的特点:
从整个符号序列出发,采用递推形式连续编码的方法
不存在源符号和码字间的一一对应关系
1个算术码字要赋给整个信源符号序列,而每个码字本身确定了0和1之间的1个实数区间
算术编码过程只需用到加法和移位运算
16.
信息熵是用来度量信息中所含的信息量为信源的平均信息量(不确定性的度量)熵编码即编码过程中按熵原理不丢失任何信息的编码。信息熵为信源的平均信息量(不确定性的度量)。常见的熵编码有:香农(Shannon)编码、哈夫曼(Huffman)编码和算术编码(arithmetic coding)。在视频编码中,熵编码把一系列用来表示视频序列的元素符号转变为一个用来传输或是存储的压缩码流。输入的符号可能包括量化后的变换系数,运动向量,头信息(宏块头,图象头,序列的头等)以及附加信息(对于正确解码来说重要的标记位信息)。是无损数据压缩编码
1. 对于一个给定的符号列表,制定了概率相应的列表或频率计数,使每个符号的相对发生频率是已知。
2. 排序根据频率的符号列表,最常出现的符号在左边,最少出现的符号在右边。
3. 清单分为两部分,使左边部分的总频率和尽可能接近右边部分的总频率和。
4. 该列表的左半边分配二进制数字0,右半边是分配的数字1。这意味着,在第一半符号代都是将所有从0开始,第二半的代码都从1开始。
5. 对左、右半部分递归应用步骤3和4,细分群体,并添加位的代码,直到每个符号已成为一个相应的代码树的叶
算法采用从上到下构造二叉树的方法进行编码:首先按照符号出现的概率排序,然后从上到下使用递归方法将符号组分成两个部分,使每一部分具有近似相同的频数,在两边分别标记0和1,最后每个符号从顶至底的0/1序列就是它的二进制编码。
首先,将符号按照概率由大到小排队,如图所示。编码时,从最小概率的两个符号开始,可选其中一个支路为0,另一支路为1。这里,我们选上支路为0,下支路为1。再将已编码的两支路的概率合并,并重新排队。多次重复使用上述方法直至合并概率归一时为止。从图(a)和(b)可以看出,两者虽平均码长相等,但同一符号可以有不同的码长,即编码方法并不唯一,其原因是两支路概率合并后重新排队时,可能出现几个支路概率相等,造成排队方法不唯一。一般,若将新合并后的支路排到等概率的最上支路,将有利于缩短码长方差,且编出的码更接近于等长码。
编码是一种从下到上构造二叉树的统计最优变码长符号编码,让最频繁出现的符号具有最短的编码;编码的过程=生成一棵二叉树,具体编码步骤:(1) 将符号按概率从小到大排列叶节点、(2) 连接两个概率最小的顶层节点来组成一个父节点,并在到左右子节点的两条连线上分别标记0和1、(3) 重复步骤2,直到得到根节点,形成一棵二叉树、(4) 从根节点开始到相应于每个符号的叶节点的0/1串,就是该符号的二进制编码。
都属于不对称、无损、变码长的熵编码,都不需要另外附加同步分割符号;都没有错误保护功能、且不能随机定位;哈夫曼编码方法的编码效率一般会更高一些。
算术编码也是一种最优变码长的熵编码,其主要优点是克服了编码必须为整数位,这与实数的概率值相差大的缺点;思路——区间映射:把输入符号串(数据流)映射成[0,1)区间中的一个实数值;过程:将串中使用的符号表按原编码从小到大顺序排列成表,用[0,1)中的一个宽度等于其出现概率的实数区间来表示表中的每一个符号,设置初始编码区间为[0, 1],根据当前输入字符所对应的区间的端点xi与yi及原编码区间的左端点lj-1和大小dj-1来确定当前编码区间:
lj?lj?1?dj?1?xi, rj?lj?1?dj?1?yi, j ? 1, ..., n
输入串的最后一个符号所对应编码区间的下限ln就是该符号串的算术编码值。
• run-length encoding游程编码又称“运行长度编码”或“行程编码”,是一种统计编码,该编码属于无损压缩编码,是栅格数据压缩的重要编码方法。
• 游程编码的基本原理是:用一个符号值或串长代替具有相同值的连续符号(连续符号构成了一段连续的“行程”。行程编码因此而得名),使符号长度少于原始数据的长度。只在各行或者各列数据的代码发生变化时,一次记录该代码及相同代码重复的个数,从而实现数据的压缩。
RLE = run length encoding 行程编码/游程长度编码; RLE视数字信息为无语义的字符序列(字节流),对相邻重复的字符,用一个数字表示连续相同字符的数目(称为行程长度),可达到压缩信息的目的; RLE所能获得的压缩比主要是取决于图像本身的特点,如果图像中具有相同颜色的图像块越大,图像块数目越少,获得的压缩比就越高(一般为人造的图形)。反之,压缩比就越小(一般为拍摄的图片)。
答: 1、NTSC(National Television System Committee)制是最早的彩电制式,1952年由美国国家电视标准委员会制订。它采用正交平衡调幅的技术方式,故也称为正交平衡调幅制。美国、加拿大等大部分西半球国家以及中国的台湾、日本、韩国、菲律宾等均采用这种制式。其优点是解码线路简单、成本低。
2、SECAM制,SECAM是法文的缩写,意为顺序传送彩色信号与存储恢复彩色信号制,又称行轮换调频制,是由法国在1956年提出、1966年制订的一种彩电制式。它克服了NTSC制式相位失真的缺点,采用时间分隔法来传送两个色差信号。使用SECAM制的国家主要集中在法国、东欧和中东一带。其优点是在三种制式中受传输中的多径接收的影响最小,色彩最好。
3、PAL(Phase Alternation Line),正交平衡调幅逐行,倒相式简称逐行倒相式。它是当时的西德在1962年制订的彩色电视广播标准,它采用逐行倒相正交平衡调幅的技术方法,也克服了NTSC制相位敏感造成色彩失真的缺点。西德、英国等一些西欧国家,新加坡、中国大陆及香港、澳大利亚、新西兰等国家采用这种制式。其优点是对相位偏差不敏感,并在传输中受多径接收而出现重影彩色的影响较小,是最成功的一种彩电制式,但电视机电路和广播设备比较复杂。
人眼对彩色细节的分辨能力远比对亮度细节的分辨率低,通常把RGB空间表示的颜色变换到YUV或者YIQ颜色空间。每一种彩色空间都产生一种亮度分量信息和两种色度分量信息,而且亮度信号(Y)和色度信号(U,V)是相互独立的,每一种变换使用的参数都是为了适应某种类型的显示设备。
彩色电视信号中采用YIQ或者YUV空间,一是为了兼容黑白电视,二是为了实现压缩。
YUV模型用于PAL制式的电视系统,Y表示亮度,UV并非任何单词的缩写
Y=0.299R+0.587G+0.114B
U=0.493(B-Y)
V=0.877(R-Y)
PUV空降相当于对RGB空间做了一个解相关的线性变换。U和V的比值决定色调,而(U2+V2)/2代表颜色的饱和度。
YIQ模型与PUV类似,用于NTSC制式的电视系统。YIQ颜色空间中的I和Q分量相当于将YUV空间中的U,V分量做了一个33度的旋转。
答:1)、图像子采样的格式
(一)4:4:4 YCbCr格式:这种采样格式不是子采样格式,它是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、4个红色差Cr样本和4个蓝色差Cb样本,这就相当于每个像素用3个样本表示。对于消费类和计算机应用,每个分量的每个样本精度为8比特;对于编辑类应用,每个分量的每个样本的精度为10比特。因此每个像素的样本需要24比特或者30比特。
(二)4:2:2 YCbCr 格式 :这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、2个红色差Cr样本和2个蓝色差Cb样本,平均每个像素用2个样本表示。对于消费类和计算机应用,每个分量的每个样本的精度为8比特;对于编辑类应用,每个分量的每个样本精度为10比特。因此每个像素的样本需要16比特或者20比特。在帧缓存中,每个样本需要16比特或者20比特。显示像素时,对于没有Cr和Cb的Y样本,使用前后相邻的Cr和Cb样本进行计算得到的Cr和Cb样本。
(三)4:1:1 YCbCr 格式 :这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本,平均每个像素用1.5个样本表示。显示像素时,对于没有Cr和Cb的Y样本,使用前后相邻的Cr和Cb样本进行计算得到该Y样本的Cr和Cb样本。这是数字电视磁带(DVC ,digital video cassette)上使用的格式。
(四)4:2:0 YCbCr 格式 :这种子采样格式是指在水平和垂直方向上每2个连续的采样点上取2个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本,平均每个像素用1.5个样本表示。在实际实现时,有两种略为不同的形式。
(1) H.261、H.263和MPEG-1 :H.261、 H.263和MPEG-1使用的子采样格式中,在水平方向的2个样本和垂直方向上的2个Y样本共4个样本有1个Cb样本和一个Cr样本,并且子采样在水平方向上有半个像素的偏移。如果每个分量的每个样本精度为8比特,在帧缓存中每个样本就需要12比特。
(2) MPEG-2 :MPEG-2使用的子采样格式中,在水平方向的2个样本和垂直方向上的2个Y样本共4个样本有1个Cb样本和一个Cr样本,但子采样在水平方向上没有半个像素的偏移(图07-04-7,625扫描行系统)。
2)、4:2:2时平均每个像素用2个样本表示,就是说352*288*2就行了
答:DCT = Discrete Cosine Transform,离散余弦变换;本课中被用于 JPEG和MPEG-1/2中的图像压缩编码。
答: 1)、MPEG的全名为[Moving Pictures Experts Group],中文译名是动态图像专家组。MPEG标准主要有以下五个,MPEG-1、MPEG-2、MPEG-4、MPEG-7及MPEG-21等。该专家组建于1988年,专门负责为CD建立视频和音频标准,而成员都是为视频、音频及系统领域的技术专家。及后,他们成功将声音和影像的记录脱离了传统的模拟方式,建立了ISO/IEC1172压缩编码标准,并制定出MPEG-格式,令视听传播方面进入了数码化时代。因此,大家现时泛指的MPEG-X版本,就是由ISO(International Organization for Standardization)所制定而发布的视频、音频、数据的压缩标准。)
MPEG标准的视频压缩编码技术主要利用了具有运动补偿的帧间压缩编码技术以减小时间冗余度,利用DCT技术以减小图象的空间冗余度,利用熵编码则在信息表示方面减小了统计冗余度。这几种技术的综合运用,大大增强了压缩性能。
2)、JPEG是Joint Photographic Experts Group(联合图像专家组)的缩写,文件后辍名为“.jpg”或“.jpeg”,是最常用的图像文件格式,由一个软件开发联合会组织制定,是一种有损压缩格式,能够将图像压缩在很小的储存空间,图像中重复或不重要的资料会被丢失,因此容易造成图像数据的损伤。尤其是使用过高的压缩比例,将使最终解压缩后恢复的图像质量明显降低,如果追求高品质图像,不宜采用过高压缩比例。但是JPEG压缩技术十分先进,它用有损压缩方式去除冗余的图像数据,在获得极高的压缩率的同时能展现十分丰富生动的图像,换句话说,就是可以用最少的磁盘空间得到较好的图像品质。而且 JPEG是一种很灵活的格式,具有调节图像质量的功能,允许用不同的压缩比例对文件进行压缩,支持多种压缩级别,压缩比率通常在10:1到40:1之间,压缩比越大,品质就越低;相反地,压缩比越小,品质就越好。比如可以把1.37Mb的BMP位图文件压缩至20.3KB。当然也可以在图像质量和文件尺寸之间找到平衡点。JPEG格式压缩的主要是高频信息,对色彩的信息保留较好,适合应用于互联网,可减少图像的传输时间,可以支持24bit真彩色,也普遍应用于需要连续色调的图像。
JPEG格式是目前网络上最流行的图像格式,是可以把文件压缩到最小的格式,在 Photoshop软件中以JPEG格式储存时,提供11级压缩级别,以0—10级表示。其中0级压缩比最高,图像品质最差。即使采用细节几乎无损的10级质量保存时,压缩比也可达 5:1。以BMP格式保存时得到4.28MB图像文件,在采用JPG格式保存时,其文件仅为178KB,压缩比达到24:1。经过多次比较,采用第8级压缩为存储空间与图像质量兼得的最佳比例。
答:两种压缩算法:基于DCT的有损压缩算法、基于预测技术的无损压缩算法;四种编码模式:无损模式(基于DPCM)、基准模式(基于DCT,一遍扫描)、递进模式(基于DCT,从粗到细多遍扫描)、层次模式(含多种分辨率的2n倍);
答: 8*8分块→正向DCT→量化→Z字形编码→使用DPCM对DC系数进行编码→使用RLE对AC系数进行编码→熵编码(Huffman/算术);
其中使图像质量下降的是量化。
答:DC = direct current = 直流系数 = DCT变换F(0, 0),有两个特点——系数的数值比较大、相邻图像块的数值变化不大,宜采用DPCM编码;
AC = alternating current =交流系数 = DCT变换F(u, v),特点——数值小,许多被量化为0,宜采用RLE编码。
答:Z字形编码可将二维数据化为一维;且因右下方的高频AC系数值一般较小,许多被量化为0, Z字形编码可以将多个0连成串,而连续多个0的串宜采用RLE编码。
答:RLE、Huffman、算术。
答:共有6种标准表——亮度与色差的量化表、亮度与色差DC系数差的Huffman编码表、亮度与色差AC系数差的Huffman编码表。
JPEG编码中使用了两种标准的量化表:亮度量化表和色差量化表。前者细量化,后者粗量化。
①小波变换具有恒Q性质及自动调节对信号分析的时宽/带宽等一系列突出优点,因此被人们称为信号分析的“数学显微镜”。
②小波变换可用于图像压缩。一幅图像经过一次小波变换之后,概貌信息大多集中在低频部分,而其余部分只有微弱的细节信息。为此,如果只保留占总数据量1/4的低频部分,对其余三个部分的系数不存储或传输,在解压时,这三个子块的系数以0来代替,则就可以省略图像部分细节信息,而画面的效果跟原始图像差别不是很大。这样,就可以得到图像压缩的目的。
33.
JPEG2000 的优势在于:良好的低比特率压缩性能、可实现感兴趣区(region of interest)编码、渐进传输、良好误差鲁棒性等。更重要的是,所有这些都可以在一个统一的算法里实现
34.
①MPEG标准是活动图象专家组(Moving Picture Expert Group)制定的标准。
②MPEG标准主要有以下五个,MPEG-1、MPEG-2、MPEG-4、MPEG-7及MPEG-21等。
③MPEG-1用于数字盒式录音带,VCD,MP3。MPEG-2用于具有演播室质量标准清晰度电视SDTV中。主要指标有压缩比,图像清晰度。MPEG-4用于视像电话、视像电子邮件,家庭摄影录像,网络实时影像等。MPEG-7可应用于数字图书馆,例如图象编目、音乐词典等;多媒体查询服务,如电话号码簿等;广播媒体选择,如广播与电视频道选取;多媒体编辑,如个性化的电子新闻服务、媒体创作等。MPEG-21为“多媒体框架”或者“数字视听框架”,它致力于为多媒体传输和使用定义一个标准化的、可互操作的和高度自动化的开放框架。
①运动补偿是通过先前的局部图像来预测、补偿当前的局部图像。它的目的是减少帧序列的冗余信息。
②MPEG-Vide在空间上采用JPEG压缩算法来去掉冗余信息。在时间上,采用运动补偿算法来去掉冗余信息。
MPEG定义了帧内图像,预测图像和双向预测图像这三种图像。
②帧内图像不参考任何过去的或者将来的其他图像帧。预测图像需要过去的图像帧来进行预测编码。双向预测图像需过去与未来的帧来插值编码。
预测图像P使用的一类参数是当前要编码的图像宏块与参考图像的宏块之间的差值。另一类参数是宏块的移动矢量。
①MPEG 的数据流结构分为序列层,图像组层,图像层,片层,宏块层,块层。
②MPEG中,一个宏块由一个16×16亮度信息和两个8×8的色度信息构成。
二维对数搜索法——沿着最小失真方向搜索,在搜索时,每移动一次就检查5个搜索点。如果最小失真在中央或在边界,就减少搜索点之间的距离。三步搜索法——似上法,但每步测9个点,且搜索距离从3个像素每步减小一个像素,三步完成。对偶搜索法——先行(左中右比较,中或边截止)后列(上中下比较,中或边截止)。
不固定,可设置;一般每秒2个I帧(