电信专业多媒体技术实验设计综述

电信专业多媒体技术实验设计综述

1数据压缩试验

多媒体无损压缩试验。实验内容为目前常用的二种无损压损编码:霍夫曼编码和算术编码。霍夫曼编码是Huff-man于1952年提出的一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,一般用来压缩文本和程序文件,常用的JPEG图像压缩中也出现霍夫曼编码。其以二叉树建立字典表,将出现概率最大的字符用最少的编码表示,反之出现最少的字符用最长的编码表示。实验要求用MATLAB程序实现霍夫曼编码,程序要求提供简单的输入界面,给出关于输入要求(个数、输入范围等)的提示,程序能对输入的数据进行检查,发现不符合要求的数据(比如出现负数)能给出报错信息。对输入数据进行霍夫曼编码,给出最终编码结果,并计算压缩率,给出完整实验报告。这个实验融合了已经学习过的matlab知识和本课程学习的无损压缩知识。作为第一个实验,难度相对比较低,起引发学习兴趣的作用。第二个关于无损压缩的实验是用matlab实现LZW编码,LZW是AbrahamLempel、JacobZiv与TerryWelch提出的一种无损数据压缩算法,以三个发明人的姓的第一个字母组合得名,将要压缩的文本中,自动地建立一个先前见过字串的字典,每一次一个字串在字典中并被见过,那么文字中,附加在单一字符后,接着该字串的一个较长文字,就会被储存到字典中,输出字典的整数索引。该压缩方法目前广泛应用于TIFF/GIF格式图像压缩中,以及Linux、Unix操作系统中文件的压缩,和实际生活应用贴近,故容易激发同学的兴趣。同学们用自己编制的压缩程序对文本文件进行压缩,然后要求用winrar程序正常解压,实验难度逐步提高,增加挑战性。

2数字声音编码实验

该部分有两部分内容。实验内容1为比较不同采样率下PCM音频编码的效果,用cooledit软件,分别用单声道、双声道、4.8K采样率、8K采样率和16K采样率获得PCM数字信号,然后播放,体会声音质量是否有变化。此部分内容相对简单,为书上内容的实验。实验内容2则在此基础上更近一步,目前实际应用中直接以PCM编码呈现的语音相对资源较少,更多接触的是比如:AAC(数字电视、网络电视)、AC-3(数字电视、DVD声音)ALAC(苹果公司)、ALS、AMR、ATRAC(索尼公司),FLAC,G722、Codec2(网络电话),MP3、OGG(音乐)、SVOPC(skype语音)等声音编码。这些语音编码在开源代码ffmpeg中都有支持。因此实验2要求同学们了解熟悉ffmpeg开源程序,自行到ffmpeg网站下载ffmpeg程序,依据个人情况,能力强的同学下载源码自行编译,其他同学可以下载可执行代码,然后分别在电脑CD中播放一首CD效果的歌曲,采取内录音方式、采用相同采样率,用ffmpeg编码为以上这些音频格式,然后比较各种编码格式解码后的数据,多人轮流听并评判音质质量,同时比较各压缩文件的大小。实验最后为各位同学介绍2012年底最新推出的一种音频压缩格式OPUS,用OPUS官网给出的代码压缩前述音频数据。通过介绍最新知识,提高同学们的学习兴趣。

3JPEG图像压缩与编码

JPEG图像大家较为熟悉,要求大家首先用Matlab自己编写JPEG编码程序,复习以往其他课程学习的DCT变换、量化等知识。本章实验重点放在JPEG2000编码上。JPEG2000是基于小波变换的图像压缩标准,被认为是未来取代JPEG的下一代图像压缩标准。JPEG2000的压缩比更高,而且不会产生原先的基于离散余弦变换的JPEG标准产生的块状模糊瑕疵。JPEG2000同时支持有损数据压缩和无损数据压缩。另外,JPEG2000也支持更复杂的渐进式显示和下载。该部分又分两个实验内容,从JPEG2000官网下载编解码套件:KaKadu。实验内容1:比较JPEG与JPEG2000压缩效率。将一幅细节丰富的图像首先压缩成JPEG,并查看JPEG文件大小,按照JPEG的压缩率运行KaKadu编码程序:Kdu_compress.exe,指定为失真压缩,压缩层次选择设定为一层,然后用Kdu_show.exe查看压缩得到的JPEG2000图像,可以看到在压缩率高的情况下,JPEG2000得到的图像质量明显优于JPEG压缩。实验内容2:体会JPEG2000的特性如分层压缩、支持无损压缩、感兴趣区域编码等。首先用kdu_compress.exe压缩图像,选定为有损压缩,选定层次为10层,分别指定每层的压缩率,将得到的压缩图像用kdu_show.exe显示,显示时允许分层显示,逐步显示各个压缩率下的图像,可以看到随之显示层次的增加,图像质量逐渐好转。介绍JPEG2000支持的无损压缩,让同学们用医学图像(例如CT扫描图像),首先用JPEG压缩,选择高质量、低压缩率压缩,然后用JPEG2000的kdu_compress压缩,压缩参数为无损,然后比较两种压缩得到图像的质量。最后对JPEG2000特有的感兴趣区域编码进行研究,JPEG2000标准中支持两种感兴趣区域编码,UP-shifted和Max-shifted,JPEG2000压缩时分别采用这两种编码参数,对感兴趣区域上移12个位比特平面,选择高压缩率,然后将压缩得到的图像和无感兴趣区域编码相比较。通过这个实验,使同学们了解了未来图像压缩的标准,对小波编码也产生了兴趣。

4颜色空间变换

单纯讲色彩空间对同学们来说吸引力不大,为了提高大家的学习兴趣,可以把色彩空间的应用实例搬到实验中去,让同学们自己体会不同色彩空间的妙用。实验为色彩空间在人脸识别中的应用。在彩色图像中识别人脸的第一步就是肤色提取,在常规的RGB色彩空间由于RGB三色是相关的,故肤色聚类效果不好,无法提取。而图像变换到HSV、HSL空间后,人的肤色聚类效果明显提升,能够初步提取出人脸。实验首先给出一系列不同人种、肤色的图片,同学们将这些肤色的RGB三位信息在MATLAB三维图表中画出来,可以看出这些三维点分布较为分散。然后根据RGB-HSV、RGB-HSL的转换公式,计算出各肤色的HSV、HSL值,同样用三维图表表示出来,可以看到各点分布相比RGB集中,记录下HSV、HSL分布范围后,老师发给大家一张人脸图像,大家根据刚才得到的HSV、HSL空间分布范围,将该未知图像的肤色部分提取出来,然后根据聚类区间对老师提供的10张包含人脸的图片做根据肤色(初步)识别人脸。同学们能看到自己的程序能将图片中的人脸初步提取出来,既能提高实验兴趣,又激发了未来从事图像处理研究的愿望。

5小波与小波变换

小波的内容在数字图像处理课程中有所介绍,因此本课程关于小波的内容必须做到更加深入。本实验分两部分,

实验内容1为小波在频域和时域的定位,与傅立叶变换做比较。利用matlab,给出一个信号注意频率参数可以变化,分别对该信号进行傅立叶变换、短时傅立叶变换和小波变换,傅立叶变换的频谱图显示可以确定频率组成部分,但不能确定什么时候的时域信号会产生对应的频率。而短时傅立叶变换只能大致确定信号频率和脉冲发生时间,时间窗口小则频率窗口大,导致脉冲时间定位准确而频率定位不准,反之亦然。而小波变换的时间窗口有尺度变化的特性,因此无论对脉冲的时间定位还是对频率定位都准确。通过这个实验使得同学们体会到小波在信号分析中的特点。

实验内容2为利用小波工具箱完成小波去噪的研究,在命令行输入命令wavemenu,选择SWTDenoising1-D,然后选择load命令载入信号,在右侧选择db3小波进行5次小波分解,选择“soft”模式去噪,使用默认的参数进行去噪处理,以滑动条控制各级系数的阈值大小,也可以直接在系数图中直接拖动来调整阈值的大小,点击denoise进行除噪处理,并计算残差部分。以上去噪完成后,将去噪后的数据、残差分别导出并保存。选择hard阈值模式代替方才的soft模式,再次对原始信号进行除噪,将去噪结果和残差分别导出并保存。比较二次去噪的效果并自行搜集资料说明为什么会产生如此差异。以上小波实验避免了与数字图像处理课程中小波实验内容的撞车,同学们能从中发现小波新的应用。

6小结

在电子信息工程专业的多媒体课程实验设计环节,要考虑到专业特点,在原有理论知识的基础上增加对现有应用领域的介绍,避免和其他专业课程实验内容的简单重复,才能起到提高学生的学习兴趣的目的。一般电信专业多媒体课程为32~40学时,本文实验1和实验3分别为4个学时,其余各2个学时,这样5个实验共14学时,授课与实验课时分配合理,目前取得较好的效果。

作者:侯俊 陈文 单位:上海理工大学光电信息与计算机工程学院 上海应用技术学院