1、媒体技术的应用现状与开展趋势 冼俊峰 赵小侠 钟玉琢 多媒体技术是当今信息技术领域开展最快、最活泼的技术,本文通过对多媒体技术的应用现状和开展趋势的分析,使我们展望到,随着日益普及的高速信息网,它正被广泛应用在咨询效劳、图书、教育、通信、军事、金融、医疗等诸多行业。 关键词多媒体技术应用现状开展趋势 中图分类号G434文献标识码A文章编号1008-7656(2023)03-0016-06 多媒体技术是当今信息技术领域开展最快、最活泼的技术,是新一代电子技术开展和竞争的焦点。多媒体技术融计算机、声音、文本、图像、动画、视频和通信等多种功能于一体,借助日益普及的高速信息网,可实现计算机的全球联网和
2、信息资源共享,因此被广泛应用在咨询效劳、图书、教育、通信、军事、金融、医疗等诸多行业,并正潜移默化地改变着我们生活的面貌。1、多媒体技术涉及的内容多媒体技术是使用计算机交互式综合技术和数字通信网络技术处理多种表示媒体-文本、图形、图像、视频和声音,使多种信息建立逻辑连接,集成为一个交互式系统。它主要涉及如下几个局部:11多媒体数据压缩,图像处理:它包括HCI与交互介面设计、多模态转换、压缩与编码和虚拟现实等。1.2音频信息处理:它包括音乐合成、特定人与非特定人的语音识别、文字-语音的相互转换等。1.3多媒体数据库和基于内容检索:它包括多媒体数据库和基于多媒体数据库的检索等。1.4多媒体著作工具
3、:它包括多媒体同步、超媒体和超文本等。1.5多媒体通信与分布式多媒体:它包括CSCW、会议系统、VOD和系统设计等。1.6多媒体应用:CAI与远程教学、GIS与数字地球、多媒体远程监控等。2、多媒体技术的应用现状多媒体技术的开发和应用,使人类社会工作和生活的方方面面都沐浴着它所带来的阳光,新技术所带来的新感觉、新体验是以往任何时候都无法想象的。2.1多媒体数据压缩,图像处理的应用多媒体计算机技术是面向三维图形、环绕立体声和彩色全屏幕运动画面的处理技术。而数字计算机面临的是数值、文字、语言、音乐、图形、动画、图像、视频等多种媒体的问题,它承载着由模拟量转化成数字量信息的吞吐、存储和传输。数字化了
4、的视频和音频信号的数量之大是非常惊人的,它给存储器的存储容量、通信干线的信道传输率以及计算机的速度都增加了极大的压力,解决这一问题,单纯用扩大存储器容量、增加通信干线的传输率的方法是不现实的。数据压缩技术为图像、视频和音频信号的压缩,文件存储和分布式利用,提高通信干线的传输效率等应用提供了一个行之有效的方法,同时使计算机实时处理音频、视频信息,以保证播放出高质量的视频、音频节目成为可能。国际标准化协会,国际电子学委员会,国际电信协会等国际组织,于二十世纪90年代领导制定了三个重要的有关视频图像压缩编码的国际标准,JPEG标准;H261标准;MPEG标准。2.1.1JPEG它是国际上彩色、灰度、
5、静止图像的第一个国际标准,它不仅适于静态图像的压缩,电视图像序列的帧内图像的压缩编码,也常采用JPEG压缩标准。2.1.2H261它是视频图像压缩编码国际标准,主要用于视频 和电视会议,可以以较好的质量来传输更复杂的图像。2.1.3MPEGMPEG视频压缩技术是针对运动图像的数据压缩技术。目前又分为MPEGI、MPEG、MPEGIV、MPEG7和MPEG21。MPEGI最初用于数字存储上活动图像及伴音的编码,数码率为15Mbits,图像采用SIF格式,两路立体声伴音的质量接近CD音质,到现在,MPEGI压缩技术的应用已经相当成熟,广泛地应用在VCD制作,图像监控领域。MPEG是MPEGI的扩充
6、、丰富和完善。MPEGII的视频数据速率为4-5MitS,能提供720480(NTSC)或720576(PAL)分辨率的播送级质量的视像,适用于包括宽屏幕和高清晰度电视(HDTV)在内的高质量电视和播送。随着网络、有线无线通信系统的迅猛开展,交互式计算机和交互性电视技术的普遍应用,以及视频、音频数据综合效劳等应用的开展趋势,对计算机多媒体数据压缩编码、解码技术及其遵循的标准提出更多更高的要求,有许多要求MPEGI和MPEG标准是难以支持的,因此MPEG应运而生,它正是为解决这些高需求而推出的。根据MPEG开发的不同的压缩编码,我们可以分为如下几类: 基于内容的多媒体数据访问工具:应用于从在线的
7、程序库和传送信息的数据库中进行基于内容的信息检索。 基于内容的处理和比特流编辑:应用于交互式家庭购物、影视的制作和编辑、数字特技。 混合自然和人工数据编码:应用于动画和音响的自然组合,在游戏节目中观众可以移动和传送覆盖在要查看的视频之上的图形,从不同的观察点描绘图形和声音。 改良的时间随机访问:应用于音像数据的远程终端随机访问。 改良的编码效率:应用于低带宽信道上的有效音像数据存储和传送。 多重并行数据流的编码:多媒体表演,如虚拟现实游戏,3维动画,训练和飞行模拟,多媒体演示和教育。如今,越来越多的声像信息以数字形式存储和传输,这为人们更灵活地使用这些信息提供了可能性。但随之而来的问题是,随着
8、网络上信息爆炸性的增长,获取到我们感兴趣的信息的难度却越来越大。传统的基于关键字或文件名的检索方法显然不适于数据量庞大、又不具有天然结构特征的声像数据,因此近些年来多媒体研究的一个热点是声像数据的基于内容的检索,例如从这段新闻片中找出有首相、总统的镜头这种形式的检索。实现这种基于内容检索的一个关键性的步骤是要定义一种描述声像信息内容的格式,而这与声像信息的存储形式(编码)又是密切相关的。国际标准化组织运动图像专家组注意到了这方面的需求和潜在的应用市场,在推出影响极大的MPEG-1、MPEG2之后,尚未完成MPEG4的最后定稿,便开始着手制定专门支持多媒体信息基于内容检索的编码方案:MPEG7。
9、MPEG7作为MPEG家族中的一个新成员,正式名称叫做多媒体内容描述接口,它将为各种类型的多媒体信息规定一种标准化的描述,这种描述与多媒体信息的内容本身一起,支持用户对其感兴趣的各种资料的快速、有效地检索。以下一些应用领域将从MPEG7标准的制定中获益: 数字化图书馆(图像分类目录,音乐字典,) 多媒体目录效劳 播送式媒体选择(收音机频道,电视频道,) 多媒体编辑(个人电子新闻效劳,媒体著作)还有一些潜在的应用领域: 教育 旅游信息 娱乐(例如寻找游戏、卡拉OK节目) 购物(例如寻找你喜欢的衣服)MPEG21的范围可以描述成是一个决定性(关键)技术的集成,这些技术可以通过访问全球网络和设备实现
10、对多媒体资源的透明和增强的使用。其功能包括:内容创立、内容产品、内容发布、内容消耗和使用、内容表示、知识产权管理和保护、内容识别与描述、财政管理、用户的隐私权、终端和网络资源抽取、事件报告等。2.2音频信息处理的应用在多媒体技术中,存储声音信息的文件格式主要有:WAV文件、VOC文件、MIDI文件、AIF文件、SON文件及RMI文件等。2.2.1音频信息录制编辑把音乐和语音加到多媒体应用中,是我们研究音频处理技术的目的,下面是我们常用的音频信息录制编辑软件。WaveEdit工具的REC命令;SoundBlaster卡的VEdit2软件;MicrosoftSoundSystem卡的QuickRe
11、corder软件;Cooledit软件;WaveEdit工具;CreativeWaveStudio。2.2.2语音识别语音的识别长久以来一直是人们的美好梦想,让计算机听懂人说话是开展人机语音通信和新一代智能计算机的主要目标。随着计算机的普及、越来越多的人在使用计算机,如何给不熟悉计算机的人提供一个友好的人机交互手段,是人们感兴趣的问题,而语音识别技术就是其中最自然的一种交流手段。自从20世纪80年代中期以来,新技术的不断出现使语音识别有了实质性的进展。特别是隐马尔可夫模型(HMM)的研究和广泛应用,推动了语音识别的迅速开展,陆续出现了许多基于HMM模型的语音识别软什系统。当前,语音识别领域的研
12、究正方兴未艾。在这方面的新算法、新思想和新的应用系统不断涌现。同时,语音识别领域也正处在一个非常关键的时期,世界各国的研究人员正在向语音识别的最高层次应用-非特定人、大词汇量、连续语音的听写机系统的研究和实用化系统进行冲刺,可以乐观地说,人们所期望的语音识别技术实用化的梦想很快就会变成现实。2.2.3文语转换目前,世界上已研制出汉、英、日、法、德等语种的文语转换系统,并在许多领域得到了广泛应用。DECTalk文语转换系统:这是DEC公司在MIT的KLATT教授研制的语音合成器的根底上开发的语音生成系统,用于英语文语转换。ATTBell文语转换系统:这是美国ATT贝尔实验室研制的文语转换系统,它
13、最初用于英语的文语转换,现在正扩展到其它语种。Sonic文语转换系统:这是清华大学计算机系基于波形编辑的汉语文语转换系统。该系统利用汉语词库进行分词,并且根据语音学研究的成果建立了语音规那么,对汉语中的某些常见语音现象进行了处理。系统采用PSOLA算法修改超音段语音特征,提高了言语输出的质量。2.3多媒体数据库和基于内容检索的应用多媒体信息检索技术的应用使多媒体信息检索系统、多媒体数据库,可视信息系统、多媒体信息自动获取和索引系统等应用逐渐变为现实。基于内容的图像检索、文本检索系统己成为近年来多媒体信息检索领域中最为活泼的研究课题,基于内容的图像检索是根据其可视特征,包括颜色、纹理、形状、位置
14、、运动、大小等,从图像库中检索出与查询描述的图像内容相似的图像,利用图像可视特征索引,可以大大提高图像系统的检索能力。随着多媒体技术的迅速普及,Web上将大量出现多媒体信息,例如,在遥感、医疗、安全、商业等部门中每天都不断产生大量的图像信息。这些信息的有效组织管理和检索中都依赖基于图像内容的检索。目前,这方面的研究已引起了广泛的重视,并已有一些提供图像检索功能的多媒体检索系统软件问世。例如,由IBM公司开发的QBIC是最有代表性的系统,它通过友好的图形界面为用户提供了颜色、纹理、草图、形状等多种检索方法;美国加州大学伯克利分校与加州水资源部合作进行了Chabot方案,以便对水资源部的大量图像提
15、供基于内容的有效检索手段。此外还有麻省理工学院的Photobook,可以利用Face,Shape,Texture,Photobook分别对人脸图像、工具和纹理进行基于内容的检索,在Virage系统中又进一步开展了将多种检索特征相融合的手段。澳大利亚的NewSouthWales大学已开发了NUTTAB系统,用于食品成份数据库的检索。清华大学计算机系结合国家863高技术研究开展项目Web上基于内容的图像检索的研究,于1997年研制了一个Intemet上的静态图像的基于内容检索的原型系统。该项目的研究目标是开发能在InternetIntranet环境下,通过友好的人机界面,以颜色、纹理等图像特征或样本图像检索图像的方法和工具。 2.4多媒体著作工具的应用多媒体创作工具是电子出版物、多媒体应用系统的软件开发工具,它提供组织和编辑电子出版物和多媒体应用系统各种成分所需要的重要框架,包括图形、动画、声音和视频的剪辑。制作工具的用途是建立具有交互式的用户界面,在屏幕上演示电子出版物及制作好的多媒体应用系统以及将各种多媒体成分集