1、2023 年 5 月 Journal on Communications May 2023 第 44 卷第 5 期 通 信 学 报 Vol.44 No.5多模态语义通信研究综述 秦志金1,赵菼菼2,李凡2,陶晓明1(1.清华大学电子工程系,北京 100084;2.西安交通大学信息与通信工程学院,陕西 西安 710049)摘 要:随着人工智能与通信的交叉融合,文本、图像、音频、视频等多模态数据处理技术蓬勃发展,模态语义的共享维度被深度挖掘,多模态语义信息的高度抽象、智能简约等特性被充分利用,为语义通信带来了全新的思路和手段。首先,介绍了语义通信的基础理论和分类,分别针对文本、图像、音频、视频综述
2、了单模态语义通信的研究现状;然后,综述了多模态语义通信的研究现状,介绍了多模态数据融合技术和安全语义通信的研究;最后,总结了多模态语义通信面临的挑战。关键词:语义通信;多模态数据融合;多模态语义通信 中图分类号:TN919.8 文献标志码:A DOI:10.11959/j.issn.1000436x.2023105 Survey of research on multimodal semantic communication QIN Zhijin1,ZHAO Tantan2,LI Fan2,TAO Xiaoming1 1.Department of Electronic Engineering
3、,Tsinghua University,Beijing 100084,China 2.School of Information and Communication Engineering,Xian Jiaotong University,Xian 710049,China Abstract:With the cross-integration of artificial intelligence and communications,technologies for processing multi-modal data such as text,image,audio,and video
4、 are booming,the shared dimension of modal semantics is deeply exca-vated,and the characteristics of multimodal semantic information such as high abstraction,intelligence and simplicity are being fully utilized,which brings new ideas and means to semantic communications.First,the fundamental theorie
5、s and classifications of semantic communication were introduced,and the research status of single-modal semantic communi-cation was reviewed for text,image,audio,and video respectively.Then,the research status of multimodal semantic communication was reviewed,and multimodal data fusion technology an
6、d secure semantic communication were intro-duced.Finally,the challenges faced by multimodal semantic communication were summarized.Keywords:semantic communication,multimodal data fusion,multimodal semantic communication 0 引言 过去几十年,通信领域的研究主要集中在如何准确有效地将符号从发送端传输到接收端,也称为语法通信。随着无线通信系统的发展,系统容量逐渐接近香农极限。然而,
7、在万物智能互联的时代,通信的最终目的是交换语义信息而不是准确传输符号。目前,语义通信已经引起了工业界和学术界的广泛关注,有望成为“达意”通信的一种新范式1。区别于语法通信,语义通信的主要目的是实现收发端语义信息的准确交互,利用先进的人工智能(AI,artificial intelligence)技术提取出原始数据中与接收端特定的智能任务最相关的信息进行传输,可有效压缩数据冗余,提升信息传输的有效性,减轻网络传输的压力,降低智能任务的处理时延2。随着 6G 技术与 AI 技术的飞速发展和深度融收稿日期:20230111;修回日期:20230506 基金项目:国家自然科学基金资助项目(No.619
8、25105);清华大学中国移动联合研究院基金资助项目 Foundation Items:The National Natural Science Foundation of China(No.61925105),Tsinghua University-China Mobile Com-munications Group Co.,Ltd.Joint Institute 第 5 期 秦志金等:多模态语义通信研究综述 29 合,包括文本、图像、音频、视频等在内的多模态服务必然成为各类场景(如电子医疗、数字孪生、人体感应护理系统、零售店自动结账等)的主流。为了给用户提供比较好的体验,开发面向多模态信号
9、的高效传输和精确处理的系统级通信架构是很有必要的,语义通信有望支持多模态通信架构的实现。高质量的多模态服务可以利用多模态信号的时间、空间和语义关系来保证,在这些跨模态关系中,语义包含反映多模态信号含义的丰富信息,将成为打破模态壁垒的有力媒介,因此,多模态语义通信受到研究者的广泛关注3。本文旨在综述已有单模态语义通信、多模态语义通信的相关工作,介绍多模态数据融合技术,总结现有多模态语义通信面临的挑战,整体框架如图 1 所示。本文的主要贡献如下。1)分别针对文本、图像、音频、视频综述单模态语义通信的研究现状。2)综述多模态语义通信的研究现状,介绍多模态数据融合技术和安全语义通信研究。3)总结多模态
10、语义通信面临的主要挑战,旨在为多模态语义通信后续研究提供可供参考的思路和方向。本文所述语义通信发展路线如图 2 所示。接下来,对图 2 中每个部分展开详细介绍。1 语义通信基础理论和分类 1.1 语义通信基础理论 语义的概念起初是在符号学的研究中出现的4。Morris5把符号学定义为语法、语义和语用的三重组合。语法关注符号(视觉和语言)的形式特征之间的相互关系,而不考虑含义。语义专门研究不同层次的符号含义。语用关注符号系统中符号效用与用户之间的关系。类似于符号的三重定义,Shannon 等6确定以下 3 个层面的通信来进一步刻画通信的语法、语义和语用特征7。1)语法层面:通信符号如何被精确地传
11、输?2)语义层面:传输的符号如何准确地传达预期的语义?3)有效性层面:接收到的语义如何有效地以预期的方式影响行为?Carnap 等8重新审视了香农研究工作中绕过的语义问题,并对语义信息进行了初步定义。Bao 等9首次提出了语义通信的理论以实现语义级别的通信,并定义了语义噪声、语义信道、语义熵和语义信道容量。设信源消息集合为 X,语义信息集合为W,背景知识为 K,推测为 I,信宿消息集合为 Y。用香农熵 H(W)来量化信源的语义信息量,即语义熵。语义熵 H(W)和信源熵 H(X)之间的关系为 ()()()()H WH XH W XH X W(1)其中,()H W X衡量编码的语义模糊度,()H
12、X W衡量编码的语义冗余。与经典信息论最大的不同在于,语义信息的衡量基于背景知识和推测决定的逻辑概率,而不是统计概率。离散无记忆信道的语义信道容量取决于 3 个要素。第一个是 X 和Y 之间的互信息(;)I X Y,也是经典信息论的信道容量;第二个是用sK和sI进行语义编码时引入的语义模糊度,即,()ssKIHW X;第三个是接收消息的平均逻辑信息,即,()ddKIHY,由dK和dI决定。如果()ssKI和()ddKI不匹配,将会产生过多的语义噪声。假设sdKK且sdII,则语义信道容量为 ()sup(;)()()P W XCI X YH W XH Y(2)从式(2)可知,设计合理的语义编解码
13、方案()P W X对于高效语义通信系统的实现至关重要。语义级别的率失真理论可以为此提供很好的理论指导。图 1 本文整体框架 30 通 信 学 报 第 44 卷 具体地,广义的率失真理论为 min(;)(;)I X ZD X Z(3)其中,(;)I X Z表示语义特征Z保留的关于信源X的信息量,衡量语义编码对语义信息的压缩量;(;)D X Z表示语义特征Z和信源X的差异,衡量语义编码带来的语义失真量;表示权重因子10。面向任务的信息瓶颈理论可以形式化率失真理论的折中关系11,具体表示为 min(;)(;)I X ZI Z Y(4)其中,Y为任务标签。特别地,用语义信息的负值(;)I Z Y度量语
14、义失真,失真(;)I Z Y尽可能小意味着语义信息(;)I Z Y尽可能大,表示语义特征Z中尽可能多地保留任务相关的语义信息10-11。以上关于语义通信的基础理论可以为高效语义通信的设计和实现提供很好的指导,能够根据应用场景和任务需求进行灵活变换,为满足6G通信高谱效和高可靠的要求提供新的技术思路12。1.2 语义通信分类 由于强大的AI技术,现代语义通信的研究已图 2 语义通信发展路线 第 5 期 秦志金等:多模态语义通信研究综述 31 经出现在多种应用中。经典通信系统仅关注由Shannon等6确定的语法层,语义通信则把余下的2个更高层融入通信系统的设计中。如图3和图4所示,语义通信主要分为
15、两类:面向语义的通信(关注语义层面)和面向目标的通信(关注有效性层面)13。图 3 面向语义的通信 图 4 面向目标的通信 1.2.1 面向语义的通信 不同于忽略传输内容的经典通信系统,面向语义的通信设计中重要的是信源数据语义内容的准确率,而不是与源数据的统计概率相关的平均信息。因此,语义通信系统的主要改变在于发送前和接收后的数据处理阶段。传统的信源编码是寻求一种将信源数据转换为短码的方法,同时,因为发送的消息对潜在的含义视而不见,一个好的信源编码方法意味着它可以处理信源数据更多的可能性。然而,在语义通信中,需要重新定义“信息”,并在编码前引入语义表征模块,负责捕获嵌入在信源数据中的核心信息,
16、过滤不必要的冗余信息,特别地,面向目标的通信中的语义滤波模块负责进一步过滤与下游智能任务无关的信息。很多研究工作把语义表征和语义编码功能集成在一个模块里,称为语义编码,联合发挥与传统通信中信源编码类似的作用。类似地,语义推理和语义解码的联合作用等价于信源解码的作用。在一般的语义通信场景中,解码是编码的逆过程,可通过AI驱动的解码算法实现,如具有强大先验知识的Transformer和自编码器(Autoencoder)。语义推理模块基于解码得到的语义信息推理出目标语义或者直接根据语义信息采取行动,完成特定的智能任务。由于语义通信的目标是使接收机成功获取语义信息,因此,可以将联合语义编码和解码过程统一看作“语义提取”。此外,正如人类对话一样,有效的对话要求双方具有关于语言和文化的共同知识。语义通信中,为了确保所有的信源数据能被很好地理解和推理,通信参与方需要及时共享局部知识。如果局部知识不一致,就会产生语义噪声,即使在物理传输没有语法错误的情况下也会导致语义模糊。1.2.2 面向目标的通信 在面向语义的通信的基础上,面向目标的通信旨在使所涉及的通信参与方能够共同完成一个通信目标或任务。回顾通