1、2022年第46卷第10期31Sound BroadcastinG声 学 制 播文献引用格式:王珍,胡锐.声音景观建构视角下短视频 AI 配音滥用行为研究 J.电声技术,2022,46(10):31-33,46.WANG Z,HU R.Study on the abuse of short video ai dubbing from the perspective of soundscape constructionJ.Audio Engineering,2022,46(10):31-33,46.中图分类号:TN912.2 文献标识码:A DOI:10.16311/j.audioe.2022.
2、10.009声音景观建构视角下短视频 AI 配音滥用行为研究王 珍,胡 锐(南京艺术学院,江苏 南京 210000)摘要:当下,随着互联网产业技术与新媒体更迭不断革新与完善,人工智能(Artificial Intelligence,AI)技术对于媒体世界的改变已然成为不可回避的话题。其中,AI 配音因其低成本、高效率的生成方式在短视频内容生产者中迅速风靡,甚至出现了无视声音美感与文本内容的滥用现象,使有声语言的传播效果大打折扣,从而最终影响传播本质。对此,尝试从声音景观建构理论视角出发,采用内容分析法对短视频 AI 配音滥用现象进行解构,发现短视频 AI 配音滥用行为与当下声音功能的改变、亚文
3、化群体的用户入场、市场审核机制缺失等有密不可分的关联,由此提出短视频领域有声语言二度创作的相关要求,以期探索其重构发展之路。关键词:声音景观;AI 配音;短视频配音Study on the Abuse of Short Video AI Dubbing from the Perspective of Soundscape ConstructionWANG Zhen,HU Rui(Nanjing University of the Arts,Nanjing 210000,China)Abstract:At present,with the continuous innovation and im
4、provement of Internet industry technology and new media,the change of Artificial Intelligence(AI)technology to the media world has become an unavoidable topic.Among them,dubbing of AI technology is rapidly popular among short video content producers due to its low-cost and efficient generation metho
5、d,and there is even abuse of ignoring sound beauty and text content.The communication effect of sound language is greatly reduced and the essence of communication is ultimately affected.This paper attempts to deconstruct the abuse of short video AI dubbing from the perspective of sound landscape the
6、ory by using content analysis method.It finds that the abuse of short video AI dubbing is closely related to the change of sound function,the entry of users of subculture groups and the lack of market review mechanism,and puts forward relevant requirements for the second creation of audio language i
7、n the field of short video,in order to explore its reconstruction and development road.Keywords:soundscape;AI dubbing;short video dubbing0 引 言近年来,人工智能(Artificial Intelligence,AI)产业发展如火如荼。作为语言的人工智能,AI 配音技术发展迅速,备受瞩目。从早期单纯作为应用功能的视频信息流的机械式配音,再到 2018 年中央广播电视总台(以下简称央视)制作播出的 创新中国 纪录片首度采用 AI 技术生成重现已故播音员李易声音
8、的高质量 AI 配音,智能语音的发展不断精进,并逐步扩大了应用范围。如今,应用市场上出现了诸多智能语音生成软件,通过合成技术与编码技术将文字内容转换成不同的智能语音,为影视作品配音。这样的智能语音生成模式简单快捷,成本低廉,迅速受到以短平快为特点的短视频内容生产者青睐。短视频作为当下互联网各大平台和资本市场的内容传播“新宠”,各个内容制作者间竞争激烈。关注度决定自媒体收入。在流量为王的背景下,利作者简介:王 珍(1991),女,硕士在读,研究方向为播音主持、口语传播。2022年第46卷第10期32声 学 制 播ound BroadcastingS益驱动使得自媒体普遍存在滥用传播权的情况 1。用
9、最小的成本投入获得最大的效果收益,几乎是所有短视频生产者们的追求。因此,出现在市场上的AI 配音软件成为首选。随着 AI 配音在短视频平台上的大量使用,受众虽然看到的是各具特色的内容画面,但听到的都是重复单调的声音模式。这样的听觉感受,极大地影响了视频本身的传播效果,令受众产生千篇一律的接受疲劳感。事实上,作为新兴的声音技术,AI 配音一样具备声音本身的特殊性与主体性。它不仅仅是一种物理上的声波,更是社会文化中不可或缺的一种符号,也是根植、围绕在人身边的一种无法忽视的“景观”。对于此种现象的进一步探讨分析,“声音景观”理论提供了绝佳的角度。1 声音景观理论视角下短视频 AI 配音滥用背景“声音
10、景观”这一概念,是 20 世纪 60 年代末,加拿大作曲家和生态学家穆雷谢弗首次提出的。他认为,声音景观就是景观的听觉特征,即在环境中,从审美角度和文化角度值得欣赏和记忆的声音2。此后,声音景观理论为包括生态学、建筑学、文学、历史学、人类学及美学在内的各个学科打开了一个“声音的领域”3。用声音景观对现在短视频领域中 AI 配音的滥用现象进行分析,可以使人们从声音本身的内在特质与审美出发,了解其存在原因与表现,进而推动对 AI 配音的反思与创新发展。1.1 对声音功能的单一理解在对外部声音与声音景观进一步分析中,特鲁瓦克斯指出,由“听觉方式”所中介着的听觉共同体、声音环境与声景之间,是不断交互的
11、关系性过程,将相互关联的声音、听觉者与环境,作为一个充满关系的体系来理解,而不是孤立的实体 4。因此,对于声音而言,其带来的不仅仅是表意传声的单一作用,更带有感知者由听觉方式而建构起的对于声音环境、接收内容以及社会文化环境的沉浸与回忆。也就是说,声音给视频内容增添的任何色彩都会被观众以视觉的形式感知和理解声音做得越好,影像在观众心目中就越好。但对于现在的短视频制作者们来说,使用 AI 配音仅仅是为了解说画面、渲染气氛,而忽略了配音本可以为视频内容带来更全面的视听融合的感受。仔细观察现有短视频平台所发布的内容,大部分采用 AI 配音的创作者在对视频中的声音进行配音创作时,都是秉承着一种“声音观”
12、理念,即简单地将声音作为视频内容的附庸品,将声音的功能单一地理解为背景音的一种创作理念。在持有“声音观”的创作者们眼中,声音,尤其是视频配音,只是起到了内容传达的背景音的单一作用,因此,可以简单生成的 AI 配音自然成为他们进行声音创作的首选并大量使用。1.2 亚文化群体的悄然登场在 5G 技术的助力下,智媒时代的自媒体中不再只有黄钟大吕的主流声音,以往被主流声音所掩盖的草根阶层与亚文化群体借此登上网络平台。数据显示,截至 2021 年 12 月,我国网民规模达10.32 亿,其中农村网民 2.84 亿,城乡地区互联普及率差异不断缩小 5。而在如此庞大的网民中,初中、高中/中专/技校学历的网民
13、占据大多数。据2020年数据,我国网民中本科以上学历仅占9.3%1。由此,网络平台不再是仅为主流声音、精英群体们搭建的独舞平台,越来越多的亚文化群体开始登场,发出属于自己的强势之音。同时,随着传统主流媒体的信息接受仪式感被削弱,受众传播进一步消解了主流媒体的权威性和传播霸权,使得更符合消费社会的亚文化声音逐渐增大。纵观现有的短视频平台,无不充斥着大量另类、搞怪、土味的内容声音,这些内容声音充满强烈的视听刺激和情绪欲望。再加之运用方便低廉的AI 配音,创造出一个个远离真实世界的喧嚣噪声之所,使得“声音文本呈现为封闭的形式主义走向,声音文化将把人们拉出现实世界,在技术虚拟的声音符号域中沉溺”3。1
14、.3 短视频平台市场的审核缺失如今,人工智能技术不断发展,陆续开发出“一键生成”式的文字转语音的 AI 配音软件。技术的革新为大量的短视频制作者们带来便捷,降低了短视频自主制作的入门门槛,实现了技术赋能。但就目前来看,短视频市场对于此类 AI 配音的审核极度缺失,导致其在广泛应用的过程中出现了诸多问题。首先,AI 配音技术简单,成本低廉,吸引了大量制作者入场使用,而这其中,极少有人对声音版权有所意识。声音景观认为声音具有标志声的维度。2022年第46卷第10期33Sound BroadcastinG声 学 制 播当人们听到某种声音,会自动联想起与之匹配的形象或场景。那么,这些具备独特标志性的人
15、声,也应同肖像一样,具有人身属性,也应受到版权保护。而目前短视频中使用的 AI 配音背后是否拥有对 AI生成声音样本的版权均不得而知。其次,因为用于短视频 AI 配音的软件多为免费或价格极为低廉,势必造成其生成的 AI 配音质量较低,同质化严重。市场为了追逐流量与利益,对声音技术的便捷性重视远远大于对美感的追求,只要能迅速带来关注与效益,美感从来不在其审核的角度之下。而对于声音景观来讲,它不仅仅是对声音环境的理解,亦是一种身体的经验 6。也就是说,人们通过声音所接受到的一切意义,除了是社会文化所培养出的能力之外,也是声音环境所培养出来的一种身体的本能感受。当短视频平台摒弃美感审核,一味追求低级
16、刺激的声音内容,会使得大众长期浸淫在如此缺乏美感的 AI 配音中,对外界文化的感知也会愈发迟钝,甚至影响到整个社会的审美发展。2 声音景观理论视角下短视频 AI 配音滥用行为表现短视频制作者们在内容生产过程中发现自己配音想要的传播效果,而找专业配音又在时间与资金的投入上过大,因此他们迫切地需要简单便捷又成本低廉的配音技术。此时,诸如科大讯飞等头部公司开发了一系列的智能语音转换软件,只需要输入文字便可生成不同语音。这种“一键生成”式的AI 配音完美契合了短视频平台的“下沉策略”,用户不需要进行过多的思考,只需要利用模板一键生成,便可轻松简单地获取可观的流量与曝光。相同的 AI 配音样本,相似的文本内容,带着同样的热点加入流量市场空洞的狂欢,AI 配音的滥用也就产生了7。2.1 视听分离的声音模具忽略有声语言传播内核作为有声语言创作类型的配音,本身具备“情、声、气”的语言表达技巧与美感,可以通过声音为内容画面增魅添彩。然而,对于没有感情的智能语音机器来讲,它们毫无自主思考能力,仅仅依靠人类为其设定好的运行编程进行生成运作,因此只能承载简单的词句逻辑,对于语音文字内容的情感处理极其匮乏。对于