1、DOI:1019392/jcnki1671-7341202306021人工智能技术在视频制作中的应用分析谷 青中央广播电视总台北京100038摘要:近些年来,随着社会经济的不断发展,以互联网技术为代表的各类信息技术日益成熟,并在各行各业的发展当中注入更多动力,甚至为部分领域带来了革命性的突破。其中,以深度学习为基础的人工智能技术(AI)也在近年来走入了社会大众的视野,并在多数行业中有所应用。而在视频制作领域中,由于新媒体与短视频的迅速发展,自媒体已经成为一种新的业态,传统人工的视频制作显然已经无法满足更加快速的视频发布需求,因此,在视频制作当中融入人工智能技术就显得尤为重要。本文就从人工智能技
2、术出发,围绕当前该技术在视频制作中的实际应用进行分析,以供参考。关键词:人工智能;视频制作;应用分析在新时期背景下,人工智能技术可以说是在不断完善与迭代,在深度学习技术的快速发展下,关于自然语言以及图像处理等方面的人工智能技术也在进一步深入研究,这也为该技术的全面应用奠定了良好基础。在视频制作中应用人工智能技术,不仅能够大大降低视频制作的难度与强度,满足当前规模不断壮大的短视频制作需求,还能够进一步将视频制作提升到新的层面,有利于提高视频制作行业的高质量可持续发展。1 人工智能技术概述人工智能技术又称 AI,也是当前 21 世纪三大尖端技术之一。作为计算机科学的重要分支,人工智能技术能够对人类
3、的智能理论、方法、技术以及应用系统进行深度的研究、开发、模拟以及拓展。在计算机领域中,人工智能技术已经有了较为深入的研究与应用,例如机器人、控制系统以及仿真系统等。随着当前信息技术的不断发展,越来越多的高新技术开始进入人民群众的日常生活当中,人工智能技术也不例外,小到智能音箱、停车场车牌自动设备以及智能家居,大到汽车自动驾驶、AlphaGo(阿尔法围棋)以及医用机器人等,都对日常生活与生产带来了诸多利好,充分发挥着该技术的实际应用价值。由于当前应用的人工智能技术仍归属于弱人工智能,无法完全脱离人工自主运行,因此还需要进一步深入研究。尽管如此,人工智能技术的应用还是在很大程度上缓解了当前工作中的
4、强度与难度,为工作质量与效率的提升提供了重要手段。2 视频制作中应用人工智能技术现状随着近些年来人工智能技术的渗透,以自然语言与图像处理等方面为代表的技术手段开始进入视频制作中。传统人工视频制作与剪辑更多的是通过软件程序来进行处理,而在人工智能技术的帮助下,视频制作开始向批量化加工转变,从平台系统中来加以处理,并保证了视频内容的完整性与可靠性,从而有效降低了人工视频制作的复杂程度,减轻了视频制作人员的压力。同时,借助人工智能技术,能够进一步降低视频制作的门槛。人们通过先进的软件程序就能够实现视频全流程制作,包括了剪辑、加工、字幕等,视频制作质量与效率也得以提高。在传统的视频制作流程来看,主要包
5、括了视频采集、制作、播出、用户体验这四个方面。而随着技术的不断进步,在视频采集方面,除了专业的摄像机设备采集视频,还可以利用当前的手机等智能移动设备来实现视频素材的拍摄,人人都可以是视频的生产者。而在视频的生产制作上,大多数的手机设备都已经具备了相当便捷的编辑程序,包括专场、滤镜、特效等多个功能。在播出环节中,从以往的电视播出,到如今只需要借助互联网就能观看。最后在用户体验上,以往的视频在播出时更多的就是用户单向接收,而如今各类视频软件都已经加入了弹幕、评论以及点赞等交互功能,极大地改善了用户的体验1。从中能够看出,“视频+AI”的形式已经深入视频制作的每一个环节当中,进一步促进了行业的发展与
6、转型。3 人工智能技术在视频制作中的具体应用分析31 图像处理技术311 美颜滤镜功能在视频制作当中,大多数的影像对于画质都有一定的要求,这也是视频整体质量中最为关键的一点。从视频制作诞生以来,对于画质提升的追求与研究一直都在不断推进与深入,类似 Photoshop 以及 D 等软件在画质提升方面都有其自身优势。随着近些年来人工智能技术的进步,不仅专业人士能够制作出画质较高的视频,越来越多的视频制作爱好者也能借助该技术来实现视频制作,同时画质也26电子信息科技风 2023 年 2 月能有所保证,而其中美颜滤镜就是对画质提升最重要的一项功能。从当前大多数具备美颜功能的软件算法来看,主要就包括了瘦
7、脸、磨皮、美白等功能。就拿某视频平台美颜技术来说,其主要是一套基于“深度学习+图像处理+图像学”的技术,其中关键技术在于人脸检测、关键点定位、瘦脸、磨皮以及美白等,在完成对用户人脸的检测后,使用OpenGL 以及 Metal 来实现人脸渲染,最终实现即时美颜。通过美颜技术,能够有针对性地向用户提供更加精细化的视频制作服务,在很大程度上提高了视频的质量。在视频的画质提升与图像美化当中,滤镜也是较为常见的制作流程。滤镜从其最初的概念来看,就是指在相机镜头外部安装的附加镜头,主要功能就是将自然光进行过滤,实现图像的风格化调色。在当前人工智能技术当中,滤镜从其本身的物理功能开始转化为虚拟功能,在滤镜算
8、法的加持下,通过软件程序的调色就能够对各种风格的滤镜进行模拟,实现视频制作者想要的效果2。随着人工智能技术的深入,越来越多的滤镜风格被应用在视频制作当中,其效果已经远超于传统的物理滤镜。312 画质修复功能在视频制作当中,传统的画质修复技术十分复杂,不仅会耗费大量的时间成本与人力成本,其最终修复效果往往也不尽如人意。在人工智能技术的应用下,通过深度学习能够实现对画质失真、失色的旧视频与旧照片的修复、翻新等目的。在当前的互联网平台中,经常能够见到对上个世纪视频录像的修复,例如 2021 年,一位博主就在其社交平台上发布了其视频修复的项目,在 AI 技术深度学习的应用下,该博主将一段由加拿大摄影师
9、在一百年前拍摄的北京视频进行了修复,原本画质模糊、黑白且有些许卡顿的画面被重新还原,同时还能更加流畅,使人们能够更加贴近历史,深受年轻用户的喜爱与好评。此外,在 2020 年国庆前,中央广播电视总台也使用了 AI 修复技术,将 1956 年拍摄的黑白电影 上甘岭 中 我的祖国 这一片段进行了修复,在社会上引起了良好的反响。从相关报道来看,这次修复是采用了传统修复与人工智能上色技术结合的手段,通过 4K 数字化修复技术将电影胶片中存在的物理损伤消除,并使用 AI 上色实现了画面的彩色化3。具体到画质修复的实际操作上,主要包括了画面修复、着色以及扩分辨率这三个步骤。首先,从画面修复上来看,对于老视
10、频的修复主要是需要补帧。由于修复的视频大部分是 20 世纪早期的影像资料,当时视频制作与拍摄设备等条件有限,如今来看会发现其画面存在卡顿、闪烁等情况,通过 AI 修复技术能够将帧率补足,使得画面看上去帧率提升而更加流畅,特别是将视频修复成 4K 画质,补帧是其中最关键的流程。在补帧技术当中,目前较为成熟的是 DAIN 模型,该模型是以深度感知为基础,通过对画面进行深度检测来划分遮挡层,并以深度感知的光流投影层开发来合成为中间流,最终实现对视频画面的插帧,进而提高视频的 FPS 值。从DAIN 模型的环节架构中看,给定两个节点的输入帧,借助对光流以及深度图的估测,并以深度感知的流投影层来合成中间
11、流,最终将光流与局部差值内核在 DAIN 模型中与输入帧、上下特征等进行扭曲,最终导出输出帧,达到补帧的最终目的。其次,从画面着色来看,在黑白视频影视资料中,画面上色也是修复当中最为显著的一项特征。在以往的人工着色技术当中,不仅费时费力,其最终效果也仅仅差强人意,着色的准确率也一直不高。通过对 AI 修复技术的应用,可以更加便捷地实现对视频的着色修复,并在上色算法中进行深度学习,通过相关的影片历史资料来确保修复后的视频更加还原当时的时代环境。当前对于 AI 着色模型,使用较多的是基于深度学习的 DeOldify。该模型在具体使用中对于视频与图片进行了划分,制作者能够根据自身需求来进行选择,在视
12、频修复中,主要是应用了其中的NoGAN 方法来进行模型训练,将视频渲染上色4。最后,从扩分辨率上来看,通过将过往视频资料的分辨率进行提升,能够修复视频中模糊不清的情况,以此来满足当前用户的观看需求以及平台播出标准。近些年来,上海美术电影制片厂出品的 葫芦兄弟 小蝌蚪找妈妈等经典动画都通过 4K 修复被重新搬到大银幕上,2021 年底,天书奇谭 也以 4K 形式进行了重映,唤醒了多数 80后、90 后的童年回忆。随着深度学习与 AI 算法的进步,从2006 年到 2022 年,中国电影资料馆就完成了超过 550 部电影的 2K 修复,4K 修复的影片数量也在不断增长。在当前扩分辨率的 AI 修复
13、方案中,主要是采用了 ESGAN 模型,其修复效果也较其他产品更佳。32 视频字幕321 字幕配音功能在视频制作当中,配音播报也是较为普遍的环节,通过事先编辑好的解说词,采取人工录制的方式来进行配音,满足部分解说类视频的需求。在传统的字幕配音中,需要在配音完成后,对字幕时间加以修改,确保字幕与时间节点能够匹配,以此来保证视频中字幕与配音的同步,提高视频质量。不过在这一环节中,会花费大量的时间去制作与匹配,同时,如果配音员存在口音或专业水平不足,会导致整体视频的观感大大降低。因此,在人工智能技术36科技风 2023 年 2 月电子信息的应用中,基于深度学习的语音算法能够将字幕进行一键配音,字幕与
14、视频的时间节点也能够完美匹配5。当前,各大视频平台都提供了相应的字幕配音功能,极大地缩短了视频制作的周期,同时在技术应用中也更为精细化,不少软件都提供了包括中文、英文等多个国家的字幕配音,另外在年龄段、性别以及语速方面都能够根据需求供制作者选择。322 字幕提取功能在人工智能技术下,视频字幕也可根据人声自动提取。在部分访谈类或会议类的视频字幕制作中,传统的制作方式需要根据视频人声来一字一句手动输入,并根据时间节点调整字幕,整个流程较为烦琐。在语音识别技术的加持下,能够一键识别视频资料中的人声,同时字幕也能与语音节点完美匹配。从当前技术应用现状来看,针对环境干扰较少、发音良好的视频语音,字幕提取
15、的效果都能够有所保证,准确率也在 98%以上。323 虚拟主播功能在视频字幕的人工智能技术应用下,不仅能够实现上述提到的字幕配音与提取功能,如今虚拟主播功能也逐步在行业中有所成果。在新闻视频的制作中,通过将事先编辑的文案添加到软件当中,就能够即时合成虚拟主播。同时,虚拟主播的口型也能够与文字进行匹配,极大地提高了用户的观感。不仅如此,虚拟主播的形象以及视频背景都实现一键替换,大大降低了新闻播报中的人工工作量。2018 年,全球首个 AI 虚拟主播在我国问世,2022 年北京冬奥会上,双语虚拟主播、手语主播等都相继亮相,这也标志着虚拟主播行业逐步进入快速发展的阶段6。在人工智能技术不断迭代升级的
16、背景下,虚拟主播技术也愈发成熟,从二维到三维,从粗糙化到如今细化到头发丝,虚拟主播慢慢在向现实靠近。33 其他技术331 智能编目与检索功能在视频制作当中,通常会需要大量的视频素材,而在选择素材时由于素材库数量庞大,往往会让制作者花费较多的时间精力去查找,对视频制作工作造成了一定的困扰。特别是在素材库的编目中如果不加以细化,也会进一步增加片段查找的难度。在人工智能技术与视频制作的融合中,智能识别技术的应用也愈发成熟,不仅能够自动识别视频中的语音、文字等重要因素,还能够自动完成编目,最终实现素材库快速检索的目的。通过智能编目与检索功能,能够大大降低视频制作中素材查找的时间投入,缩短视频制作周期,并进一步降低视频制作者的工作强度。332 AI 换脸功能在人工智能技术的应用下,还有一项较为热门的技术功能,就是 AI 换脸。AI 换脸技术也是基于深度学习等方法来实现深度伪造,当前应用较多的就是生成式对抗网络(GAN)技术,其中主要包括了重现、替换、编辑以及合成这四种类型。当前的技术模型通过采集 35 张个人的表情信息,就能够实现即时换脸的效果,在视频制作中,通过 AI换脸也能够大大减少重复性的