2023年浅谈人工智能流媒体领域应用.docx-资源下载-蜗牛文库-知识共享服务平台

2023年浅谈人工智能流媒体领域应用.docx

1、浅谈人工智能流媒体领域应用 UCLoud中国云三强: 浅谈人工智能在流媒体领域的应用前言人工智能正加速改变各个行业，而流媒体领域可能是其中改变比较快的一个。随着神经网络相关算法问题得到解决，人工智能技术在近几年得到了快速的开展，而人工智能技术在流媒体领域的渗透，使这项技术获得了新的突破。当以下图片、长视频、短视频、直播、AR等各种媒体形式占据着互联网圈，在媒体内容和形式都非常丰富的今天，如何辨识、解析这些内容，并通过人工智能反响是目前所有科技巨头关注的焦点。其中图像识别、语音语义识别、同声传译、字幕识别等应用场景的进一步挖掘，需要人工智能大战拳脚。什么是人工智能？通俗一点讲，人工智能就是大数据

2、+机器学习。这跟我们人类很像，我们想要获取知识的话，需要很多的源材料，比方通过观察外边的世界，去阅读各种书籍，或者请教老师、他人等。对于计算机来说也是这样的原理，它需要获取大量的数据去做训练，在大量数据里边抽取出有用的信息，构成它的知识库。数据是人工智能的根底数据是人工智能技术实现的根底，在UCloud平台中，数据处理是如何操作的呢？首先，我们我们的对象存储、直播云、媒体工厂每天会产生大量的原始数据，比方对象存储每天新增的图片会超过10亿张，但是这些原始数据并不一定是对计算机友好的，例如直播数据，里面有传输的协议、音视频的交错，还有各种编码在里面，这样的原始的数据对机器学习来说是不友好的。我们

3、就需要预处理的平台对原始数据进行处理，譬如图片压缩、音频提取与声道、采样率归一化、视频的抽帧等，这些预处理的功能目前采用docker镜像部署的方式跑在我们的弹性计算平台上，目前有超过10000个虚拟节点在做这个事情。仅有数据还是不够的，我们需要对数据打上标签，让计算机知道这个东西是什么，然后它通过数据标签去训练和想学习，认识这一类的事物。目前打标签有多种形式，如人工标注、关键字主动抓取等，对于难于标注的语音类的数据，我们也会购置第三方的数据。数据是人工智能的根底，未来在人工智能这个领域，数据层面的竞争将会非常剧烈。机器学习解决哪些问题？人工智能的另外一个重要环节机器学习，它解决的主要是两类问题

4、，一是分类，二是回归。分类目前应用得比较广泛，也相对成熟一些，如图片的分类，给出一张图片，识别这个图片是小猫还是小狗；或是对文字内容的分类，比方让计算机去分析一篇文章到底是体育类的还是经济类的等等。回归那么是数学的概念，它处理的问题也是偏数学方向的，输入和输出都是数字类型的。据了解，目前有些团队在做类似股票预测的场景，像这种场景依赖的变量非常多，而且本身系统非常复杂，难度比较大。分类功能在媒体领域的应用在当下这个内容为王的时代，分类和回归在媒体方面的应用十分广泛，如内容审核、人脸识别、自动标签、字幕识别、同声传译等。【内容审核】目前大多数的内容平台对用户都是开放的，用户可以上传图片、视频等。开

5、放本身是好事，使得内容更加丰富，但会涉及到很多网络监管问题，在国家和政府对网络内容的监管要求越来越严格的背景下，很多内容平台公司会专门成立内容审核部门，采用人工审核的方式，对用户上传内容进行全量审核。这项工作如果完全依赖人力审核的话是一项巨大的工程，且审核团队的工作枯燥乏味。目前UCloud的UMAI平台支持图片与视频的涉黄、暴力等内容识别，通过调用UMAI接口来对内容做预处理，可以将占比为绝大多数的正常内容过滤掉，而只留下极少数判定为疑似不健康的内容，需要审核团队进行进一步的复查，这样极大的减少了人工审核的工作量。【人脸识别】人脸识别现在在人工智能这块应用较为广泛，如身份认证、刷脸、系统等

6、；另外是人脸的搜索，比方在一段视频里快速确定有没有出现某个关键人物，或一个图片集里有没有包含这样的人。人脸识别主要的流程一般如下，首先对这个图片进行人脸的检测，然后提取关键点，包括眼睛、鼻子、嘴巴、耳朵、轮廓等，切分处理以后，再给到卷积网络提取特征，再做人脸识别，目前我们在公司考勤、政治任务识别方面已有相关的应用。【自动标签】针对用户自主上传的图片，自动标签那么发挥出重要作为。用户在上传图片的时候，往往只会标注一到两个关键词，对图片进行描述，而图片里边包含的大量其他的内容和信息，是没方法检索出来的，因为现在很多后台的搜索是基于关键字的。通过计算机视觉的场景识别功能，可以很好的将图片的隐藏信息挖

7、掘出来，让图片有更多的关键字，能够被更多的场景检索出来，发挥其作用。【字幕识别】字幕识别的应用非常直接而实用，例如身份证、发票、名片的识别，可以减少手写录入的工作量，而类似视频字幕识别这种，那么可以帮助计算机更好地去理解视频的内容。【同声传译】目前国内企业出海风潮正盛，利用人工智能实现同声传译可以帮助跨国公司、员工进行不同语种间的交流。在视频直播这一块，我们做了这样的系统，可以在视频直播传输前，把里面的音频提取出来，做切片处理以后，把语音识别出来，经过翻译系统后输出字幕并打上时间戳，播放终端拿到字幕和视频数据后，做一次时间戳同步，在播放端进行展示。这个系统主要有两个难点：一是它是经过了两次计算

8、机的识别，开始是语音的识别，其次是翻译，这会有一个误差的累积；二是这种场景的实时性要求比较高，比方说字幕的翻译有点滞后，视频数据又需要比较低的延迟，这样体验会非常不好。这也是这款产品正在优化的两个方向。人工智能私有化部署应用以上提及的是聚焦于公有云平台的人工智能的应用，而我们在跟很多客户的交流中，因为政策以及保密的原因，他们不希望将数据放到公有云上，在他们内部也有不少效劳器、视频采集设备等硬件资源，希望能够直接利用上。针对这样的需求，我们会建议使用私有化部署的方案。UCloud平台做了两件事去实现私有化部署的方案：一是组件化，我们内部有很多功能，比方直播、存储、录制、截图等，我们将这些功能剥离开，做成各种组件的形式。这样有一个好处，组件可以灵活搭配，用户需要什么功能就部署什么组件，如果对某些功能有个性化需求，只要简单修改对应组件的功能就可以了。二是我们提供训练好的模型，部署到客户的私有环境中，目前这个模型是在我们公有云上训练好的。私有化部署在自动考勤系统等场景已经有成熟的应用，我们也在不断挖掘更多可应用的场景，希望运用人工智能技术让我们的工作更便利、生活更美好。了解更多内容/购置云效劳器，请浏览UCloud云计算官网

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？