一种用于电视节目播出异态识别的人工智能模型训练方法

资源描述

1、电视技术第 47 卷第 1 期(总第 566 期)61PARTS&DESIGN器件与设计文献引用格式：汤冻，奚晓轶，闫涛.一种用于电视节目播出异态识别的人工智能模型训练方法 J.电视技术，2023，47（1）：61-65.TANG D，XI X Y，YAN T.Training method of AI model for television broadcast abnormal image recognitionJ.Video Engineering，2023，47（1）：61-65.中图分类号：TN931.3 文献标识码：A DOI：10.16280/j.videoe.2023.01

2、.013一种用于电视节目播出异态识别的人工智能模型训练方法汤冻，奚晓轶，闫涛（江苏省广播电视总台，江苏南京 210013）摘要：提出一种用于电视节目画面播出异态识别的人工智能模型训练方法，解决没有针对广播电视安全播出监看领域图像识别的神经网络模型，以及自有模型训练异态样本量少的问题。最终训练集可以达到 97%的训练精度，实际测试检测准确度超过 90%，可以满足应用需求。关键词：人工智能；图像识别；模型训练Training Method of AI Model for Television Broadcast Abnormal Image RecognitionTANG Dong,XI X

3、iaoyi,YAN Tao(Jiangsu Broadcasting Corporation,Nanjing 210013,China)Abstract:This paper proposes an AI model training method for the recognition of abnormal picture of TV program broadcast,which solves the problem that the number of abnormal samples is small,and there is no neural network model for

4、image recognition in the field of broadcast and television broadcast monitoring.The final training set can reach 97%of the training accuracy,and the actual test detection accuracy exceeds 90%,which can meet the application requirements.Keywords:artificial intelligence;pattern recognition;model train

5、ing0 引言监听监看是广播电视安全播出的重要环节。播出机房值班人员需同时监看上百个活动画面，存在一定的视觉盲区。长时间监看大量活动画面，人员易产生视觉疲劳，导致注意力下降。部分画面异常现象出现时长可能不足 0.5 s，难以被人眼或监看设备捕捉。如果多个画面异常同时出现，值班人员难以快速准确判断故障原因，可能延误播出故障的及时处理。同时，传统监听监看系统对系统硬件的要求较高。随着人工智能技术的发展，人工智能技术为智能化的异态画面检测提供了新的思路和方法。江苏省广播电视总台研发了一套广播电视异态画面检测系统和分析系统，通过人工智能图像识别技术，实时识别异态画面，提示值班人员关注播出异常。在研发

6、过程中，项目组发现由于广播电视节目画面异态样本少，用一般方法训练的模型的识别精度无法满足需求。本文通过分析广播电视异态画面的故障特征，提出了一种用于电视节目播出异态识别的模型训练方法，解决了样本量少以及准确度低的问题，提高了图像识别的准确度和识别速度，得到适用于广播电视播出应用场景的神经网络模型。1 模型训练流程为了使系统可以分辨出异态画面和正常画面，并识别出异态画面具体是哪一类异态画面，需要对异态特征进行分析。常用的图像特征有颜色特征、纹理特征、形状特征以及空间关系特征。然而，人工进行图像特征提取很难做到准确，也就导致后续识别的准确度不高。人工智能卷积神经网络（Convolutional

7、Neural Networks，CNN）模型，可实现每一层神经网络学习不同类型的特征，自动组合并给出结果，从而实现对图片的自动特征提取与分类1。62电视技术第 47 卷第 1 期(总第 566 期)PARTS&DESIGN器件与设计电视播出过程中可能出现的异态画面一般包括视频丢失、黑场、单色场、测试卡及彩条等。在对LeNet、AlexNet、GoogleNet、ResNet2等经典神经网络架构进行测试和比较后，综合考虑样本量、网络结构以及网络深度对模型训练时间和精度的影响，本文最终选定 Caffe 深度学习框架和 AlexNet 神经网络结构，进行网络调试和模型训练。模型训练的流程主要包括数

8、据处理、模型参数调整、模型训练、数据测试以及模型输出等。训练流程如图 1 所示。具体实施过程中，按照广播电视播出中经常出现的异常画面进行图像数据收集并分类；对图像进行尺寸归一化；再对图像进行增强操作，如图像倾斜角度、亮度、对比度调整等操作；对增强后的图像数据创建 LMDB 数据库；根据训练环境定义AlexNet 结构，设置输出分类数量；配置训练过程参数，优化训练速度，防止过度拟合。具体训练步骤如图 2 所示。2 数据处理模型训练需要收集大量数据，输入神经网络中，通过不断调整网络参数，使最终识别结果准确度满足设计需求。现有成熟的图像识别数据库如ImageNet3，MNIST 等，大多是基于数字、

9、动物、植物以及常见物品，而广播电视异态图像并不在通用的图像识别数据库中，数据集量也较少，需要自定义数据集，并通过数据处理，增加样本量，以达到训练要求。数据处理AlexNet模型参数调整模型训练图像识别预测模型输出图 1 模型训练流程准备数据将原始图片进行分类统一图片尺寸调整图片倾角调整图片亮度和验证集将图片分为训练集准备完毕定义神经网络定义输入网络维度定义隐藏层定义完毕定义分类输出网络开始训练定义训练轮次设置损失函数权重其他优化项目如防止过拟合训练完成使用模型预测视频使用OpenCV加载视频并分帧将用户选取的热点区域输入神经网络并进行预测将预测的分类输出完成视频逐帧分类预测图 2 具体训练步骤

10、电视技术第 47 卷第 1 期(总第 566 期)63PARTS&DESIGN器件与设计2.1 数据收集考虑到广播电视播出的节目异态画面实际情况，本文选择的图像异态主要包括彩条（75%，100%）、测试卡、单色画面（黑色、绿色、灰色、白色等）三种类型。原始的图像数据可以从信号发生器的测试信号中选取。由于大多数测试信号不会在正常播出时出现，因此仅选取彩条、单色场等信号。另外一个图像收集途径是通过互联网爬取测试卡、彩条等图片，手工删除不符合的图片并进行分类，如图 3 所示。2.2 图像增强由于本项目的数据集比较小，为避免训练过程中产生过拟合的情况，导致模型无法学习到样本的特征从而没法进行准确

11、识别，同时考虑到本项目所训练的模型是应用于摄像头拍摄的画面识别，摄像头拍摄画面可能存在亮度不均匀、角度倾斜等问题，为让图像数据进一步贴近实际，提高识别的准确性，因此需要对收集的数据进行增强处理。图像增强包括平移、旋转、亮度调节等方式4。平移是一种几何变换，它将图像中每个对象的位置映射到最终输出图像中的新位置。旋转是将原始的图像像素在位置空间上做变换。考虑到白天/黑夜不同光线条件，为了消除图像在不同背景中存在的差异，通过色彩抖动调整的是图像的亮度、饱和度和对比度。经过图像增强后，图像数据库增加到每个分类约 1 000 张图片。部分经过增强的图片如图 4 所示。（a）测试信号（b）网络数据集图片图

12、 3 测试信号集和网络数据集64电视技术第 47 卷第 1 期(总第 566 期)PARTS&DESIGN器件与设计图 4 图像增强效果示例2.3 数据集制作神经网络模型训练是经过前向传播计算损失函数（loss），描述模型的预测值与真实值之间的差距大小，指导调整优化参数，使模型在训练过程中朝着收敛的方向前进，否则可能无法达到所需的识别精度。在数据集中，通过将数据集切分为训练集（train）和验证集（val）5，利用 val 数据来验证模型是否过拟合问题，并以此来调节训练参数。本项目使用的广播电视播出异态分类数据集共有 3 个类别，分别建立 colorbar（彩条）、tvtest（测试卡）和

13、mono（单色画面）三个图像数据文件夹。样本的类别一般以字符串类型的类别名区分，但是对于神经网络来说，首先需要将类别进行数字编码。colorbar，tvtest和mono分别对应0，1，2的分类标签。类别名与数字的映射关系一旦创建，一般不能变动。train 和 val 下的图片分别生成 train.txt 和 val.txt 的标签文件。将图片和标签生成 Caffe 框架所需要的LMDB 格式数据集，就完成了模型训练所需要的数据准备。3 模型调整3.1 AlexNet 模型结构AlexNet 模型由卷积层和全连接层6两大部分组成。AlexNet 的优势在于网络增大（5 个卷积层+3 个全连接层

14、+1 个 Softmax 层），同时解决过拟合问题，并且利用多 GPU 加速计算。AlexNet 模型的深度为 8 层，卷积层 5 层，全连接层 3 层，分类数目有1 000 类。3.2 参数调整为了使神经网络模型更好地适用于广播电视播出异态画面数据集，需要对 AlexNet 模型的网络层参数进行调整。原模型中输入的 batch_size（批次数）参数是256，表示该批次输入图像为 256 个。根据训练的机器性能，将 batch 数目往下调到 64，以免产生内存溢出的错误。但是由于 batch_size 比较小，样本覆盖面过低，产生了非常多的局部极小点，在步长和方向的共同作用下，数据产生震荡，

15、导致不收敛。因此，需要调节其他的参数来保证数据的收敛。在这种情况下，把 learning rate（学习率）调节到 0.02，相当于加大了步长，这样可以在一定程度上避免震荡，图 5 所示为经过调整文件内容。图 5 部分模型参数调整3.3 模型训练参数调整后，通过 Caffe 框架进行模型训练。通过设置总训练轮次和断点优化训练过程。本项电视技术第 47 卷第 1 期(总第 566 期)65PARTS&DESIGN器件与设计目每训练 100 轮，模型就会被保存一次。经过对模型的 loss 曲线查看，可以发现模型训练速度很快，损失函数逐步下降而收敛，100 次左右就降到了很低的地方，因此训练 2

16、00 轮次就可以得到适合的模型。最终训练生成的 caffe_alexnet_train_iter_200.caffemodel 模型，其 Loss 曲线如图 6 所示。0.00.20.40.60.81.01.21815 22 29 36 43 50 57 64 71 78 85 92 99 106113120127134141148155162169176183190197损失训练次数/次图 6 损失函数曲线4 模型测试模型训练好后，通过 OpenCV 调用模型，对图片进行分类预测，以验证模型识别的准确性。图 7为输入一张实际的机房监看画面，预测为 tvtest（测试卡）的可能性达到 99.99%，预测准确。对于摄像头拍摄的视频，通过对视频中每一帧画面进行检测，即可得到检测结果。经过测试，该模型对测试集数据中的异态画面识别精度超过97%，实际应用中，对彩条、测试卡以及单色画面等三类异态画面的识别准确度达到 90%以上。图 7 彩条预测效果5 结语通过本文方法训练得到的广播电视节目异态识别模型，在广播电视异态画面检测和分析系统中得到了较好的应用。在实际使用中，通过机房摄像头/码流采集板

展开阅读全文

一种用于电视节目播出异态识别的人工智能模型训练方法_汤冻.pdf