1、Planning Design规划设计52李宁王靖淞2戴俭3*(1 清华大学工学博士;北京工业大学 副教授)(2 第四范式(北京)技术有限公司 资深算法工程师)(3 北京工业大学 教授)#基金项目:北京市教育委员会科技计划一般项目:面向北京市文物建筑保护修缮需求的点云图示化解析技术与方法研究(KM202010005023)支持 摘要 本文针对大数量且形式趋同的清代神龛构件自主聚类进行研究。通过对图像识别、聚类、机器学习算法的挖掘、改写,以及新算法的编写,利用 Python 编程,本文形成可以将清代神龛构件自主聚类的闭环技术流程。该流程可以辅助完成海量相似构件的聚类,减少人工干预,加快聚类过程。
2、该流程具有推广性,能够扩展应用到其他类似项目,也为计算机技术在文物建筑虚拟复原的具体应用提供了参考。ABSTRACT:In this paper,We research,rewrite,and invent image recognition,clustering,and machine learning algorithms with python to propose a closed-loop technology flow that investigates the autonomous clustering of massive Qing dynasty shrine compone
3、nts with convergent forms.This study can assist in clustering a vast amount of similar components,reduce manual intervention,and speed up the clustering process.The output is generalizable and can be extended to other similar projects.It also provides a reference for the application of computer tech
4、nology in the virtual restoration of heritage buildings.关键词 文物构件;图像识别;自主聚类;虚拟复原KEY WORDS:Artifact Components;Image Recognition;Autonomous Clustering;Virtual Restoration清代神龛构件图像识别及聚类方法研究#Image Recognition and Clustering Methods for Shrine Components of Qing Dynasty 1 概述作者研究的对象为某大殿内神龛构件,该殿内原安置 11 座清代帝
5、王龛物,每龛含外龛和内龛两部分,现已拆散为 2610 个构件存于库房。这些构件是珍贵历史文物,如直接实物拼装复原,反复试错的过程会对本体造成不可逆的损坏。计算机技术的融入可以使文化遗产保护和修复工作更高效、更高精的进行,也能减少人工干预与修复误差。所以,本文采用虚拟拼装的方法,对龛物构件进行自主分类,减少实体拼装时人为造成的二次损坏,提高工作效率。本研究的难点在于构件形式趋同,比如现存内龛龙柱共有 44 根,需要分成 11 组,不同组的龙柱在尺寸、形式、做法上只存在微差。其他诸如下槛、外龛龙柱、门扇、帘笼枋均存在样式趋同构件的分组问题。针对难点,本文将图像分析识别技术、聚类和机器学习算法引入,
6、利用计算机技术辅助分析构件图案之间的细微差别,协助分组,指导拼装。1.1 文献综述计算机技术已经应用到考古碎片的聚类 方 面。Du G.等1运 用 判 别 特 征 描 述 符(Discriminative Feature Descriptor)对考古碎片进行聚类。通过使用神经网络,Rasheed N.A.和 Nordin M.J.2利用碎片表面的颜色和纹理特性来设计陶器真实数据集的算法。Barra P.等3提出了 SAFFO一种基于 SIFT(Scale Invariant Feature Transform)特征的壁画重建方法。该方法可以非常有效的预报错误,可利用在包含虚假元素片段集的场景中
7、。康馨月等4提出了一种基于几何特征的文物碎片聚类方法。实验结果表明,该方法在兵马俑碎片的聚类中准确率较高。周继来等5提出了一种局部几何特征提取的检索算法。通过计算各模型顶点的主曲率,得到局部曲面的形状指数。Cc A.等6通过对瓜达尔基维尔河(Guadalquivir River,西班牙)上游山谷伊比利亚轮制陶器的轮廓图像数据库进行训练,得到卷积神经网络,提出了一种无监督的自动特征提取和聚类方法。为解决现有非薄壁文物碎片匹配方法误差大的问题,Wen Y.等7采用粗匹配后细匹配的策略,将厚度特征和轮廓特征相结合,提出了一种改进的文物碎片匹配方法。经文献综述可知:数字技术在文化遗产Planning
8、Design规划设计53碎片聚类方面的研究涉及到形体、颜色分析和虚拟拼装等方面。但是当前研究尚未涉及图像识别技术以及相应的聚类神经网络在碎片聚类研究中的应用。本文以某大殿内神龛构件的聚类为例,具体阐述相应的数字技术在辅助微差构件聚类方面的研究,以期填补研究空白,为其他类似项目提供前期技术成果。1.2 案例介绍库房中龛物构件共计 10 类、2610 件。其中浑金盘龙柱 88 根、各类金枋(帘笼枋、箍头枋、上枋、下枋等)208 件,浑金斗栱 73件,各类天花及支条448件,带彩画木枋7件,龛物上装饰构件 900 件,各类雕刻构件 274件,各类隔扇 119 件,各类踏跺 26 件,其它类 400
9、余件。同类构件之间图案复杂、趋同。以图 1 门扇为例,与此形式相近的门扇总共 82 扇(应该有 88 扇,有 6 扇已经遗失)。如图 2 所示,门扇构件雕刻纹饰工艺复杂且样式多变,纹样有重叠且相似。图 2 中不属于同一龛物的两个门扇下方雕刻样式趋同,很难将该两个构件定位到具体龛物之上。北京工业大学北京市历史建筑保护工程技术研究中心在故宫博物院古建部的领导下,运用近年来研发的高精度三维采集拼合设备、图像分析识别技术、数据自动比对和相应的机器学习算法,研究出一套数字化虚拟复原流程,实现11座龛物的虚拟拼装及存档工作,找到一条利用三维信息采集和数字技术拼合海量无序构件的虚拟拼装技术路径,可以最大限度
10、地实现最小干预的原则,可以指导了实物拼装。2 方法本研究在跨学科分析的基础上应用计算机技术对文物构件进行研究,具体是通过图像识别技术,机器学习算法及相应的数据分析算法使得计算机根据构件图像信息对构件进行聚类。本文采用的方法是对图像分析后聚类,采用的具体流程分为四步:第一步是图像特征提取;第二步是图像降维主成分分析,即将图像特征数据进行压缩,以期快速精准的进行后续研究;第三步是对压缩后的向量进行初步聚类,由于每张图片样式复杂且趋同,需要对图片进行切片处理,多次聚类;第四步在第三步得到聚类结果基础上,对权重予以研究,综合判定并给出最终聚类结果。2.1 图像特征提取图像特征分为两种。第一种是图片的基
11、本特征,可采用传统计算提取;另一种是利用深度学习模型计算的特征,此类特征是由原始数据转换而来人工神经网络,能更精准描述图像,需要复杂的算法予以提取。图像基本特征即对图像进行拆解,以提取其中的点(孤立的、突变的像素点或者小型区域)、线(连续的或者渐变的线性点连线或者窄的区域)、面(区域)特征,把他们归入不同的集合或者子集中。这些图像特征是独立的,没有对图像的总体进行综合分析。本文研究的图像聚类涉及到的图片千差万别,图像之间相似度亦不均。经作者实验研究证实,单独取某一特征难以对大量相似图片进行精准聚类。本文采用深度学习模型对图像进行分析。深度学习模型需要大数据集的训练,才能准确的对再输入数据进行分
12、析。虽然研究内容本体无法提供预训练数据,但是现有研究成果已经表明深度学习训练得到的模型具有迁移能力,在大数据集上训练完成的模型可以利用在小数据集上,不需要重新训练。经过研究和筛选,本文选定 VGG(牛津大学视觉几何组 Visual Geometry Group 的缩写)卷积神经网络,该网络是由Simonyan K.和Zisserman A.8于 2014 年提出的模型。VGG 网络结构简洁,迁移到其他图片数据上的泛化性能好。该网络的训练后模型参数是开源的,提供了初始化权重,可以用来做图像聚类任务。VGG16 是具有 16 层的 VGG网络,输出的全连接层共有 1000 个神经元,可以将图片分为
13、 1000 个类别。如图 3 所示,左侧输入端原始图片为 224像素 224 像素 3RGB 颜色值,卷积过程是使用一个提取图像的特征过滤器卷积核在每层像素矩阵上不断按33步长扫描下去,每次扫到的数值会和卷积核中对应位置的数值进行相乘和求和,求得新的矩阵后,进行下一步迭代。卷积的过程也是矫正卷积核内每个数值的过程,初始值是随机的,随着训练网络的深入,网络会不断自动更新内部的参数值,通过损失函数(Loss)来评估寻找到最佳的参数值。池化(Pooling)的作用是统筹一个区域的信息,将提取后的特征整合。图 3 中最大池化(Max Pooling)是降维操作,是信息进行比对和删减,不断地减小数据空间
14、,参数的数量和计算量也会随之下降,降低了过度拟合的可能性。图 3 中红框右侧是拉平数据,变成一维向量(114096),输出端做 3 层全连接层,最后输出为 1000 个神经元(111000),对图片进行 1000 种分类。本 研 究 所 需 要 的 是 该 神 经 网 络 的77512 之前内部分,即将图片特征提取,图 1:龛物门扇构件图 2:门扇下方纹饰Planning Design规划设计54每个图片形成 77512 个矩阵,不需要对图像进行预设的 1000 个分类。2.2 图像降维主成分分析主成分分析是把多指标转化为少数综合指标,把原始信号数据压缩到一个低维子空间,目的是使数据的分布更加
15、紧凑,以期更好的描述数据,使计算的复杂度得到降低。在线性投影分析中,以主分量分析 PCA(Principal Component Analysis)和 Fisher 线性鉴别分析最具代表性,已成为模式识别领域中经典的算法,被广泛使用。本研究采用 PCA 对 VGG16 输出的图像特征做进一步压缩,将 77512 矩阵压缩成 2矩阵,使数据量减少,有助于后续聚类的研究。2.3 初步聚类首先,研究的对象包括内龛龙柱、下槛、外龛龙柱、门扇、帘笼坊,图像复杂,如果将一个图像直接压缩成 2242243 矩阵,会损失信息。所以首先要做的是把每个图像分成 8 份,每一份压缩成 2242243 矩阵。其次,将
16、每个图像进行 8 份拆分后,分析对应部分所得到的聚类结果是不一致的。例如龙柱 1 的第一部分和龙柱 2 的第一部分相似,龙柱 1 的第二部分和龙柱 3 的第二部分有共同点,无法判断龙柱 2 或龙柱 3 和龙柱 1 一组。所以需要判断每次聚类的结果,再进行后文综合聚类分析。聚类算法有监督聚类和无监督聚类,无监督聚类无预设条件,适合本研究,经过实验后,本研究采用 K 均值算法(K-Means)。K 均值算法的计算流程如下。首先,从若干对象(比如将 44 根内龛龙柱切成 448 个片段)任意选择 K 个对象(11组),故首先选择 11 根作为初始聚类中心。剩下其它 33 根龙柱根据其与 11 根已选对象的相似度,分别将它们分配给聚类中心,完成一次迭代。其次,计算迭代过程中所获的当次聚类中心,不断重复迭代,收敛标准测度函数。K 均值算法采用均方差作为标准测度函数,其结果是保证各聚类内相似,聚类间差别最大化。如上所述,每个图像分为若干个单,进行多次初步聚类,把初步结果做进一步聚类判断,给出最终的结果。2.4 最终聚类初步聚类后的结果需要进一步聚类分析,本文采用划分法(Partitioning M