1、 年 月第 卷第 期.,.,收稿日期 基金项目 浙江省重点研发计划项目();国家“重大新药创制”科技重大专项()通信作者李振皓,博士,副研究员,研究方向为中药质量控制,:(),:作者简介 仲怿,博士,助理研究员,研究方向为中药制药过程质量控制,:学术探讨 基于精益理念的中药制药工业数据挖掘及生产工艺持续改进策略研究:以去壁灵芝孢子粉制药过程为例仲怿,范骁辉,李振皓,(浙江寿仙谷医药股份有限公司,浙江 武义;浙江大学 药物信息学研究所,浙江 杭州;浙江寿仙谷植物药研究院有限公司,浙江 杭州)摘要 在中药工业数字化转型进程中,如何高效治理和分析工业数据,科学挖掘并利用其中蕴藏的有价值信息来指导中药
2、生产制造,一直是中药制药领域的研究热点和应用难点。该研究针对中药制药工艺较为粗放、产品质量一致性有待提高等现状,将贝叶斯网络、卷积神经网络、帕累托多目标优化算法等先进计算工具与 控制图、过程性能指数等精益六西格玛分析工具相结合,提出一种可深入挖掘历史工业数据,指导制药工艺持续改进的策略,并以去壁灵芝孢子粉生产制造过程为研究载体进行验证。通过该策略优化,获得了可使去壁灵芝孢子粉水分、细度、粗多糖和总三萜等关键质量属性的过程性能指数 均不小于.的关键参数可行区间组合。结果表明,该方法具有较高的工业应用价值,为中药生产工艺的持续改进提供了实用方法。关键词 中药制药工业数据;工艺持续改进;贝叶斯网络;
3、卷积神经网络;帕累托多目标优化;去壁灵芝孢子粉 :,(,;,;,),(,)(,),年 月第 卷第 期.,.,;:.药品关键质量属性检验合格能够保证药品基本的有效性和安全性,但是关键质量属性的波动使得药品在储存、运输和使用过程中存在风险(稳定性差异、用量差异等),也可能导致临床疗效的差异,因此需要持续改进制药过程工艺,提升制药过程管控水平。面对以上需求,不少国内外先进制造企业已将精益生产、六西格玛管理等理念引入制药过程管控体系。异质性程度较大的原料药材和较为粗放的生产工艺致使提升中药产品质量一致性的紧迫性更甚于化学药,因此已有研究人员针对若干中药品种进行了过程性能分析,但仍然缺乏优化和改善策略。
4、在新一代数字技术推动下,全球加速迈进数字经济时代。数据也被定义为与土地、劳动力、资本、技术并列的新型生产要素。中药制药工业数据,主要包括批生产记录数据、投料药材及产品质量检验数据和能耗物耗数据等,记录和描述了真实的制药过程,蕴含着丰富的信息。因此,从零散、多源、异构的中药制药工业历史数据中分析挖掘出有效信息,指导制药工艺的持续改进是中药数字化、信息化、智能化的一大目标和研究重点,例如,作者所在团队探索了中药制药知识图谱构建方法,利用工业大数据赋能中药制药过程质量控制;于洋等建立了基于数字孪生的中药智能制药关键技术并进行了示范研究;薛启隆等利用强化学习研发了一种非优工艺状态识别与自愈调控方法,实
5、现中药制造过程质量主动预防控制;等针对中药生产过程能力评价和端到端质量追溯构建了数据驱动的工程化框架。基于以上中药制药工业数据挖掘和工艺持续优化的需求,本研究尝试将先进计算工具与精益六西格玛等先进管理理念相结合,从质量一致性分析、质量波动来源辨识、过程性能预测模型构建和关键参数优化等方面探索研究可深入挖掘历史工业数据,指导制药工艺持续改进的策略。为验证该策略的可行性,收集了 个批次去壁灵芝孢子粉的制药过程相关数据(批生产记录数据、质量检验数据),挖掘辨识了引起质量波动的关键过程参数并优化其可行区间,表明所构建策略可实现中药制药工艺的精益化持续改进。以质量一致性提升为目标的中药制药工艺持续改进策
6、略.质量一致性分析目前中药的质量评价体系中,指纹图谱主要用于分析不同批次产品的质量一致性。但是,该指标仅能从化学组成的维度部分表征不同批次之间的差异,无法全面反映现行工艺所制造产品的质量波动情况。然而,长期积累的质量检验数据中已然蕴藏了丰富的相关信息,可通过使用合适的数据挖掘工具,在不增加质检工作量的情况下更为全面系统地分析目标中药产品的质量一致性。本研究通过引入精益六西格玛理念,联用 控制图和过程性能指数综合评价中药产品的质量一致性。首先,通过 控制图对各质量参数项进行趋势分析。控制图中有若干条平行于直角坐标系横轴的直线,中间 条虚线为中线(即样品均值),上、下 条虚线为统计控制限(一般为)
7、,上、下 条或 条实线为产品标准的上、下限。然后,通过计算各质量参数的过程性能指数,分析当前工艺条件下的过程管控能力。计算公式如下。?,?()?()?()其中 和 为药品标准或企业内控标准中各质量参数项的上、下限,?和 为所分析样品目标质量参数项的均值和标准差。当 和 均存在时,使用公式()计算;当仅存在 时,使用公式()计算;当仅存在 时,使用公式()计算。一般认为.时,对于该质量参数而言,当前过程具有较好的性能;介于.时,对于该质量参数,当前过程性能可接受,存在提高空间;而当.时,则对于该质量参数而言,当前过程性能较差,有必要提升控制水平,减小质量变异和波动。.质量波动来源辨识通过分析药品
8、质量一致性,可获得到现行生产条件和工艺水平下波动较大的质检项。要减小以上质检项的批次间差异,则需进一步找出造成其批间一致性不佳的原因,因此需要联合分析投料物料质量数据、制药过程生产数据和产品质量数据,挖掘其内在规律和关系,辨识出需要优化的关键参数。因此,本研究通过因果发现(贝叶斯网络结构学习)算法挖掘由历史批次投料物料质量检验数据、批生产记录数据及产品质量检验数据构成的工业数据集,构建目标制药过程的因果网络(即贝叶斯网络),进而辨识出引起质量波动的关键投料物料质量参数和关键工艺过程参数。贝叶斯网络()是一种概率图模型,被广泛用于不确定知识表达和推理领域。贝叶斯网络可通过有向无环图进行可视化,其
9、中节点代表变量(包括投料物料质量参数、制药工艺过程参数以及成品质量参数等),带箭头的边代表变量间的因果关系,箭头指向“果”变量。而经由一仲怿等:基于精益理念的中药制药工业数据挖掘及生产工艺持续改进策略研究:以去壁灵芝孢子粉制药过程为例定先验知识修正后的网络即可作为辨识质量波动来源的依据。需要说明的是,使用贝叶斯网络的重要假设是各变量相互独立,因此在数据清洗和预处理时需要确保所使用的变量间不相关,例如物料质量参数表征了原辅料相对独立的不同维度属性(如理化性质、成分含量、微生物限度等),而过程参数则采集自不同工序或不同设备的传感器、检测仪表、过程分析仪器等,可认为其互不相关。.过程性能预测模型构建
10、 在定性辨识出引起质量波动的关键参数后,还需建立关键参数与关键质量属性间的定量模型,为后续的优化奠定基础。由于本策略的首要优化目标是提升中药产品质量一致性,故可将拟构建的制药过程性能预测模型的输出设定为批次间波动较大的质量属性的过程性能指数,并将模型输入设定为对应批次的关键参数所构成的矩阵。由于该模型的输入是由多个批次的投料物料质量参数和工艺过程参数所构成的矩阵,故考虑将广泛应用于计算机视觉领域的卷 积 神 经 网 络(,)模型引入本研究,用于构建过程性能预测模型。.关键参数可行区间优化 通过过程性能预测模型可实现质量波动来源参数与关键质量属性间关系的定量描述,故可以此为基础探索提升中药产品质
11、量一致性的途径:以各关键投料物料属性参数项(即质量波动来源中的投料物料质量参数)标准上下限以及各关键工艺过程参数(即质量波动来源中的工艺过程参数)当前控制限为搜索空间,以模型输出的各质量参数 望大为优化目标,通过 启发式算法在过程性能预测模型中帕累托前沿;进而将约束条件设定为各待改进关键质量属性的 不小于.或.,筛选符合条件的关键参数区间组合,若存在多个区间组合,则取并集。去壁灵芝孢子粉制药工业数据挖掘与生产工艺优化.数据来源及数据分析工具 本研究共收集了 年,由金华寿仙谷药业有限公司生产的 个批次去壁灵芝孢子粉质量检验数据及相应批次的批生产记录数据和投料质检数据。根据企业标准,该产品主要检测
12、指标包括感官指标、水分、细度、粗多糖、总三萜、菌落总数、霉菌及酵母菌、大肠菌群。本研究所有数据处理、统计分析、建模、优化及绘图工作均通过 语言(.)自主编程完成。.质量一致性评价以生产批次为横坐标,质量指标为纵坐标,绘制 控制图用于评价去壁灵芝孢子粉的质量一致性,见图。黄色实线为质量标准中的控制限,红色虚线为各批次样本检测指标的均值,蓝绿色虚线为所收集样本计算所得的 控制限()。根据检测结果,批样品的检测结果均符合标准规定,但(水分)、(细度)、(粗多糖)和(总三萜)的质量参数数据均存在一定波动,表明产品的质量一致性仍有提升空间。图 去壁灵芝孢子粉 控制图.年 月第 卷第 期.,.,经 正态性
13、检验,均符合正态分布,其余质量参数(为感官指标和微生物指标)的检测数据均为恒定值,无法进行正态性检验。各质量参数的质控上、下限为生产企业内控标准,据此计算的 见表,质量参数 的 小于.,的 则小于.,表明当前制药过程对于上述质量参数的管控水平仍有提升空间,存在一定的质量波动,可能引起质量风险。表 去壁灵芝孢子粉各质量参数项过程性能分析 质控上限质控下限均值标准差.综合 控制图和过程性能分析结果,取两者并集可将去壁灵芝孢子粉质量参数 辨识为质量波动项,提示在后续步骤中应进一步分析可能引起上述波动的关键参数并探索精准改进方法。.质量波动来源制药过程会涉及物料、人员、设备、环境等多个维度的参数,然而
14、上述参数与药品质量一致性间的关系并不明晰,因此需要辨识出引起质量波动的关键参数,才能实现更为精准的优化和管控。针对上文辨识出的质量波动项,本研究以批次关联的投料物料(破壁灵芝孢子粉)批检验报告质量参数项、批生产记录工艺过程参数项以及成品(去壁灵芝孢子粉)批检验报告中对应的质量参数项为节点,运用 网络结构学习算法构建了去壁灵芝孢子粉制药过程因果网络,见图,并将如下规则作为先验知识对构建结果进行修正:节点无自相关性;投料物料质量参数项不为“果”;投料物料质量参数项不为工艺过程参数的“因”;工艺过程参数项中,后序参数项不为前序参数项的“因”;出料物料质量参数项不为投料物料质量参数项和过程参数项的“因
15、”。网络中的 节点和 节点均处于指向 节点的路径上,表明对质量参数的波动产生影响,因此可将投料质量参数、以及工艺过程参数 和 辨识为引起去壁灵芝孢子粉质量波动的来源(参数通过代号表述),为后续的优化和管控锚定方向。.过程性能预测模型 在辨识出引起质量波动的关键参数后,需进一步建立数学模型,定量描述上述参数与质量波动项之间的关系,为搜寻可提升去壁灵芝孢子粉质量一致性图 去壁灵芝孢子粉制药过程贝叶斯网络.的参数区间组合奠定基础。首先,对历史批记录进行 抽样,获取每次抽样所得的()矩阵(其中 为抽样样本量,本研究中 ;为投料物料质量参数项数目,本研究中;为工艺过程参数项数目,本研究中 )作为过程性能
16、预测模型的输入;同时,计算每次抽样所得样本中质量波动项的过程性能指数,作为模型输出;然后,使用 算法构建过程性能预测模型。本研究所构建的 包括 个输入()层、个卷积()层、个池化()层、个展开()层以及 个(本研究中 )输出模块,每个输出模块中包含 个全连结()层和 个输出()层,模型结构见图,各模型参数见表。将数据集按照 的比例划分为训练集和测试集,以均方误差(,)为模型 值训练模型,并在模型训练过程采用了 和 的策略以防止过拟合。计算可得训练集和验证集的相关系数()分别为.和.,决定系数()分别为.和.,表明该模型的预测结果与实际值之间相关性较强,具有一定的预测能力,且预测精度较为理想,不存在明显的过拟合现象,可用于预测灵芝孢子粉制药过程性能。该模型的建立为关键参数的持续优化和仿真验证提供了支撑。.优化关键参数可行区间 基于所构建的去壁灵芝孢子粉制药过程性能预测模型,本研究通过 算法搜索获得帕累托前沿,获得帕累托最优解集。但是,所得解集虽能使得各质量波动项的 互不支配(即在以上解集的基础上继续优化其中 个,必然会导致其他 的降低),却无法保证所有质量波动项的 可提升至可接受的水平,