1、第 卷第期计算机集成制造系统 年月 :收稿日期:;修订日期:。;基金项目:国家重点研发计划资助项目();国家自然科学基金资助项目(,)。:,(),(,)基于双深度学习网络的面向设备负荷稳定的智能车间调度方法黎声益,马玉敏,刘鹃(同济大学 电子与信息工程学院,上海 )摘要:在车间管理中,设备负荷是一个关键性能指标,负荷稳定直接影响了生产效率与生产成本,但目前鲜有研究关注如何实现设备负荷稳定的问题。为此,提出一种面向设备负荷稳定的智能车间调度方法。该方法通过一个含有深度神经网络调度模型的调度智能体,分析车间生产状态与设备负荷间的相关性,及时输出满足期望目标的调度方案。针对深度神经网络调度模型,设计
2、了一个基于双深度学习网络()的深度神经网络调度模型训练器,其利用奖惩学习免监督地形成调度样本,借此对深度神经网络调度模型进行网络参数更新,实现模型自学习。所提方法在 半导体生产车间模型中进行了验证,证明了所提调度方法能实现对智能车间设备负荷的控制,从而保证车间整体设备负荷的稳定性。关键词:智能车间;设备负荷;调度;深度学习网络中图分类号:;文献标识码:,(,):,(),:;计算机集成制造系统第 卷引言在车间管理中,车间设备负荷直接影响了生产效率与生产成本,是十分关键的性能指标。如果设备持续处于满负荷下容易导致:机械强度下降、故障率提高、寿命缩短,从而带来高昂的检修维护成本;设备维护调度、人员调
3、度等多维度的调度工作无法开展,降低了制造过程整体的协同性。如果设备负荷过低,又会直接降低车间的运行效率,导致产品的平均加工周期(,)增加。因此,有必要控制车间设备负荷,尤其是小批量、多品种生产的柔性作业车间。目前,该领域的研究主要集中于运用工艺规划与调度集成的方法实现混合流水车间、柔性车间等背景下的设备负荷的均衡化。如 等针对小批量、多品种齿轮箱装配线平衡问题,通过电子表格模拟最大候选规则方法重新分配任务,利用归零法()提高装配线的设备利用率;陆远等为了解决智能制造车间生产过程设备负荷协同问题,通过分析设备动态能力,建立瓶颈设备负荷率模型,基于改进遗传算法,优化设备利用率,降低关键设备超负荷运
4、行的可能,使设备负荷均衡。此类方法在一定程度上可实现对设备负荷的有效控制,但由于控制精度不足以及稳定性较差,设备负荷的浮动较大且具有较高的不确定性,无法很好地满足多维度调度任务的协同以及生产性能优化的需求。智能车间是智能制造的主要载体,智能车间具有丰富的生产数据,且支持实时交互,因此机器学习方法成为智能车间调度研究的一个重要手段。作为机器学习 领 域中 的重点 方向,深 度 学 习(,)和强化学习(,)技术发展日渐成熟,相比于决策树、支持向量机等传统的机器学习方法,与 可以更有效地对数据进行挖掘。其中,能对大数据进行深度挖掘,构造非线性函数来逼近真实数学模型,以更低的计算成本、更高的计算效率解
5、决生产调度问题;而 则能通过奖惩学习,模仿人类决策过程,提高调度问题的决策科学性。针对作业车间调度 问 题,等 提 出 一 种 改 进 的 神经网络算法,加快了搜索局部最优解的速度,实验证明该方法在搜索速度、调度效果上比遗传算法、模拟退火等传统方法更优;等 利用深度置信网络构建了订单信息、车间实时状态信息与订单完成时间的映射模型,能在复杂多变的生产环境下,以较少的人工监督,准确预测订单完成时间等生产指标;等 提出一种基于 学习的动态调度方法,该方法可在奖惩学习中逐步自主地建立并更新稳定的调度知识库,实现调度决策核心的自学习。由此可见,与 为智能车间生产调度问题提供了有效的解决思路。同时,和 也
6、有不同的优势,具有 不具备的函数逼近能力,而 在学习与决策能力上又更为突出,因此,可将 与 的优势进行互补,通过日益成熟的深度强化学习技术,实现智能车间的自适应生产调度。等 针对分布式生产调度问题,利用深度网络方法,在 的基础上结合 强大的感知与函数逼近能力,提出一种基于边缘计算的智能车间生产调度框架与方法,并通过实验证明了基于深度网络的智能体在大量离线训练的基础上,能对实时生产状态数据进行决策,并给出最佳调度方案。以上研究表明深度强化学习技术可与生产调度问题进行有效融合,提高调度方案决策的科学性,但所提方法仍存在需要人工监督、决策模型难以趋于稳定、无法进行在线学习等不足,难以满足智能车间调度
7、问题中及时响应动态环境的需求。其中,双深度学 习 网 络(,)方法可在一定程度上解决决策模型难以趋于稳定的问题。为此,本文将探索一种基于 的智能车间调度框架与方法,实现完全免监督、自学习和自适应的智能车间生产调度,并将其应用于车间设备负荷的控制中,即以设备负荷处于期望区间内为目标,利用基于 训练得到的深度神经网络调度模型,实现调度决策,从而稳定车间设备负荷。面向设备负荷稳定的智能车间调度 面向设备负荷稳定的智能车间调度框架为了应对智能车间复杂、动态的生产环境,面向设备负 荷稳 定 的 智 能 车间调度 方 法 应 具 备 以 下特点:()根据当前车间调度需求以及生产状态,决策出合理的期望设备负
8、荷区间。()根据期望负荷区间与当前的生产状态,进行调度决策,并施加至车间。()针对动态事件,可对当前的调度方案进行及时调整。第期黎声益 等:基于双深度学习网络的面向设备负荷稳定的智能车间调度方法为满足上述需求,本文提出如图所示的面向设备负荷稳定的智能车间调度实施框架。该框架包含车间状态感知模块、动态事件监测模块、设备负荷区间决策模块、调度决策模块个模块。其目的是通过实时获取智能车间生产状态数据来判断当前是否有动态事件,若有,则对设备期望负荷区间进行重新评估,并针对期望负荷区间与当前生产状态实现有效调度决策。各模块的具体功能如下:()车间状态感知模块实时读取智能车间的生产状态数据,并对数据进行清
9、理、分析与融合后,形成融合状态数据。相比于原始状态数据,融合状态数据能为不同的模块,针对性地提供特征更显著的状态数据,如图中的融合状态数据为反映车间扰动特征的状态集合,为反映车间资源配置的状态集 合,为 反 映 车 间 当 前 加 工 状 态 的 状 态集合。()动态事件监测模块针对融合状态数据,判断当前是否有扰动事件发生,如设备故障、人员调动、紧急订单插入等。()设备负荷区间决策模块针对融合状态数据以及车间调度需求,输出合理的平均期望负荷区间。()调度决策模块针对融合状态数据以及期望负荷区间,输出调度策略,并施加至智能车间。其流程具体如下:步骤车间状态感知模块实时采集当前的车间状态数据,经过
10、数据清理、分析与融合后,形成融合状态数据集,。步骤动态事件监测模块根据融合状态数据,判断当前是否有扰动事件发生,若有,则向设备负荷区间决策模块发送激活信号,并转步骤,反之,则继续监测。步骤设备负荷区间决策模块根据融合状态数据以及调度需求,输出平均期望负荷区间。步骤 调度决策模块根据期望负荷区间以及融合状态数据,输出调度策略,并施加至智能车间。基于双深度学习网络的调度决策方法如图所示的调度决策模块是控制设备负荷稳定的核心模块。在复杂、动态的生产环境下,生产数据体量巨大且耦合性强,传统数据挖掘方法难以获得令人满意的效果,因此本文采用深度神经网络调度模型作为决策核心,以提高调度决策的科学性。同时,为
11、了解决模型训练需要大量人工监督以及模型难以收敛的问题,本文采用双深度 学习网络()方法设计深度神经网络调度模型训练器,并引入调度智能体概念,利用其感知、分析、决策和执行能力实现图中各模块的协同与交互。由此,提出了如图所示的面向设备负荷稳定的调度智能体,可针对融合状态数据以及期望负载区间输出调度策略。具体地,调度智能体对加工过程中生成的融合状态数据进行分析与处理,结合期望负载区间,生成调度样本,为调度模型训练器提供样本支持,并对深度神经网络调度模型进行在线更新,从而实现科学的调度决策。具体流程如下:调度智能体通过感知功能,接收融合状态数据,状态分析子模块将当前状态数据与历史状态集进行比对分析,判
12、断是否为新状态:()若是,则将当前状态数据存入调度经验池与历史状态集,并激活基于 的深度网络模型训练器进行在线学习,而后输出更新后的深度神经网络调度模型,用于调度决策;()否则,直接将状态数据输入至深度神经网络调度模型,输出得到调度策略,并施加至智能车间,同时将调度策略存至调度经验池。由图可知,提供可靠的调度模型是关键,因此,如何设计基于 的深度网络模型训练器,是实现面向设备负荷稳定的调度决策的核心内容,也是本文的研究重点。基于 的深度神经网络模型学习基于 的深度网络模型学习为调度决策模块提供可靠有效的调度模型是本文的核心。为了提高深度网络模型收敛的效率与稳定性,本文利用 算法进行模型训练。从
13、调度经验池中随机抽取小批量经验样本送入基于 的深度网络模型训练器中,由其对深度神经网络调度模型进行计算机集成制造系统第 卷网络参数更新,其实现流程如图所示。其中,调度经验池中的调度经验样本的形式为(,),表示智能车间生产状态,如在制品数、日投料量等状态,其数据维度即状态的数量,不同的生产状态可通过统计学方法进行统一编码,以便于模型输入。表示调度方案,如启发式调度规则、组合式调度规则等,其数据维度与所选择的调度方案形式有关,本文所选用组合式调度规则作为调度方案,数据维度为组合式调度规则中启发式规则的个数,各个启发式规则对应的权重系数可直接作为模型输出,无需编码。表示向智能车间施加调度方案后新的生
14、产状态。表示状态下,施加调度方案可获得的奖励值,这里,由于是面向设备负荷稳定的调度,应为期望设备负荷与实际设备负荷的相关函数。为了使调度经验池中的调度经验样本更能反映当前的生产状态,本文采用队列机制对调度经验池进行更新,即当调度经验池中的经验样本数量超过经验池容量后,将淘汰经验池中最早存入的样本,为新样本的存入留出空间。同时,小批量调度样本将按照式()进行随机抽取,使抽取的调度经验样本更具有时效性,同时也能割裂样本之间的相关性。,(),(,),(,);,(),其他。()其中:表示调度经验样本序号;表示调度经验池的容量;(,)表示在与之间取随机数;与为可调整参数,两者的值越大,越容易抽取到较新的
15、调度经验样本。基于 的深度神经网络调度模型训练器的搭建与训练具体流程如下:步骤搭建用于在线决策的评估深度神经网络和用于辅助计算损失函数的目标深度神经网络,两个网络结构和初始参数完全一致,并且每隔一定的训练次数,将评估网络的参数延时拷贝至目标网络。步骤将小批量调度样本输入至评估网络与目标网络,经过前向传播后,可分别得到评估网络的第期黎声益 等:基于双深度学习网络的面向设备负荷稳定的智能车间调度方法行为值向量 与目标网络的行为值向量 ,并将 拷贝至中间向量 。步骤以 作为目标行为值向量,将其输入到 算法的行为值函数中,并将输出覆盖至 的对应位置,完成向量 中的部分元素更新(依据 、进行元素定位),
16、所述行为值函数为:(,)(,)。其中:表示训练样本的行索引向量且满足 ,表示训练样本中的样本条数,表示训练样本中的规则位置向量。步骤以 与 构建损失函数 :。步骤利用损失函数 对评估网络进行反向传播,更新、优化网络参数。步骤重复步骤步骤,若达到预设训练次数,则输出训练好的评估深度神经网络。基于 的深度神经网络调度模型训练器的实现见算法。算法基于 的深度神经网络调度模型训练器实现。:折扣因子搭建评估深度神经网络 以及目标深度神经网络 没有达到停止条件 向 、输入小批量调度样本,分别得到 ,(,)(,:)达到延时拷贝触发周期 利用损失函数 对 进行反向传播,更新参数 输出 实验为验证本文所提出的基于 的面向设备负荷稳定的智能车间调度方法有效性,本文选用经典的半导体生产车间 模型 加以验证,仿真平台选用 ,实验平台采用 语言实现,实验环境为 、内存为、操作系统为 。实验数据设置 智能车间调度样本数据确定半导体智能车间状态集、调度规则集、平均期望设备负荷区间 以及奖励值,本实验中类数据的具体设置如下:()车间状态集本实验选取个车间状态,如表所示。为了防止在模型训练过程中出现状态维数灾难,需要对