收藏 分享(赏)

基于深度强化学习的自动化集装箱码头集成调度方法_尹星.pdf

上传人:哎呦****中 文档编号:2372171 上传时间:2023-05-10 格式:PDF 页数:11 大小:1.84MB
下载 相关 举报
基于深度强化学习的自动化集装箱码头集成调度方法_尹星.pdf_第1页
第1页 / 共11页
基于深度强化学习的自动化集装箱码头集成调度方法_尹星.pdf_第2页
第2页 / 共11页
基于深度强化学习的自动化集装箱码头集成调度方法_尹星.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、收稿日期:2022-06-13*国家自然科学基金项目(72174160)资助第一作者简介:尹星(1994),硕士研究生.研究方向:港口调度与优化.E-mail: 通信作者:唐可心(1996),博士研究生.研究方向:群智能优化算法、港口调度优化等.E-mail:基于深度强化学习的自动化集装箱码头集成调度方法*尹星1张煜1,2郑倩倩1唐可心1(1.武汉理工大学交通与物流工程学院武汉 430063;2.广东省内河港航产业研究有限公司广东 韶关 512000)摘要:针对自动化集装箱码头卸货过程中岸桥、智能运输机器人和场桥设备交互作业,实际调度环境复杂多变等问题,以最小化最大完工时间为目标,构建基于混合

2、流水车间的三阶段集装箱码头集成调度模型,为解决自动化码头调度环境动态性强的特点,使用1种深度强化学习算法(DDQN)进行求解。依据码头实际调度情况,使用神经网络实时拟合动作-值函数,把各阶段设备状态数据输入模型,采用经验回放机制训练模型,把单一启发式规则加复合启发式规则作为设备候选行为,通过强化学习动作选择与动作评估机制,得到最优的集装箱-设备组合策略,并与精确算法和常用的几种元启发式策略进行对比分析。结果表明:较大规模算例下,与目前较为先进的粒子群算法相比,所提方法的总作业时间平均降低了7.84%,与理论下界值的差距分别为6.0%,5.6%,4.6%,三阶段设备负载较为均衡,设备平均利用率为

3、89%,满足实际应用需求;小规模算例下,与Gurobi求解器的总完工时间平均误差为1.99%,且随着算例规模增加,所提算法在求解时间上显现出一定的优势,求解时间最大提升59%,验证了所提方法对于提升自动化集装箱码头运行效率的可行性和高效性。关键词:智能交通;自动化集装箱码头;三阶段集成调度;深度强化学习;混合流水车间中图分类号:U691+.31文献标识码:Adoi:10.3963/j.jssn.1674-4861.2022.06.009A Study of Integrated Scheduling of Automated ContainerTerminal Based on DDQNYIN

4、 Xing1ZHANG Yu1,2ZHENG Qianqian1Tang Kexin1(1.School of Transportation and Logistics Engineering,Wuhan University of Technology,Wuhan 430063,China;2.Inland Port and Shipping Industry Research Co.Ltd.of Guangdong Province,Shaoguan 512000,Guangdong,China)Abstract:The interactive operations of quay cra

5、nes,artificial intelligent robots of transportation(ARTs),and yardcranes during automatic container terminal unloading are studied.A three-stages integrated scheduling model of au-tomated container terminal based on hybrid flow shop scheduling problem is proposed,with the criterion of mini-mizing th

6、e makespan.In addition,the scheduling environment requires high real-time response.A deep reinforce-ment learning algorithm,namely double deep Q-network(DDQN),is used to solve the problem of dynamic charac-teristics of the automatic terminal scheduling environment.The input of the model is the real-

7、time status data of theequipment at each stage.The neural network is used to fit the value-action function.The model is trained by experi-ence playback mechanism.The single heuristic rule with the compound heuristic rule is taken as the equipment can-didate behavior.By strengthening the learning act

8、ion selection and action evaluation mechanism,the optimal con-基于深度强化学习的自动化集装箱码头集成调度方法尹星张煜郑倩倩唐可心81交通信息与安全2022 年6 期第 40卷总 241期0引言集装箱码头是连接海路运输的重要枢纽,其作业效率关乎港口的运营效益和码头竞争力。岸桥、水平运输工具,以及场桥是进行集装箱码头装卸船作业的重要自动化设备,对于全自动化集装箱码头而言,码头的运作效率和运作成本很大程度上由这3种设备之间的协调性决定,因此3种设备的资源分配与协同调度一直是集装箱码头的研究热点。集装箱调度过程涉及多个环节,岸桥对海侧集装箱

9、进行装卸,集卡对集装箱进行运输,场桥负责集装箱在堆场的取放作业。部分学者对单一作业环节进行研究,如高雪峰1对2台场桥存取混合作业模式进行了建模和求解;丁一等2研究自动化集装箱码头自动导引运输车(automated guided vehicle,AGV)调度问题,分析AGV路径选择和调度策略对港口装卸效率的影响;夏孟珏等3重点研究了岸桥故障突发情况下装卸船作业重调度策略。但集装箱码头调度是1个联合作业过程,仅考虑单一作业环节无法实现码头整体生产的优化,一些专家侧重于从阶段设备协同作业角度进行集装箱调度优化,比如,梁承姬等4对多船作业模式下岸桥和集卡协同调度问题进行研究;陈超等5对港口泊位分配与集

10、卡路径规划进行研究。也有学者对岸桥、运输小车,以及场桥3阶段作业联合调度过程展开研究,如常祎妹等6将岸桥间、场桥间干涉和集卡速度变化等不确定性因素考虑在内,研究装卸作业模式下集装箱码头集成调度问题。传统的求解集装箱调度的方法主要有精确算法、元启发式和启发式算法、仿真方法,Kim等7提出了1种分枝界定方法来获得岸桥调度问题最优解;秦天保等8从约束规划角度对岸桥、集卡和场桥的集成调度进行建模,并使用CPLEX求解器进行求解。但由于2阶段及以上的集装箱联合调度问题属于典型的NP难组合优化问题9,精确算法难以在有效时间内进行求解。启发式与元启发式算法在NP难问题求解方面有着广泛的应用,也取得了良好的效

11、果,如钟祾充等10使用改进布谷鸟算法求解码头3阶段集成调度问题;陈超等11提出1种双层遗传算法对岸桥、集卡和场桥3种设备数量配置。杨彩云等12使用Anylogic仿真平台,对自动化码头内部智能运输机器 人(artificial intelligence robot of transportation,ART)动态调速问题进行研究,但仿真方法优化能力有限且无法直接给出调度方案。随着人工智能的发展,一些学者开始探索使用强化学习方法来解决港口调度问题。强化学习是1种具有自主决策能力的机器学习方法13,与环境交互为目标,从智能体自身经验中进行学习,更加适用于复杂的动态环境。目前在港口调度领域使用较为广

12、泛的强化学习算法主要有Q-Learning、deep Q-net-work(DQN)和 Actor-Critic 算法。张华胜14将 Ac-tor-Critic深度强化学习与启发式算法进行结合,设计算法框架,对自动化跨运车和场桥集成作业过程进行优化;尚晶等15提出了基于Q-Learning算法的集卡调度强化学习模型,仿真结果显示该算法能够对集卡调度策略进行明显优化。Q-Learning是1种基于表格型的方法,面对大规模调度环境时,庞大的动作空间会导致“维数灾难”问题,为了解决这个问题,DQN引入神经网络来拟合Q值16,文献1使用改进搜索策略和采样方法的DQN算法来解决自动化堆场双场桥协同调度问

13、题。综上,集装箱装卸作业是1个多环节的联合调度问题,使用简单启发式和静态优化方法对码头3阶段调度问题求解易陷入局部最优,且算法搜索时间较长。强化学习能够实现与动态调度环境的自主tainer equipment combination strategy is obtained.According to the actual survey data of Tianjin Port AutomationTerminal,different scales cases are designed for experimental comparison and analysis.The results sh

14、ow that:the to-tal operation time of the proposed method is reduced by 7.84%on average compared with the current advanced par-ticle swarm optimization algorithm,and the gap with the theoretical lower bound value is 6.0%,5.6%,and 4.6%,re-spectively.In addition,the equipment loading in the three stage

15、s is relatively balanced.And the average utilizationrate of equipment is 89%,which can meet the actual application requirements.In small-scale examples,the averageerror of the total completion time obtained by DDQN is 1.99%compared with Gurobi.With the increase of the sizeof the example,the solving

16、time is increased by 59%at most,which verifies the feasibility and efficiency of the pro-posed method for improving the operation efficiency of the automated container terminal.Keywords:intelligent transportation;automated container terminal;three-stage integrated scheduling;deep rein-forcement learning;hybrid flow shop82交互,且目前已有一些学者将强化学习成功应用于码头实际调度过程,但研究侧重于单一作业环节,缺乏对自动化集装箱码头多环节联合调度问题的研究。因此建立岸桥、ART,以及场桥的3阶段集成调度模型,更有利于从整体优化集装箱调度过程,降低港口运作成本。针对集装箱卸船作业的特点,以车间调度领域的混合流水车间理论17为基础,以最小化总完工时间为目标,建立自动化码头集装

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2