收藏 分享(赏)

基于多智能体的生鲜农产品多级库存成本控制模型.pdf

上传人:哎呦****中 文档编号:3080241 上传时间:2024-01-19 格式:PDF 页数:6 大小:2.20MB
下载 相关 举报
基于多智能体的生鲜农产品多级库存成本控制模型.pdf_第1页
第1页 / 共6页
基于多智能体的生鲜农产品多级库存成本控制模型.pdf_第2页
第2页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、计算机时代 2023年 第9期0 引言供应链包括从原材料采购开始到中间商制造半成品和最终产品,最后由销售企业将产品和服务送达末端消费者的活动所构成的全部网络系统,具有动态性、层次性和交叉性等特点。牛鞭效应在供应链中普遍存在,其典型表现为当供应链的各节点企业仅根据其相邻的下级企业需求信息进行生产或供应决策时,需求信息的真实性会沿着供应链从下游到上游逐级放大,当信息传递到最上游供应商时,其获得的需求信息和实际消费市场中顾客需求信息有较大偏差,需求变异系数远大于分销商和零售商。由于这种需求放大效应的影响,上游供应商往往比下游供应商维持更高的库存水平1。生鲜农产品包括果蔬、肉类、水产品等初级产品,具有

2、保质期短、易损腐、储存困难等特性,我国果蔬、肉类、水产品腐损率分别高达 15%、8%、10%,商家难以合理安排订货/出货,造成库存管理难度大、库存成本高和客户满意度低等问题。供应链环境下制定生鲜农产品多级库存控制策略更加复杂和困难,因此有必要对其进行研究2。DOI:10.16644/33-1094/tp.2023.09.017基于多智能体的生鲜农产品多级库存成本控制模型*李姣姣,何利力,郑军红(浙江理工大学计算机科学与技术学院,浙江 杭州 310018)摘要:针对生鲜农产品多级库存成本控制问题,运用多智能强化学习思想,从供应链视角抽象出批发商与零售商智能体,引入三参数Weibull函数描述生鲜

3、农产品的损腐特征,使用深度双Q网络算法构建基于多智能体的生鲜农产品多级库存成本控制模型。该模型基于智能体间相互合作,优化订货并控制多级库存成本。实验结果表明,基于多智能体的库存成本控制模型能够在一定程度上减轻供应链多级库存中的牛鞭效应,有效降低各级库存成本,减少生鲜损腐。关键词:生鲜农产品;多智能体;强化学习;多级库存成本控制;供应链中图分类号:TP181;F253文献标识码:A文章编号:1006-8228(2023)09-81-06Multi-level inventory cost control model of fresh agriculturalproducts based on m

4、ulti-agentLi Jiaojiao,He Lili,Zheng Junhong(College of Computer Science and Technology,Zhejiang Sci-Tech University,Hangzhou,Zhejiang 310018,China)Abstract:Aiming at the problem of multi-level inventory cost control of fresh agricultural products,the idea of multi-agentreinforcement learning is used

5、 to abstract the agents of wholesaler and retailer from the perspective of supply chain.The three-parameter Weibull function is introduced to describe the spoilage characteristics of fresh agricultural products,and the Double DeepQ Network algorithm is applied to construct a multi-agent-based multi-

6、level inventory cost control model of fresh agriculturalproducts.The model is based on mutual cooperation among agents to optimize ordering and control multi-level inventory cost.Theexperimental results show that the proposed model can mitigate the bullwhip effect of multi-level inventory in the sup

7、ply chain toa certain extent,effectively reduce inventory costs at all levels,and minimize spoilage losses.Key words:fresh agricultural products;multi-agent;reinforcement learning;multi-level inventory cost control;supply chain收稿日期:2023-02-28*基金项目:浙江省重点研发“尖兵”攻关计划项目(2023C01119)作者简介:李姣姣(1998-),女,重庆丰都人

8、,硕士研究生,主要研究方向:供应链库存管理、强化学习。通讯作者:郑军红(1978-),男,浙江磐安人,博士,讲师,主要研究方向:商务智能、人工智能。81Computer Era No.9 2023传统的库存管理模型能够降低库存成本,但在实际运用中存在较大局限性。ABC库存管理法和CVA(Critical Value Analysis)库存管理法3无法给出科学定量的库存控制方案,经济订货批量模型的前提条件较为苛刻,供应商管理库存模型、协同式库存管理模型和联合库存管理模型4管理成本高、操作难度大。强化学习方法可用于研究序贯决策和最优控制问题,近年来,有学者研究强化学习多级库存的控制问题。汤大为等5

9、针对两级库存系统使用Q-learning研究订货策略。Jiang和Sheng6提出一种基于案例的强化学习算法,用于多智能体供应链系统的动态库存控制。Yu等7基于多智能体深度强化学习方法求解考虑固定时间窗和横向转运的两级备件库存控制问题。目前针对生鲜农产品的多级库存研究较少。本文针对生鲜农产品多层次、多节点的供应链结构,运用多智能强化学习思想,从供应链视角抽象出批发商、零售商智能体,并引入三参数Weibull函数描述生鲜农产品的损腐特征,使用DDQN(Double DeepQ Network,DDQN)算法构建基于多智能体的生鲜农产品多级库存成本控制模型。通过供应链上各个层次各个节点的相互合作,

10、优化订货并控制库存成本。1 算法理论与方法1.1 多智能体强化学习马尔可夫性质是指下一状态仅取决于当前状态,而不考虑历史状态。满足马尔可夫性质的强化学习任务称为马尔可夫决策过程(Markov Decision Process,MDP)8。MDP状态转移函数为p(s|s,a)=P(St+1=s|St=s,At=a)强化学习的理论基础是MDP。如图1所示,在强化学习过程中,智能体和环境一直交互。智能体感知当前所处环境的状态,经过计算给出动作。环境根据智能体的动作,生成相应的即时奖励以及下一状态。智能体目的是最大化多轮交互过程中获得的累计奖励的期望9。图1强化学习示意多智能体强化学习(Multi-a

11、gent ReinforcementLearning,MARL)是由强化学习和多智能体系统结合而成的新领域。多智能体的情形相比单智能体更加复杂,因为每个智能体在和环境交互的同时也在和其他智能体进行直接或者间接的交互。因此,多智能体强化学习比单智能体更困难。1.2 深度双Q网络Watkins和 Dayan10提出的 Q-learning方法,是一种基于价值迭代的强化学习算法。Q-learning算法通过构建Q值表存储状态-行动对的值,并根据Q值选择最优动作。Q-learning中通过求解贝尔曼最优方程确定最优价值函数和最优策略。贝尔曼最优方程为Q*()s,a=Esp(.|s,a)R()s,a+m

12、axaQ*()s,a|s,aQ-learning算法的动作值函数更新迭代式为:Q(s,a)Q(s,a)+(r+maxaQ(s,a)-Q(s,a)Q-learning存在非均匀高估问题,另外Q-learning在处理大数据问题时存在维度灾难问题。因此,Q-learning在现实中表现不佳。Mnih 等将神经网络和 Q-learning 相结合提出深度Q网络(Deep Q Networks,DQN)。其中目标网络缓解了Q-learning自举造成的高估,经验回放打破了序列的相关性。DQN预测网络的优化目标:y=r+Q(s,argmaxaQ(s,a;);)在 DQN 基础上,Van Hasselt

13、等11将行为选择和行为评估分离,提出DDQN,进一步降低Q-learning最大化导致的高估。DDQN中使用目标网络做最优动作选择,再用预测网络进行动作评估。DDQN预测网络优化目标:y=r+Q()s,argmaxaQ()s,a;1.3 三参数Weibull函数描述易损腐物品三参数Weibull分布是概率论中一种连续型分布,是寿命检验和可靠性分析的理论基础。三参数Weibull分布应用十分广泛,如拟合度的模拟、电子元器件的失效情况和物品的变质等诸多方面12。本文引入三参数Weibull分布描述生鲜农产品的损腐特性。三参数Weibull分布函数和它的密度函数分别为:F()t=1-e-()t-f(

14、)t=()t-1e-()t-其中,、分别是三参数Weibull函数的尺度因子、形状因子和位置因子,t为时间。82计算机时代 2023年 第9期2 研究内容2.1 业务模型如图2所示完整的供应链模型由供应商、制造商、批发商、零售商和顾客组成,本文研究的问题是针对制造商、批发商、零售商、顾客的多级库存系统。图2供应链模型图图3给出本文研究的供应链结构示意图,该模型是一个多层次、多节点的供应链结构。第二层批发商负责向第三层中有向线段连接的零售商供货,零售商直接承接顾客需求,同层次节点间没有业务往来,业务关系仅发生在上下层之间。图3生鲜农产品供应链结构图零售商每天向批发商提交订货订单,为满足顾客需求,

15、零售商每天更新一次库存。批发商每天向制造商提交订货订单,向零售商提供货物。当产生多个零售商订单而批发商的货物不足以满足所有订单时,则先满足先到达的订单。其中,制造商的商品数量无限。商品生命周期用l表示,商品被批发商接收后,就进入生命周期,生存期也开始增加。销售产品使用先进先出策略,即先卖生存期大的产品以满足下游节点需求。若商品生存期大于生命周期l,就产生过期成本;若商品生存期在损腐期内就产生损腐成本;若商品无法满足下游节点需求,缺货数量的订单就会被取消,并产生缺货成本。具体业务流程如下:零售商和批发商将上一日订购的商品入库,并更新库存。零售商接收顾客需求,批发商接收零售商需求,如果能满足需求则

16、计算是否产生过期量和损腐量;如果不能满足需求则产生缺货量。计算各个节点今日剩余库存量和库存成本,并更新库存。每个节点根据多智能体库存成本控制模型制定的订货策略,向上游节点发送次日订货量生鲜农产品是易损腐类产品,损腐率使用非线性函数(t),损腐率公式如下:()t=f()t1-F()t=()t-1当损腐率参数满足 0且1 0,因此设q为订货数量,q 0,j=1mj+3j取整数。节点动作空间可表示为:a=q2.2.3 奖励函数奖励是由环境给的一种标量的反馈信号,这种信号可显示智能体在某一步采取某个策略的表现如何。强化学习的目的就是最大化智能体可以获得的奖励,智能体在环境中存在的目的就是最大化它的期望

17、的累积奖励。节点的库存成本由过期、损腐、缺货、订货和持有成本组成。节点满足完需求后剩余库存量为:n3=i=0l-1si-n1-d-i=l-1xi节点库存成本可表示为:c=c1n1+c2n2+c3+kq+c4n3+c5i=l-1xi零售商奖励等于自己的库存成本。批发商奖励等于自己及管辖的所有零售商库存成本之和。3 实验与评测3.1 实验设计本文以生鲜农产品多级库存成本最小化为目标,建立包括一个制造商、一个批发商和三个零售商的多级供应链库存成本控制模型。根据上述业务与算法模型分析,首先设置智能体的神经网络,每个智能体有两个结构相同参数不同的神经网络:预测网络和目标网络。预测网络在训练中的每一步都会

18、更新,而目标网络每隔一个周期才更新一次。设经验池容量为1000000,每回合随机采样,折扣率设为0.95。使用-greedy探索策略来选择动作,初始时以=0.9 随机选择动作,此时探索力度最大。在训练的过程中,逐渐衰减直至最终=0。在这个过程中多智能体库存成本控制模型训练逐渐从“强探索弱利用”过渡到“弱探索强利用”。结合固定订货量库存成本控制模型,对比多智能体库存成本控制模型能否有效降低生鲜农产品库存成本。实验以白菜为例,跟据 2022 年国家统计局数据得白菜供应链零售商和批发商参数值如表 2 所示。以1000天为一个周期,每个节点每天只进行一次发送订单和入库操作,库存成本为1000c。零售商

19、损腐率:(t)=0.3(t-1)0.5,批发商损腐率:(t)=0.14(t-2)0.4。表2实验参数参数进价/(元/500g)售价/(元/500g)过期费/(元/500g)缺货费/(元/500g)持有费/(元/500g)损腐费/(元/500g)固定订货费/(元/次)零售商0.651.40.651.40.20.651批发商0.450.650.450.650.050.4530固定订货量库存成本控制模型的批发商采用定期定量订货法,零售商的订货服从正态分布,其订货的分布函数与需求的分布函数一致;多智能体库存成本控制模型采用DDQN方法。两种模型参数如损腐率、安全库存、订货周期、订货提前期和产品生命周期

20、等均一致。本文假设顾客需求都服从正态分布,以1000天为一个周期,每天只进行一次发送订单和入库操作。将成本汇总得出结论。3.2 结果分析图5和图6分别为实验中三个零售商需求函数服从正态分布N(100,102)和N(1000,1002)时,固定订货量库存成本控制模型和多智能体库存成本控制模型在相同条件下的库存成本变化曲线。如图5所示,在训练初始阶段,由于动作网络均处于动作探索阶段,因此多智能体库存成本控制模型库存的各个节点库存成本较高,且存在较大波动。随着智能体开始从经验池中提取历史数据进行学习,成本84计算机时代 2023年 第9期逐渐呈现明显下降趋势。到250周期时,多智能体库存成本控制模型

21、中三个零售商收敛于7万元左右;批发商收敛于16.65万元附近;批发商和所有零售商的成本之和收敛于 37.68 万元附近。在图 6 中,训练到950周期时,多智能体库存成本控制模型的批发商和所有零售商的成本之和收敛于345.08万元附近,库存成本低于固定订货量库存成本控制模型。(a)零售商1(b)批发商(c)批发商和所有零售商的成本之和图5需求DN(100,102)时库存成本控制模型实验结果图6需求DN(1000,1002)时库存成本控制模型实验结果表3库存成本控制模型实验对比结果需求函数DN(100,102)DN(1000,1002)库存成本控制模型DDQN库存成本控制模型固定订货量100库存

22、成本控制模型DDQN库存成本控制模型固定订货量1000库存成本控制模型节点零售商1零售商2零售商3批发商总计零售商1零售商2零售商3批发商总计零售商1零售商2零售商3批发商总计零售商1零售商2零售商3批发商总计库存成本/万元7.017.036.9816.6537.687.737.727.7318.8242.0169.8869.4769.73135.99345.0877.3777.3577.55151.44383.71损腐量/500g0.000.000.0044.9244.92530.16501.11518.251071.162620.682.461.632.25492.51383.716665

23、.616502.106804.651834.6121806.97注:表中数据为最后50周期数据的平均值。如表3所示,当所有零售商需求都服从正态分布N(100,102)时,多智能体库存成本控制模型的三个零售商和批发商的库存成本相对于固定订货量100库存成本控制模型分别降低9.30%、9.01%、9.72%和11.51%,多智能体库存成本控制模型的批发商和所有零售商的库存成本之和比固定订货量100库存成本控制模型降低10.31%。当所有零售商需求都服从正态分布N(1000,1002)时,多智能体库存成本控制模型的三个零售商和批发商的库存成本相对于固定订货量1000库存85Computer Era

24、No.9 2023成本控制模型分别降低 9.67%、10.19%、10.09%和10.20%,多智能体库存成本控制模型的批发商和所有零售商的库存成本之和比固定订货量1000库存成本控制模型降低10.07%。同时,多智能体库存成本控制模型的损腐量比固定订货量库存成本控制模型的损腐量更少。可以看出,多智能体库存成本控制模型优于固定订货量库存成本控制模型。4 结束语本文运用多智能体强化学习思想,从供应链角度抽象出供应商、零售商智能体,使用深度强化学习中的DDQN算法对生鲜农产品多级库存管理进行模拟建模,体现供应链中各个节点的动态结构关系,通过智能体间的相互合作,优化订货并控制多级库存成本。实验表明基

25、于多智能体的生鲜农产品多级库存成本控制模型能够有效地提高供应链库存管理水平、降低库存费用和提高供应链上各商家的经济效益,解决库存量居高不下、损腐量高和库存成本高等问题,实现多级库存的智能控制。参考文献(References):1 梁学栋,刘大成,李智,等.供应链管理M.北京:经济管理出版社,2020:145-149.2 冯继豪.基于Flexsim的生鲜农产品多级库存控制策略仿真优化D.河南:河南农业大学,2017.3 乐美龙.供应链管理M.上海:上海交通大学出版社,2021:19-20.4 刘鹏飞,谢如鹤.基于供应链的现代库存管理方法之比较研究J.商业研究,2006(2):170-174.5

26、汤大为,王红卫.强化学习算法在供应链环境下的库存控制中的应用J.管理学报,2005(3):358-361.6 Jiang C,Sheng Z.Case-based reinforcement learning fordynamicinventorycontrolinamulti-agentsupply-chainsystemJ.ExpertSystemswithApplications,2009,36(3):6520-6526.7 Yu C,Zhou Y,Zhang Z.Multi-Agent ReinforcementLearning for Dynamic Spare Parts Inve

27、ntory ControlA.2020 Global Reliability and Prognostics and HealthManagement(PHM-Shanghai)C.Piscataway,NJ:IEEE,2020:1-6.8 王树森,黎彧君,张志华.深度强化学习M.北京:人民邮电出版社,2022:31-32.9 Sutton R S,Barto A G.Reinforcement learning:AnintroductionM.MIT press,2018:1-7.10 Watkins C J C H,Dayan P.Q-learningJ.Machinelearning,1

28、992,8:279-292.11 Van Hasselt H,Guez A,Silver D.Deep reinforcementlearning with double q-learningA.Proceedings of theAAAI conference on artificial intelligenceC.Palo Alto,California USA:AAAI,2016,2094-2100.12 王道平,于俊娣.变质率呈Weibull分布的易变质物品的库存模型研究A.第十二届中国管理科学学术年会论文集C,2010:442-446.10 Tang L,Zhan Y,Chen Z,

29、et al.Contrastive boundarylearningforpointcloudsegmentationC/Proceed-ingsoftheIEEE/CVFConferenceonComputerVision and Pattern Recognition,2022:8489-8499.11 Vaswani A,Shazeer N,Parmar N,et al.Attention is allyou needJ.Advances in Neural Information Process-ing Systems,2017:30.12 O.Mattausch,D.Panozzo,

30、C.Mura,O.Sorkine-Hornung,andR.Pajarola.Objectdetectionandclassification from large-scale cluttered indoor scans.Computer Graphics Forum,2014,33(2):11-21.13MakiewiczA,RatajczakW.PrincipalcomponentsanalysisJ.Computers&Geosciences,1993,19(3):303-342.14 Oord A,Li Y,Vinyals O.Representation learning with

31、contrastive predictive codingJ.arXiv preprint arXiv:1807.03748,2018.15 Moenning C,Dodgson N A.Fast marching farthest pointsamplingforimplicitsurfacesandpointcloudsJ.Computer Laboratory Technical Report,2003,565:1-12.16 Guo G,Wang H,Bell D,et al.KNN model-basedapproach in classificationJ.Lecture Note

32、s in Com-puter Science,2003:986-996.17 Li Y,Bu R,Sun M,et al.Pointcnn:Convolution on x-transformed pointsJ.Advances in neural informationprocessing systems,2018,31.18 Tchapmi L,Choy C,Armeni I,et al.Segcloud:Semanticsegmentation of 3d point cloudsC/Proceedings ofIEEEInternationalConferenceon3Dvision,2017:537-547.(上接第80页)CECE86

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2