基于深度强化学习的个性化任务处理方法.pdf

资源描述

1、收稿日期:基金项目:国家自然科学基金面上项目();长春市科技发展计划重点研发计划项目(Z Y );吉林省第四批青年科技托举人才项目(Q T );吉林省科技发展计划重点研发项目(G X);吉林省发展和改革委员会产业技术研究与开发专项基金资助项目(C );吉林省高等教育教学改革研究项目(J L J Y );吉林省教育科学“十四五”规划课题(GH );长春工程学院博士创新团队科研启动基金作者简介:朱亚飞(),男,汉族,江苏淮安人,长春工业大学硕士研究生,主要从事移动云计算方向研究,E m a i l:z y f e i c o m 通信作者:赵佳(),男,汉族,吉林长春人,长春工程学院教授,博士,主

2、要从事大数据分析、人工智能技术应用、区块链等方向研究,E m a i l:z h a o j i a c c i t e d u c n 第卷第期长春工业大学学报 V o l N o 年月 J o u r n a l o fC h a n g c h u nU n i v e r s i t yo fT e c h n o l o g y A p r D O I:/j c n k i c n /t 基于深度强化学习的个性化任务处理方法朱亚飞,胡明,丁言,赵佳(长春工业大学计算机科学与工程学院,吉林长春 ;长春工程学院人工智能技术研究院,吉林长春 )摘要:为实现移动

3、云计算背景下多端个性化任务处理的目标,首先通过P C A等预处理方法萃取数据特征信息实现数据域分类.再通过深度强化学习方法结合多端模型的返回特征完成云计算中心个性化任务处理(P T P)方法模型的训练.实验及仿真结果表明,该方法不仅实现了个性化任务处理的目标,而且可以提高模型收敛速度,降低算法复杂度.关键词:移动云计算;深度学习;强化学习;大数据分析中图分类号:T P 文献标志码:A文章编号:()P e r s o n a l i z e d t a s kp r o c e s s i n gm e t h o db a s e do nd e e pr e i n f o r c e m

4、e n t l e a r n i n gZ HUY a f e i,HU M i n g,D I N GY a n,Z HAOJ i a(S c h o o l o fC o m p u t e rS c i e n c e&E n g i n e e r i n g,C h a n g c h u nU n i v e r s i t yo fT e c h n o l o g y,C h a n g c h u n ,C h i n a;A r t i f i c i a l I n t e l l i g e n c eT e c h n o l o g yR e s e a r c

5、hI n s t i t u t e,C h a n g c h u nI n s t i t u t eo fE n g i n e e r i n g,C h a n g c h u n ,C h i n a)A b s t r a c t:I no r d e r t oa c h i e v et h eg o a lo fm u l t i t e r m i n a lp e r s o n a l i z e dt a s kp r o c e s s i n gi nt h ec o n t e x to fm o b i l ec l o u dc o m p u t i n

6、 g,f i r s t l y,d a t ad o m a i nc l a s s i f i c a t i o ni sa c h i e v e db ye x t r a c t i n gd a t af e a t u r ei n f o r m a t i o nt h r o u g h p r e p r o c e s s i n g m e t h o d ss u c h a s P C AT h e n c o m p l e t et h et r a i n i n g o ft h ep e r s o n a l i z e dt a s kp r o

7、 c e s s i n g(P T P)m e t h o d m o d e lo fc l o u dc o m p u t i n gc e n t e rt h r o u g ht h ed e e pr e i n f o r c e m e n t l e a r n i n gm e t h o dc o m b i n e dw i t ht h er e t u r nc h a r a c t e r i s t i c so f t h em u l t i t e r m i n a lm o d e l E x p e r i m e n t a l a n ds

8、 i m u l a t i o nr e s u l t ss h o wt h a t t h i sm e t h o dn o to n l ya c h i e v e s t h eg o a l o fp e r s o n a l i z e dt a s kp r o c e s s i n g,b u t a l s o i m p r o v e s t h ec o n v e r g e n c es p e e do f t h em o d e l a n dr e d u c e s t h ec o m p l e x i t yo ft h ea l g o

9、 r i t h mK e yw o r d s:m o b i l ec l o u dc o m p u t i n g;d e e p l y l e a r n i n g;s t r e n g t h e nl e a r n i n g;b i gd a t aa n a l y s i s 引言随着深度学习技术的不断发展,使得传统机器学习算法的设计以及实现受到了极大的启发.利用传统机器学习方案与深度学习模型的组合优化能够为领域内问题的解决以及性能的提升做出贡献.将深度学习的数据特征感知能力与强化学习的决策能力相结合,可以得到更加智能的数据处理方法 .通过神经网络获得对未来状

10、态的预测,并结合强化学习的决策能力获得目标值.常见的用于解决增强学习在智能体与环境进行交互,从而得到最优解决方法的算法有Q L、D QN、D D P G、T R P O等,其中D QN凭借其通用性,算法设计时通过经验池解决了相关性及非静态分布问题的优点而被广泛使用 .但是传统D QN算法也有不足之处,其不能用于解决连续性控制问题,且模型收敛速度较慢,各类别样本数据之间的差异会影响模型的结果,同一模型针对不同数据类别处理时不能以目标类别的基准准确率进行再训练过程.为了探索使用组合价值函数的方式对强化学习可能产生的影响,文献在确定性动态假设的情况下,证明了在熵正则化强化学习中可以实现最优价值函数

11、的组合,并验证了其结果可能对强化学习设置的影响.文献引入一种新的离线策略算法,通过限制动作空间和批量约束策略使得深度强化学习算法可以学习与当前策略不相关的数据集合,并尽最大可能使得处理结果接近于当前策略.文献研究了分布式强化学习算法,他们提出使用分解统计估量并统计回报分布的框架和使用衰减时间表,根据学习分布计算探索奖励的方式进行研究.为了得到优化后的深度强化学习方法在算法模型中的效果,文献提出使用F P O方法寻找环境变量分布中预期最优的策略,通过使用贝叶斯优化的方式解决因环境变量的转化对模型效果产生的抑制作用.针对移动云计算环境下多端任务处理问题,文中提出一种基于深度强化学习的个性化任

12、务处理方法,分为数据预分类阶段和个性化任务处理阶段.)数据预分类阶段.我们所提出的模型是初次运行,其对应的数据处理模块应分为两种情况:其一,基础模型未初始化阶段,针对输入的数据不进行数据的预处理,通过适当放弃模型精度的手段来保证得到的基准模型具备更高的普适性;其二,在基准模型构建完成时,对将要分发的数据做分类处理以提高各个端设备模型的处理精度.)个性化任务处理阶段.利用深度强化学习算法对处理的数据完成进一步的拟合以提高模型的准确率,将各个端设备的模型在数据中心完成特征数据的提取融合,提高基准模型的准确率.实验结果表明,P T P方法能够实现目标数据的特征提取,准确进行分类,将其正确分发给各个端

13、设备,实现基准模型的优化迭代过程,完成个性化任务处理的目标.数据预处理模型针对样本数据集D采用主成分分析法进行处理,通过数据矩阵Z X在高维度向低维度映射的过程中得到输入数据矩阵所保留的最大信息量,以此得到数据所处分类信息.P C A预处理得到预处理数据矩阵在N维映射的具体过程为C o vZ X,N()ni(Z XiZ X)(NiN)n.()然后计算出协方差矩阵的特征值所对应的特征向量,C,()其中,有N个,且每一个i对应都有一个i,同时这些会按降序进行排序,最终取出前k个所对应的特征向量,由此我们能够得到一组特征组,(),(),(k,k),其中特征向量,k 组成特征向量矩阵V,然后,我们将原

14、始特征(xi,xi,xin)T经过此特征组投影之后得到新特征(yi,yi,yin)T,其计算公式为Yp TZ X.()通过对输入数据进行预处理,从而得到数据所处分类的主要特征信息,为后续将其定向分配到处理特定类别的移动设备奠定基础.个性化任务处理方法的基本思想移动云计算环境下,云数据中心与移动云计算中心的数据交互以及个性化任务处理的问题可以形式化为:云数据中心T与移动设备R组成计长春工业大学学报第卷算域Dn,其中DnDT,DR,DRin,式中:i由移动设备的数量决定,ni.云数据中心提供算法模型M所需训练数据PP,P,P i,式中:i基础模型的原始数据.云数据中心将算法模型M

15、m,m,mk下发给各个移动设备,其中k由移动端使用的数量决定;云计算中心将处理后的数据分发到各个设备,各移动端使用算法模型进行应用的过程中会产生临时数据Pil,其中i代表当前移动设备,l代表该移动设备产生的数据量,因此对应移动设备的影响数据可以假设为PPi,Pi,Pil.在移动端设备脱离云数据中心的情况下,各个移动设备使用自身更新数据Pil完成算法模型mi的更新;在移动端设备能够联系到云数据中心的情况下,云数据中心T对各个设备返回的数据P进行处理,得到更新后的数据PP,P,P,式中:数据清洗后获得的数据总量.我们使用更新后的数据P完成算法模型M的更新,进而将M下发给各个移动设备再次使用.随着处

16、理数据与模型的下发以及应用数据上传这一过程的完成,便实现了P T P的一次迭代过程.同时在云数据中心收到一个待处理任务Q,该类任务共有w个类别,QCw,Cw,Cw,式中:C每个类别的概率;Cw需要分析的待处理任务最有可能所处类别的概率.这一过程是从系统架构的角度对移动云计算技术的一次重新定义,它并非像传统的移动云计算技术那样,云数据中心不具备算法模型计算功能,且不能对不同类型的任务做定向分派处理,它是从计算机体系结构的角度出发,对移动云计算环境和智能计算的一次高效扩展.移动云计算背景下的P T P方法)数据预处理,通过对原始特征向量的计算得到对应特征组的特征值矩阵.)提取特征分量进行特征聚合,完成初始化定向分配操作,初始化模型的训练及基准模型的下发.)模型个性化处理马尔科夫过程的抽象,完成状态值、奖励值、经验回放池及状态转移方程的计算.可将其处理过程抽象为一个马尔科夫决策过程,其核心为P Dt|DtP Dt|D,D,Dt.()为了评判当前状态的优劣程度,我们还需引入奖励参数R来表示某一时刻t下的状态:MRt Rt kkRtk.()在每一个子马尔科夫过程中想要求解出价值函数的值,可以使用

展开阅读全文