1、长沙民政职业技术学院学报Journal of Changsha Social Work CollegeVol.30 No.1March.2023第30卷第1期2023年3月基于税收数据的协同过滤推荐算法设计与实现张作玲123(山东经贸职业学院,山东 潍坊 261011)摘要:针对商品流通环节采购商与供应商信息不对称问题,采用现阶段主流的协同过滤推荐算法设计个性化推荐方案,为供应商匹配“资信良好”的采购商信息,为采购商提供“质优价廉”的供应商信息,有效沟通供求双方需求。文章首先介绍了基于税收数据进行协同过滤推荐算法设计的必要性,然后设计了基于近邻的协同过滤推荐算法,分别论述了基于用户的协同过滤和
2、基于物品的协同过滤;为克服数据稀疏问题,进一步设计了基于模型的协同过滤推荐算法,通过隐语义模型构建User与Item的关联,详细阐述了基于用户相似度的IncrementalSVD推荐算法实现过程,丰富了个性化推荐的应用场景。关键词:个性化推荐;协同过滤推荐算法;隐语义模型;税收数据中图分类号:TP391文献标识码:A文章编号:1671-5136(2023)01-0117-08生产要素是资源,但资源却不一定是生产要素1。数据作为一种新型生产要素,其价值的释放在于通过分析挖掘技术建立起数据间的关联关系2,将数据资源转化为现实生产力。孤立静止的数据是没有价值可言的,税收数据尤其是增值税发票数据能够对
3、纳税人的生产经营活动进行全链条、立体化的正向追踪和反向溯源,具有时效性强、覆盖面广、颗粒度细的优点,能够对纳税人的生产经营活动进行全链条跟踪,为基于协同过滤的个性化推荐奠定了数据基础。“金税四期”已经开启了“千人千面”个性化定制的道路,在决策指挥端“重大事项”模块,已经能够根据税务人员岗位、职务、偏好等数据进行差异化的信息资源推送,有效提高了工作人员信息获取的效率和质量。随着“金税四期”建设的深入推进,完全可以站在纳税人的角度,为纳税人提供“千企千面”的个性化定制服务,向纳税人推送其可能感兴趣的原材料供应商和潜在的商品采购商,一方面帮助采购商获取“质优价廉”的原材料,另一方面向供应商推送“资信
4、良好”的潜在客户信息,在供应链环节实现优胜劣汰的生物进化,优化要素资源配置。基于此,本文运用协同过滤推荐算法设计基于税收数据的个性化推荐方案,将数据要素转化为现实生产力。1协同过滤推荐算法协同过滤利用了两个非常朴素的哲学思想:“群体的智慧”和“相似的物体具备相似的性质”3。从概率上讲,大多数人的决策要比单一个体的决策更为理性和高效。群体智慧便是通过共享集体智能,实现高效决策和结果优化。协同过滤在税务服务个性化推荐中的思想是:相似的物体具备相似的化学或物理结构,其在最终用途或性能方面也具有相似性。协同过滤包括协同和过滤两个环节。所谓协同就是利用群体智慧来做决策(推荐),类似于生物学的进化论,通过
5、协同作用让群体进化到性能更佳的状态。对于税务推荐系统来说,就是通过纳税人的持续协同,为目标客户提供最符合其偏好的推荐组合。而过滤就是在可供选择的推荐组合中,根据目标客户行为偏好,确定最优的TopN进行推荐。基于税收数据的协同过滤推荐方案设计是通过群收稿时间:2023-02-15基金项目:山东省人文社会科学课题“山东省环境保护税的绿色创新效应评估研究”(2022-YYJJ-25);山东省社会科学规划研究项目“税收大数据赋能山东省产业链微循环的机制研究”(20CSDJ40)。作者简介:张作玲(1985),女,山东经贸职业学院副教授,博士研究生。E-mail:长沙民政职业技术学院学报2023年体的行
6、为来找到某种相似性(既可以是纳税人之间的,也可以是标的物之间的),通过该相似性来做决策或推荐。协同过滤推荐算法分为基于近邻的协同过滤和基于模型的协同过滤4。其中,基于近邻的协同过滤又分为基于用户的协同过滤(User-based CollaborativeFiltering,简 称 User CF)和 基 于 物 品 的 协 同 过 滤(Item-based Collaborative Filtering,简称Item CF);基于模型的协同过滤又可以进一步划分为基于用户相似度的 Incremental SVD推荐和基于物品相似度的 Incremental SVD推荐。2基于近邻的协同过滤推荐算
7、法基于近邻的协同过滤推荐算法是利用集体智慧的典型5。例如,当我们周末想去看电影,但又不知该看哪部电影的时候,通常会在微信朋友圈里问一句“朋友们,最近有什么好看的电影?求推荐”,并且在众多的推荐结果中,我们更倾向于与我们“志趣相投”的朋友们的推荐,他们的建议被采纳的概率更高,因为我们与朋友们拥有更多共同的兴趣爱好。基于近邻的协同过滤推荐算法基本思想是:如果纳税人 Taxpayer NO.1 喜欢商品 Goods NO.1,纳税人Taxpayer NO.2 喜欢商品 Goods NO.1、Goods NO.2、Goods NO.3,Taxpayer NO.3 喜 欢 Goods NO.1 和Goo
8、ds NO.3,那 么 认 为 Taxpayer NO.1 与 TaxpayerNO.2 和 Taxpayer NO.3 相似,因为他们都喜欢 GoodsNO.1,而喜欢 Goods NO.1 的用户同时也喜欢 GoodsNO.3,所以把 Goods NO.3 推荐给纳税人 TaxpayerNO.1。基于近邻的协同过滤推荐算法前提假设是:纳税人的生产经营范围具有相对稳定性,相应其生产资料消耗也具有延续性,即纳税人以前经常采购某商品,其在未来对该类商品也具有偏好,不会随着时间推移而发生变化。因此,我们就可以根据纳税人历史采购记录,获取纳税人偏好的商品。同时,纳税人对某种商品的购买次数可在一定程度
9、上反映纳税人对该商品优劣的评价。因为纳税人作为理性经济人,愿意从某公司重复采购某商品,可以在一定程度上说明该商品质量上乘且价格合理。本文以交易次数作为纳税人对商品进行综合评价的替代指标,并进行归一化处理,以20%为间隔,5代表交易次数最多的前20%的商品,1代表交易次数最少的后20%的商品,中间分别是4,3和2。假设纳税人Taxpayer NO.1NO.4与商品Goods NO.1NO.5之间存在如表1所示的历史交易行为,其中,“?”代表未发生过交易行为的商品。表1纳税人对某商品的综合评价纳税人商品纳税人:Taxpayer NO.1纳税人:Taxpayer NO.2纳税人:Taxpayer N
10、O.3纳税人:Taxpayer NO.4商品名称:Goods NO.13253商品名称:Goods NO.2?535商品名称:Goods NO.35535商品名称:Goods NO.4?422商品名称:Goods NO.55234我们要做的是根据“纳税人商品”历史交易数据矩阵,计算纳税人 Taxpayer NO.1 对商品 GoodsNO.2 和 Goods NO.4 的潜在购买可能性,并向 Taxpayer NO.1推荐购买可能性较高的商品。本文用余弦相似度衡量纳税人间的相似性(User CF)以及商品间的相似性(Item CF),余弦相似度的计算方法如下:D(A,B)=a*b a*b=x1
11、x2+y1y2x21+y21*x22+y22(1)2.1基于用户的协同过滤(User CF)基于用户(User-based)的协同过滤主要考虑的是纳税人和纳税人之间的相似度6。首先找出与目标服务对象纳税人A相似的纳税人群组B,然后分析群组中纳税人经常采购的物资名单,预测纳税人A对它们的评分,找到评分最高的若干个物品推荐给纳税人A。以表1中的数据为例,基于用户的协同过滤实现过程如下:第一步:采用余弦相似度衡量纳税人间的相似性,计算结果如表2所示:表2纳税人间的相似性TaxpayerNO.110.92920.89340.9942TaxpayerNO.1TaxpayerNO.2TaxpayerNO.
12、3TaxpayerNO.4118张作玲:基于税收数据的协同过滤推荐算法设计与实现第1期TaxpayerNO.2TaxpayerNO.3TaxpayerNO.40.92920.89340.994210.822980.96010.8229810.90580.96010.90581(续表)TaxpayerNO.1TaxpayerNO.2TaxpayerNO.3TaxpayerNO.4提取与纳税人 Taxpayer NO.1 相似的 3 个纳税人Taxpayer NO.2NO.4 有 过 交 易 行 为 的 商 品 GoodsNO.1NO.5。因 为 纳 税 人 Taxpayer NO.1 对 商 品
13、Goods NO.1、NO.3和NO.5有过交易行为,不需要重复推荐,只需要计算纳税人Taxpayer NO.1对未曾接触过的商品 Goods NO.2和 Goods NO.4的潜在购买可能性,并根据交易可能性的大小进行推荐优先级排序。方法是通过纳税人Taxpayer NO.2NO.4,建立起纳税人 Taxpayer NO.1与商品 Goods NO.2和 NO.4的联系。纳税人与商品之间的关系如图1所示。图1基于用户的协同过滤(UserCF)第二步:加权排序推荐。对纳税人i已经有过交易记录的物品的交易次数进行加权求和,权值为与纳税人i相近的n(n从1开始)个纳税人的相似度,然后对所有纳税人的
14、相似度的和求平均值,计算得到纳税人i对商品g的潜在购买可能性,计算方法如下:纳税人对商品的潜在评分为:Pi,g=n N(i)Ti,n*Sg,nn N(i)Ti,n(2)Pi,g为纳税人i对商品g的潜在购买可能性,N(i)为与纳税人i相似的纳税人,Ti,n为纳税人i与纳税人n的相似度,Sg,n为纳税人n对商品g的评分。第三步:计算纳税人Taxpayer NO.1对商品GoodsNO.2与 Goods NO.4的综合评价并排序。纳税人 Taxpayer NO.1对商品Goods NO.2和Goods NO.4的潜在综合 评 价 分 别 为 4.3657 和 2.6598,所 以 相 对 于 商 品
15、Goods NO.4,更应该向纳税人Taxpayer NO.1推荐商品Goods NO.2。2.2基于物品的协同过滤(Item CF)基于物品的协同过滤和基于用户的协同过滤类似,只不过在Item CF中,计算的是物品与物品之间的相似度7。例如当我们从电商平台购买了一本涉税服务实务方面的书籍,网站后续会向我们推荐税收法律法规、财务与会计等相关的书籍,这便是基于物品信息的协同过滤推荐。Item CF在为纳税人提供推荐服务中的应用是:首先根据纳税人的历史交易数据,确定纳税人偏好的商品信息,然后从商品库中筛选与纳税人偏好商品相近的商品组合,推荐与其偏好商品相关度最高的商品给他。基于物品的协同过滤计算步
16、骤如下:第一步:采用余弦相似度衡量商品间的相似度。计算结果如表3所示:表3商品间的相似度GoodsNO.1GoodsNO.2GoodsNO.3GoodsNO.4GoodsNO.5GoodsNO.110.84480.84480.79470.9338GoodsNO.20.8448110.95670.9428GoodsNO.30.8448110.95670.9428GoodsNO.40.79470.95670.956710.8339GoodsNO.50.93380.94280.94280.83391根据纳税人Taxpayer NO.1以前有过交易行为的商品 Goods NO.1、NO.3 和 NO.5,计算纳税人 TaxpayerNO.1对商品Goods NO.2和Goods NO.4的潜在购买可能性,并根据可能性大小进行推荐优先级的排序。方法是通过商品Goods NO.1、NO.3、NO.5建立起纳税人 Taxpayer NO.1与商品 Goods NO.2和 NO.4的联系,如图2所示:图2基于物品的协同过滤(Item CF)119长沙民政职业技术学院学报2023年第二步:加权排序推荐。