1、第 48 卷第 1 期2023 年 2 月Vol.48 No.1Feb.2023测绘地理信息Journal of Geomatics顾及地理信息云服务领域知识的空间分析任务日志识别方法李江1,2 刘朝辉1 宋旭颖1 李锐1 吴华意11 武汉大学测绘遥感信息工程国家重点实验室,湖北 武汉,4300792 湖北省自然资源厅信息中心,湖北 武汉,430071A Spatial Analysis Task Log Recognition Method Considering Domain Knowledge of Geographic Information Cloud ServiceLIJiang1
2、,2 LIUZhaohui1 SONGXuying1 LIRui1 WUHuayi11 State Key Laboratory of Information Engineering in Surveying Mapping and Remote Sensing,Wuhan University,Wuhan 430079,China2 Information Center of Department of Natural Resources of Hubei Province,Wuhan 430071,China摘要:现代地理信息云服务平台在处理高强度空间分析事件的同时,通常依据到达时序记录来
3、自不同用户、围绕不同分析目的的事件日志。这种混杂的日志记录方式模糊了用户的分析意图,破坏了围绕同一分析目的的计算行为的时间关联性,削弱了服务日志对从用户需求角度理解用户行为和优化服务的重要作用。提出了一种顾及地理信息云服务领域知识的空间分析任务日志识别方法,对围绕同一分析目的的服务日志进行自动化聚合。首先,基于历史任务数据集对地理信息云服务中的日任务量时序变化规律和图层关联性等领域知识进行建模;然后,借助层次编码和超参数设定的方式建立基于领域知识的聚类经验约束;最后,通过 k-means聚类及后处理得到空间分析任务日志的识别结果。基于地理信息云服务平台产生的大量空间分析日志进行实验,结果显示,
4、利用所提方法对空间分析任务日志进行识别,F1值可达到 0.895,相比无领域知识支持的基线方法,其整体精度提 升 了 8.7%以 上,可 有 效 提 高 空 间 分 析 任 务 日 志 识 别精度。关键词:领域知识;任务识别;日志聚合;地理信息云服务中图分类号:P208文献标志码:AAbstract:While dealing with high-intensity spatial analysis events,the modern geographic information cloud service platforms usually record data from differen
5、t users with different analysis purposes based on the arrival sequences.This mixed log recording method obscures the users analysis intention,destroys the time correlation of computing behaviors with the same analysis purpose,and weakens the importance of platform log in understanding users behavior
6、s and optimizing service from the perspective of users needs.Therefore,we propose a spatial analysis task log recognition method considering domain knowledge of geographic information cloud service to automatically aggregate the service logs with the same purpose.First,based on the historical task d
7、ata set,we model the time series change rule of daily tasks and the layer correlation in the geographic information cloud service.Then,we establish the clustering experience constraint with domain knowledge by means of hierarchical coding and hyper-parameter setting.Finally,the recognition results o
8、f spatial analysis task logs are obtained by k-means clustering method and post-processing.Experiments are carried out based on a large number of spatial analysis task logs generated by the geographic information cloud service platform.The results show that the F1 value can reach 0.895 when using th
9、e proposed method to recognize the spatial analysis task logs.Compared with the baseline method without domain knowledge intervention,its overall accuracy is improved by more than 8.7%,which can effectively improve the recognition accuracy of spatial analysis task logs.Key words:domain knowledge;tas
10、k identification;log aggregation;geographic information cloud service地理信息云服务平台采用分布式管理方式应对高强度的空间分析请求1,各种空间分析请求可对点、线、面等不同类型,建设用地、矿产、基本农田等不同专题的数据进行缓冲区分析、压盖分析、领域分析、栅格计算、分区统计、面积制表等多种空间分析操作。对某一类型的专题数据进行一次空间分析DOI:10.14188/j.2095-6045.2021702文章编号:2095-6045(2023)01-0086-07引用格式:李江,刘朝辉,宋旭颖,等.顾及地理信息云服务领域知识的空间分析
11、任务日志识别方法 J.测绘地理信息,2023,48(1):86-92(LI Jiang,LIU Zhaohui,SONG Xuying,et al.A Spatial Analysis Task Log Recognition Method Considering Domain Knowledge of Geographic Information Cloud Service J.Journal of Geomatics,2023,48(1):86-92)基金项目:国家自然科学基金(U20A2091,41771426);湖北省科技攻关计划(ZRZY2021KJ13)。第 48 卷第 1 期李江
12、等:顾及地理信息云服务领域知识的空间分析任务日志识别方法操作被记作一次空间分析事件;在自然资源管理过程中,用户围绕规划分析、开发分析、执法分析等不同应用目的,对各种空间分析事件的自由组合则形成了空间分析任务。空间分析任务是用户一个阶段内围绕某一应用目的的连续操作,反映了用户真实的分析意图,具有种类多样且随自然资源管理业务的变化而变化的特点,难以仅通过规则的方式进行总结,人工识别依赖专家领域知识和业务经验,且耗时耗力。在云平台系统中,后台以空间分析事件为粒度,记录任务开始的时间、任务耗时及状态等日志信息,不同空间分析事件的日志往往按照空间分析事件发生的时序被依次记录下来,使得围绕不同分析目的的空
13、间分析事件的日志信息混杂在一起,模糊了日志反映出来的不同用户的分析意图2。同时,用户围绕同一分析目的进行的不同空间分析事件的计算关联性被打断,使得难以从用户任务粒度监测平台的运行效率,减弱了平台日志对用户体验的反馈能力,日志对平台性能优化方向的指示作用被削弱。因此,如何从大量系统日志中识别出围绕同一分析目的且具有计算关联的空间分析任务日志,对于地理信息云服务平台的性能监测及服务优化具有重要研究意义3。日志数据通常是记录服务运行信息的唯一可获得的数据源,各种云服务平台往往以最精细的粒度详细记录平台中各空间分析事件的运行状态4,但随着事件日志规模的急剧扩大,日志数量远远超过了人工处理能力5,分析人
14、员难以从大量的日志数据中发现有用的信息。因此,不少学者对日志聚合技术进行了大量研究,以期对日志进行有效组织,降低信息获取的难度。Asif-Iqbal等6提出了一种日志解析框架,通过聚类的方式来识别和删除不需要的日志条目,从而在极大程度上进行日志关联。刘绍廷7对异构日志的关联和分类方法进行了研究,提出了一种基于改进的 Dempster-Shafer(DS)证据理论的日志处理方法,该方法综合考虑了日志的多维属性,从不同的维度对日志进行挖掘分析,可以有效地将无法确定类别的日志进行丢弃。Hamooni等8针对没有先验知识的海量日志消息,提出了一种快速提取日志模式的挖掘方法,从日志中分析事件模式,从而更
15、好地发现系统事件的时序模式,预测和刻画系统行为,解决系统性能调试等问题。Makanju等9提出了一种基于迭代划分的日志挖掘算法,可以自动将日志消息分成不同的组,每组代表一种特定的事件类型,在一定程度上实现了日志的自动分析。以事件类型划分9、关键日志筛选10、安全等级评估11、错误异常发现12等为目的的日志聚合问题,往往仅需要关注如何对日志数据进行粗粒度的模式发现。与这些日志聚合问题不同,在地理信息服务领域中,地理信息云服务平台为自然资源管理从业者提供了诸多基础空间分析功能,协助用户完成各项分析意图,而用户分析意图的灵活多样促成了空间分析任务类型多样的特点,空间分析任务日志识别具有更精细化的日志
16、划分粒度要求。地理信息云服务的特点给空间分析任务日志识别带来挑战的同时,也带来了机遇。其特定的分析意图往往需要特定图层的配合完成,导致访问分析图层间存在着较强的关联关系,从分析内容层面对分析事件的任务归属进行了约束。较为稳定的服务规模使得地理信息云服务平台往往具有规律的空间分析任务的负载变化,可从任务划分粒度层面对空间分析任务日志识别进行约束。这些特定的领域特色为精细化的空间分析任务日志识别提供了必要的领域知识,使得对地理信息云服务平台的空间分析任务日志进行细粒度的准确识别成为可能。而以往的日志聚合研究大多关注日志筛选分类13-15、索引关联16-18、模式提取19-21等方法本身,注重算法的通用性和处理性能,对日志所属领域的知识进行挖掘并将其运用到日志聚合过程的研究较少。因此,如何基于日志数据挖掘访问图层的关联特征、平台任务负载的稳定规律等领域知识,并将其融合到空间分析任务日志识别方法中,是对地理信息云服务平台的空间分析任务日志进行细粒度精细化识别,并进一步挖掘用户意图,从需求角度分析平台效能的关键。本文提出了一种融合领域知识,将记录单次空间分析事件的日志聚合为空间分析任务日志的聚合