收藏 分享(赏)

面向纸本图书的图书馆用户画像构建探索_王英.pdf

上传人:哎呦****中 文档编号:2319618 上传时间:2023-05-06 格式:PDF 页数:10 大小:2.71MB
下载 相关 举报
面向纸本图书的图书馆用户画像构建探索_王英.pdf_第1页
第1页 / 共10页
面向纸本图书的图书馆用户画像构建探索_王英.pdf_第2页
第2页 / 共10页
面向纸本图书的图书馆用户画像构建探索_王英.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、128信息管理图书馆杂志(2023年第2期 总第382期)Library Journal(Vol.42 No.2)面向纸本图书的图书馆用户画像构建探索王 英1 梁思怡2 杨 巍1 林伟明1 胡振宁1(1 深圳大学图书馆 2 深圳大学电子与信息工程学院)摘要 纸本图书的服务与管理一直都是高校图书馆工作的重要方向之一。文章引入用户画像概念,以深圳大学纸本图书馆藏服务系统数据为基础,通过数据分布统计,利用内容分析法及关键词提取的 TF-IDF 方法等,挖掘、描绘并呈现用户属性、用户行为偏好及用户兴趣偏好的特征标签,构建了图书馆用户画像实例,供图书馆纸本采访、服务及管理决策参考,以提升纸本图书资源利用

2、效 益。关键词 用户画像 高校图书馆 用户行为 兴趣偏好DOI:10.13663/ki.lj.2023.02.016Exploration on the Construction of Library User Portraits Oriented to Physical BooksWang Ying1,Liang Siyi2,Yang Wei1,Lin Weiming1,Hu Zhenning1 (1 Shenzhen University Library;2 College of Electronics and Information Engineering,Shenzhen Univer

3、sity)Abstract The service and management of physical books has always been one of the important content of university library work.The article introduces the concept of user portraits,based on the data of Shenzhen Universitys phsycial book collection service system.Through data distribution statisti

4、cs,using content analysis and keyword extraction TF-IDF methods,it mines,describes and presents user attributes,user behavior preferences and the characteristic tags of user interest preferences,and constructs examples of library user portraits for reference in library paper interviews,services and

5、management decision-making,so as to improve the efficiency of physical book utilization.Keyword User portrait,University Library,User behavior,Interest preference0 引言在大数据应用普及和智慧图书馆转型环境下,纸本图书资源沉寂形势凸显,图书馆无论在技术运用还是服务创新方面都面临着巨大的挑战,但同时也迎来了创新机遇。用户画像作为大数据环境下应运而生的一种技术方法,能充分利用图书馆基础数据,描绘用户特征,挖掘用户动态化的行为与兴趣偏好,洞

6、悉、预测用户的资源需求,可应用于图书资源建设、服务与管理当中,提升图书馆纸本图书资源综合效 益。1 图书馆用户画像研究现状交互设计之父 A.Cooper 最早提出用户画像概念,将其定义为“基于用户真实数据的虚拟代表”1。随着各行业的研究与发展,用户画像研究在图书馆领域兴起,国外研究起步较早,在理论和实践层面皆有较丰富且成熟的研究2。在用户画像建模方面,K.W.Lenug 等3通过检索系统日志反馈来对用户画像聚类,E.通信作者:杨巍,E-mail:王 英 梁思怡 杨 巍 林伟明 胡振宁Wang Ying,Liang Siyi,Yang Wei,Lin Weiming,Hu Zhenning(图表

7、扫码读取)王 英 梁思怡 杨 巍 林伟明 胡振宁:面向纸本图书的图书馆用户画像构建探索Wang Ying,Liang Siyi,Yang Wei,Lin Weiming,Hu Zhenning:Exploration on the Construction of Library User Portraits Oriented to Physical Books129王 英 梁思怡 杨 巍 林伟明 胡振宁Wang Ying,Liang Siyi,Yang Wei,Lin Weiming,Hu ZhenningY.Wong 等4以科研产出为对象,构建学者的可视化兴趣画像以适配本机构科研管理战略。随

8、着国内用户画像的研究,图书馆用户画像研究略有成果。在理论研究方面,除研究现状、思路策略外,用户画像建模、服务模式及系统设计等实务性研究较多,刘海鸥等5构建融合图书馆用户信息、内容偏好、互动、会话、情境等标签的图书馆用户画像模型;曾子明等6基于用户画像,探索智慧图书馆移动视觉搜索及推荐服务模式;王顺箐7基于用户画像构建读者需求及观点分析的阅读推荐系统模型。在实践研究方面,不乏属性、行为、兴趣等画像构建实现,都蓝8利用用户画像分析读者阅读行为倾向,并运用于高校图书馆年度阅读报告展示;杨传斌等9抽取读者属性数据对用户行为建模,采用关联规则推荐算法,实现读者推荐新书系统;吴澹宁等10构建读者综合兴趣画

9、像模型,实现智慧性推介与实 证。然而,实践研究主要以用户的行为、兴趣等单方面特征构建画像,未综合用户属性、行为及兴趣偏好等特征集成画像,数据挖掘过程展现的详尽程度仍有待提升。本文以深圳大学图书馆学生读者为构建对象,以学生、纸本图书及交互的事实数据为基础,利用数据分布统计、内容分析法及关键词提取的 TF-IDF 方法等,结合图书画像,构建动静态结合的集用户属性、用户行为及兴趣偏好于一体的综合用户画像标签模型。一方面,基于客观数据统计分析,划分用户行为、兴趣偏好层级,构建综合特征的用户画像;另一方面,较为全面地展现数据结构和画像构建过程,在数据及方法的适配性及可操作性上具有实际参考意 义。2 用户

10、画像概念及构成要素2.1 概念A.Cooper 首提用户画像后,国外学者有持不同看法,一些学者1112认为用户画像是“一个从海量数据中获取的、由用户信息构成的形象集合”,可描述用户需求、个性化偏好及兴趣等。国内学者也有不同见解,余孟杰13认为用户画像是一种大数据环境下呈现用户全貌的信息标签化方法;曾建勋14提出从用户的专业背景、知识获取习惯、兴趣偏好、特长任务等方面构制用户画像标签概念;马安华15以电子商务与通信领域为例,认为用户画像包含用户的人口统计学特征、习惯态度、行动轨迹等概念;陈晶等16在图书馆领域融入用户情境属性要素,将用户画像维度划分为自然、社交、兴趣及能力等属性。可见,不同领域的

11、学者对用户画像概念内涵有不同的释义。笔者认为用户画像是一种挖掘用户属性、行为及兴趣的细粒度特征并形成多维度特征标签集的方法,面向纸本图书的用户画像应涵盖用户、图书及交互关系的信息要 素。2.2 构成要素根据馆藏服务系统存储的数据、功能及用户图书需求,为更全面地描述用户表征,将面向纸本图书的用户画像划分为用户属性、行为偏好和兴趣偏好等三类要素(见图1)。其中,用户属性主要包括用户的性别、学院、入学年份等,在学制期限内用户属性较为固定,可定义为静态属性;行为偏好属性根据借阅行为和预约行为次数来判定偏好程度及类型;兴趣偏好属性取决于用户行为相关的图书要素的重要程度,其中图书要素包括作者、出版社、类别

12、号、出版年及主题等。然而用户行为与兴趣是不断变化的,因此将行为偏好和兴趣偏好定义为动态属性,需持续捕捉用户的行为与兴趣偏 好。3 面向纸本图书的用户画像构建探索用户画像构建以纸本图书馆藏服务系统的数据为基础,通过获取、预处理数据,基于用户画像要素的建模,析出并集成用户画像属性标签等步骤完 成。3.1 数据获取与预处理3.1.1 数据获取本文原始数据来自深圳大学图书馆自主研发的支持图书馆纸质图书馆藏服务的新一代图书馆服务平台(LAS4)17及深圳大学图书馆公共书目检索系统(SULCMIS OPAC IV V1.0)18所记录的用户数据、图书书目数据及借阅预约数据,获取时间为 2020 年 12

13、月,获取用户记录 256 592 条、用户行为(借阅与预约)记录 376 938 条、图书记录 1 048 575 条,各数据130信息管理图书馆杂志(2023年第2期 总第382期)Library Journal(Vol.42 No.2)的字段及其构成详见表 1。3.1.2 数据预处理用户类型各有不同,不同类型的用户借阅行为不一,鉴于本科生与科研驱动的研究生及教学科研人员对纸本图书关注度的区别19,选取本科生作为用户画像构建的目标人群。为确保数据的统一与稳定性,消除用户行为周期受学制因素限制及受新冠疫情影响,以更好地定位、挖掘用户特征及需求,筛选出相对完整的 20152017 级本科生数据。

14、在用户借阅、预约数据上,存在阅览时间过短或一天内多次借阅、预约一本书的异常情况的,通过设立时间阈值 12 小时将操作时间过短的数据剔除,一天内多次借阅、预约同本书的只保留最后行为的数 据。在图书数据的处理上,常见缺失的为作者、摘要、出版社、出版年等均能体现用户兴趣偏好特征的数据,需要补全。其中,通过正则表达式提取书名“”后的作者信息;摘要和出版社可利用第三方检索或爬虫手段获取;出版年以获取图书初次上架时间或初次使用时间估计;主题通过挖掘图书书名及摘要获得,涉及关键词提取的算法较为复杂,在构建用户兴趣偏好时作挖掘处 理。3.2 用户画像建模面向纸本图书的用户画像模型围绕用户画像要素构建,其中,用

15、户属性从用户字段中获取,通过提取不同用户编号的性别、学院、入学年份等形成用户属性;用户行为和兴趣偏好构建以用户行为数据为基础,通过数据分布统计及图书画像来挖掘行为和兴趣偏 好。3.2.1 用户行为偏好的构建用户行为数据以借阅和预约行为为主,用户行为次数能不同程度反映其行为偏好强弱程度。在借阅行为方面,基于个人借阅图书总量情况分布(见图 2),将不同图书总量的用户进行用户借阅行为偏好层级划分,分为 4类:“静默用户”(图书总量为 0 本)、“潜在用户”(图书总量为 110 本)、“活跃用户”(图书总量为 1154 本)、“忠实用户”(图书总量大于54 本)。由图 3 可知,“潜在用户”群体占主要

16、部分,“忠实用户”及“静默用户”占比极少,用户层级提升尚有空 间。相对借阅行为,预约行为需到 OPAC 系统中预约并排队,阅读意向较强,且预约热门图书的概率较大,预约次数越多越能体现对热门书籍的偏爱程度,高于预约图书量常值的行为尤甚。基于个人预约图书总量情况分布(见图4),个人预约图书总量的常值分布在 3 本及以下,3 本以上则划为异常值区间。将用户预约行为偏好层级划分为 4 类:处于常值区间的用户定义为“非热门图书拥护者”(预约图书总量为 03 本);将异常值区间的用户划分为“热门图书初级拥护者”(预约图书总量为 45 本)、“热门图书中级拥护者”(预约图书总量为 610本)、“热门图书忠实拥护者”(预约图书总量大于 10 本)。由图 5 可知,“热门图书忠实拥护者”人群极少,总体预约行为热度不高,不及借阅行为,预约服务工作提升空间较大。3.2.2 用户兴趣偏好的构建用户兴趣偏好构建基于图书画像构建,结合用户行为反映重要程度,可真实反映出用户学习、消遣及其他兴趣方 向。(1)图书画像构建图书画像由作者、出版社、类别号、出版年和主题等图书要素构成,展现图书的影响力、质量、新旧程度、领域

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2