1、第 卷 第 期 年 月面向数字人文的开放数据生态系统:构成要素与模型框架吴金华 石静,徐健南京农业大学信息管理学院 南京 南京大学信息管理学院 南京 南京大学数据智能与交叉创新实验室 南京 摘 要:目的 意义构建面向数字人文的开放数据生态系统,可为开放科学、多学科合作、数据驱动时代的数字人文创新发展提供理论参考和实践指引。方法 过程在分析数字人文开放数据内涵与特征的基础上,基于信息生态理论对数字人文开放数据生态系统构成要素进行分析,进而建构数字人文开放数据生态系统的模型框架。结果 结论数字人文开放数据生态系统包括数据人、数据资源、数据环境 个核心构成要素,在内循环和外循环逻辑下,涉及统筹协调机
2、制、协同合作机制、质量控制机制等内容。数字人文开放数据生态系统是一个复杂的系统工程,需要从多方面聚力突破,从“数据供给”层面为人文研究范式转型提供支持。关键词:数字人文 开放数据 生态系统 项目数据库分类号:本文系国家社会科学基金重大项目“人文社科专题数据库建设规范化管理研究”(项目编号:)阶段性成果之一。作者简介:吴金华,博士研究生,-:;石静,博士研究生;徐健,师资博士后。收稿日期:修回日期:本文起止页码:本文责任编辑:易飞 问题的提出 随着信息化和数字技术的加速发展,全新的数字人文知识生产体系初见雏形,尤其是近几年来,数字人文以及相关领域已连续多次上榜各类学术热点榜单。在开放科学、开放数
3、据等大环境影响下,数字人文正在迈向以开放、共享、协同等为核心理念的新开发模式,即在强调新型知识生产范式的同时也积极对接开放科学的行动框架,支持科研领域开放数据获取及交互创新。目前来看,实践层面的数字人文开放数据已经取得了一些进展。近年来,各类数字人文开放性专题数据库如雨后春笋般增长,如中国历代人物传记资料库、上海图书馆开放数据平台、中国哲学书电子化计划等,相关平台通过整合数据资源、提高数据利用价值,为科研人员尤其是人文学者带来了极大便利,帮助他们从枯燥、繁琐、耗时的资料收集和数据采集中解脱出来,能够更加轻松、便捷、高效地获取相关研究数据进而展开数字人文研究,甚至通过跨学科合作模式开展人文知识的
4、深度发现。然而,从实践看,各类数字人文开放数据平台在数据资源建设、数据协同、数据服务、用户拓展等方面仍然存在较多不足,究其原因,与缺乏一个完善的开放数据生态系统密切相关。年度图情档十大学术热点之一 “新文科背景下的图情档与数字人文融合研究”的专家推荐词中就指出:图情档与数字人文应以深度融合为导向积极拓展创新,打造更多标志性意义的数字人文项目数据库,推动数字人文开放数据与价值共创。由此可见,以数据资源为核心、以价值共创为导向的数字人文开放数据生态系统构建具有紧迫性和必要性。数字人文开放数据生态系统构建的目的在于促进科研人员(尤其是人文学者)、数字文化产业等对于开放数据资源的利用,并最大程度地发挥
5、开放数据的价值。已有部分学者关注到面向数字人文的图书馆开放数据服务研究、基于关联开放数据的数字人文服务、面向价值共创的数字人文类开放数据竞赛行动者协作行为研究、面向平台的手稿数据整合研究等,但主要是从切分角度或领域探讨数字人文开放数据问题,对于综合性的数字人文开放数据生态系统研究未有提及。吴金华,石静,徐健 面向数字人文的开放数据生态系统:构成要素与模型框架 图书情报工作,():信息生态理论起源于生态学中的生态系统,主要研究的是人如何创造、交换、使用信息以及信息如何得到有效的利用。学者们认为信息生态是在特定环境中由人员、实践、价值和技术构成的有机系统,包括信息、信息人与信息环境等核心要素。目前
6、很多复杂系统的理论建构都借鉴于信息生态理论,并取得了较好的效果。在大数据环境下,信息生态理论的内涵发生了重要演变,从大数据中挖掘出信息和知识已经成为信息生态系统重要的生成路径,信息生态系统的建构朝着以大数据为价值核心、服务标准、资源核心、业务核心、数据核心的逻辑转变,由此也催生了不同领域的大数据生态系统建构和阐释。数字人文开放数据本身是一个复杂的系统工程,信息生态理论能够为数字人文开放数据研究提供新的研究视角,本文基于信息生态系统理论构建数字人文开放数据生态系统,以期为数字人文开放数据的创新发展提供理论参考和实践指引。数字人文开放数据的内涵与特征 数字人文开放数据的基本内涵 开放数据既是一种理
7、念,也是一种实践。开放数据是指将特定环境下、一定范围内那些用户有需求的数据,通过免费的方式供用户获取与使用,使数据得以进一步增值。面向数字人文的开放数据是一个新兴方向,是数字化、数据化环境下通过各种数据资源的开放化支持人文知识生产范式的变革。可以从两个角度阐释数字人文开放数据的内涵:从人文学科的角度看,与传统人文资料、数字化的人文资料、人文数据等相比,数字人文开放数据是在数字人文范式下的数据集成与服务逻辑,是对传统人文领域已积累数据资源或相关待开发数据的再建构、升级和利用,其目的是让数据在人文领域汇聚、流动和协同起来,释放全新的知识发现红利,更好支持大规模、跨学科、深度语义化的数字人文经典项目
8、和服务产品的打造。从开放数据的角度看,目前开放数据的类型涉及交通数据、气象数据、经济数据、文化数据、科学数据等,目前来看,政府开放数据、科学开放数据、企业开放数据等是开放数据的主要应用领域。面向数字人文的开放数据是开放数据的一个子领域,特指数字人文领域数据的开放,其大类主要属于科学开放数据的一个特殊方向。数字人文开放数据的基本特征 数字人文开放数据具有开放数据的很多共性特征与原则,如具有原始性、可访问、机器可读、可重用、可挖掘等特征。有鉴于数字人文的多学科属性、数据认知变革、信息技术支持等问题,面向数字人文的开放数据具有特殊性,主要表现在以下 个方面:数据素材层面的久远性 人文学科很多资料和数
9、据往往与社会历史变迁、文化演变、经济发展等密切相关,在这些主题下,数字人文开放数据往往涉及很多珍藏久远的图片、影像等资料数据或档案资源。即数字人文开放数据的素材往往涉及较多“陈旧性”“破损性”的图片、文本、视频等,这给相关数据的加工、转化与分析处理带来了一定的难度。开放数据内容的语义关联化 与政府、企业等开放数据不同,数字人文开放数据并非简单的数据集层面的开放共享,即单纯地保障用户能够检索和打包下载数据集,而是对数据资源进行本体设计等一系列加工工作,并通过数据结构化和关联化,从深度语义化视角实现数据间的知识发现,促使相关开放数据集能够在多个领域实现潜在的价值挖掘,这也成为面向数字人文的开放数据
10、打造的核心要义。数据汇聚层面的可众包 由于数字人文相关研究与实践主要与公共文化领域相关,因此,数字人文开放数据的很多数据资源往往可以通过众包等形式来推动,这实际上就是将身处于文化变迁的民间普通公众的素材收藏、内部资料充分挖掘出来和利用起来。也就是说,数字人文开放数据具有更加典型的众筹性。生命周期层面的长期性 数字人文开放数据资源在内容上很多涉及历史、文学等相关学科内容,这些人文类数据的生命周期相对较长,史料价值相对较高,后世的使用率和开放空间也相应较高。因此,与其他类型开放数据相比,数字人文开放数据在生命周期上具有了缓慢性、长期开发性等特点,数据价值开发总体上呈现一个不断提升的螺旋递增过程,这
11、也从侧面对其内容质量提出了更高要求。需要更多附带功能的投入和开发 数字人文开放数据面对的用户很多是文科学者,因此在开放数据打造的过程中,需要从文科学者信息技术基础相对薄弱的逻辑出发,尝试建构更多的自动化、智能化等附带功能服务,注重文科学理探索逻辑以及面向人文的开放数据服务范式打造。在新文科背景第 卷 第 期 年 月下,数字人文开放数据也与其理念相契合。数字人文开放数据生态系统的构成要素 如前所述,数字人文开放数据具有较强的特殊性,从实践来看,目前已有零散的数字人文开放数据平台、协作联盟、合作计划等,但并未上升到整体性推进层面。为了更好地保障人文领域、人文学者等的数据需求和研究需要,相关生态系统
12、的建构就显得尤为必要。由于该生态系统是面向知识空间,因此,本文借鉴信息生态理论来阐述数字人文开放数据生态系统。数字人文开放数据生态系统本质上是一个开放数据主体、开放数据资源、开放数据环境等有机统一的整体,它是面向数字人文范式创新的一个重要开放科学和开放数据行动,对于支持数字人文研究与应用具有重要意义。本节对数字人文开放数据生态系统数据人、数据资源、数据环境 个核心要素进行分析,其总体要素内容框架如图 所示:图 数字人文开放数据生态系统构成要素 构成要素一:数据人 数据人并非实际作为个体的个人,而是与数字人文开放数据相关的数据主体,包括数字人文开放数据的提供者、数字人文开放数据的传递者、数字人文
13、开放数据的使用者等。数字人文开放数据的提供者 数字人文开放数据的提供者是指提供数字人文开放数据的组织或个人,主要涉及高校、科研院所、图档博机构()、企业等建库主体,以及那些拥有相关科研数据或收藏相关特色资源且愿意分享的数字人文研究团队、学者、普通大众等。不同类型的数据提供者既可以独立存在,也可以通过合作、协作的方式存在。具体来说,不同类型、不同领域的建库主体通过建构面向数字人文的开放数据平台,可以更好地为我国数字人文发展提供支持。此外,数字人文开放数据资源还可以来源于科研人员的“数据结晶”或民间大众的自我收藏(需要数字化转换),出于科学交流、数据重现研究、公共文化参与等需要,相关个体将自身拥有
14、或积累的数据资源提供给相关建库主体,可以有效支持建库主体在开放数据资源上的拓展,提高数字人文开放数据资源的广泛性。数字人文开放数据的传递者 数字人文开放数据的传递者是连接开放数据提供者和开放数据使用者的桥梁。从广义角度看,数字人文开放数据的传递者既包括传递数字人文开放数据的组织主体,主要以平台、专门网站等作为载体呈现方式,还包括那些投身数字人文领域并主动传播、宣传各类开放数据资源的个体。从组织的角度看,数字人文开放数据平台将数据提供者的数据资源进行汇总、聚合、加工进而存储起来,同时开发出相应的开放数据资源检索、浏览、查阅、比照、下载、纠错反馈、互动交流等功能,进而成为数字人文开放数据的数据枢纽
15、和传输中心。另外,人文学者、领域专家等个体也可以通过宣传、转发、推介、讲座等方式成为数字人文开放数据的传递者,这种“人人都是传播者”的数字人文开放数据文化能够很好地促进人们认知、获悉和了解数字人文开放数据,进而促使其得以充分利用。数字人文开放数据的使用者 数字人文开放数据的使用者,也可称为数字人文开放数据的利用者、消费者,是指对数字人文开放数据吴金华,石静,徐健 面向数字人文的开放数据生态系统:构成要素与模型框架 图书情报工作,():具有需求并有一定数据能力获取数字人文开放数据的组织或个人,涉及政府文化管理机构、高校师生、企事业单位、普通公众等各类数据用户。对于数字人文开放数据使用者而言,科研
16、人员尤其是人文学者是数字人文开放数据的主要用户或潜在用户,其总体使用占比很大,此类用户使用开放数据的目的主要是为了支持数字人文研究或进行相关产品打造。另外值得一提的是普通公众,他们使用数字人文开放数据主要目的往往是了解和学习相关文科知识,如上海图书馆的家谱知识服务平台可以帮助公众寻根问祖,而各种古籍平台能够支持公众更方便地学习、查阅古籍资料等。数字人文开放数据的使用者通过 接口、直接下载等方式获取开放数据,针对研究问题或个人需求对数据资源进行认知、分析、挖掘、可视化呈现等,专业人士还可结合具体领域知识对开放数据进行细节化解析或关联解析,以充分发挥数字人文开放数据的价值。数字人文开放数据系统中的数据人示例 基于上述数据人的具体阐释,表 列出了数字人文开放数据生态系统中数据人要素的部分示例。表 数字人文开放数据生态系统的数据人要素示例数据提供者数据传递者数据使用者高校(浙江大学)智慧古籍平台需要包含经史子集、诗曲词小说、历代著者资料及其关系图谱等古籍资源的历史学、文学等学者、普通公众等高校(南京大学)中国商业广告数据库需要近代中国商业广告数据辅助研究的历史学、档案学、艺术学等学者、普通公众