1、 理 论 探 讨52档案管理2/2023总第261期1 研究现状本文以“档案、知识库”为关键词组合,利用中国知网和万方中文数据库进行检索,共有351篇国内研究文献,呈现逐年稳中上升趋势。从成果看,研究主要集中在档案知识库的构建模型、构建原则、构建方法、可视化设计等理论层面。徐拥军1通过分析文件管理(RM)系统、档案管理(AM)系统、知识管理(KM)系统与OA系统的关系,提出了档案知识管理系统构建的原则和策略;牛力2等提出了数字记忆视角下学术名人知识库建设的基本模式,对学术名人知识库的融合、建构与服务具体内涵进行阐释;张斌3等构建了基于档案知识库的档案知识服务模型,强调了档案知识检索和呈现能力。
2、此外,还有一些学者基于本体开展了知识库构建理论研究。陆铭4基于本体构建了档案馆藏资源语义知识库模型;孙振嘉5等参照 CIDOC-CRM概念模型,以五四运动为例构建了资源对象的本体模型。实践层面,青岛市档案馆历史档案知识库支持多种搜索模式和基于时间域进行知识浏览,中国历代人物传记资料库(CBDB)提供可视化查询、人名检索、地名查询、职官查询、亲属/人际关系查询、社会区分查询、两人社交网络查询 等多种检索,这些研究实践为档案知识库的构建提供了借鉴。但就实践层面,在数字人文指导下的档案知识库研究和建设实证依然偏少,特别是相关档案知识库标准规范缺位,现有案例不同程度存在数据结构不统一、原始档案资源挖掘
3、层次浅,知识展现用户体验差等问题,难以满足档案知识服务深度利用需求,亟待在后续研究解决。2 历史档案专题知识库的相关概念2.1 档案数据库与档案知识库。近年来,随着数字档案馆建设的全面推进,各省市级档案馆都建立起了覆盖馆藏的档案数据库,部分档案馆正在建立各种类型专题档案资源库,方便了档案规范化管理和检索利用。钱毅6认为档案数据库在不同阶段的发展中会出现许多称谓,如机读目录数据库、索引数据库,照片档案数据库、全文数据库、多媒体档案数据库等。知识库是由数据库概念发展变化而来,是一种以数据库为基础技术面向某一领域知识进行抽取和序化,通过一些技术手段对析出知识加以组织,与大量推理规则共同以特定存储方式
4、贮存,为用户提供可视化的策略性知识服务系统。孔繁胜7认为知识库是合理组织陈述型知识和过程型知识的集合,不但包含了大量的简单事实,还包含了规则和推理。张斌认为档案知识库是一个档案知识系统,档案部门对原始的数字档案进行加工处理,从数字档案全文中提取出具有知识价值的内容,按照适当的知识表示和知识组织方法将其存储进知识库中。可以看出,与专题档案资源库、档案数据库不同,档案知识库不仅包含大量的数字档案资源,还包含资源之外的知识挖掘及推理规则,利用者可以通过档案知识库系统的人机交互界面,精准又迅速地找到自己感兴趣的档案知识。2.2 历史档案专题知识库的内涵。综上概念,本文所提历史档案专题知识库是指以特定历
5、史档案资源为管理对象,在历史档案数据库的基础上,借鉴本体理论,完善元数据分类,构建语义规则,借助人工智能、数字人文等先进技术,按照一定知识体系进行整序和分析而组织起来的数据库系统。因此,历史档案专题知识库应集历史档案资源管理、后台知识管理、前台知识展示功能为一体,具有专题性、知识性、交互性、共享性、可扩展性等特点。实践中,应充分利用已有档案数据库资源基础,即把专题历史档案的数据化、有序化、叙事化和可视化工作作为研究重点;应自下而上,在构建历史档案资源元数据、分类标准、语义规则等工作基础上构建知识库;应先易后难,即以已有一定研究基础的专题历史档案作为切入点形成方法积累经验为其它专题提供参面向深度
6、利用的历史档案专题知识库构建研究以中福公司档案为例*李宝玲,李 珂,郭立鑫摘 要:本文在数字人文视角下,对历史档案专题知识库相关概念及理论进行解析,以中福公司历史档案数据库为基础,通过引入本体思想,完善元数据分类及关联规则,提出历史档案专题知识库的构建原则、方法、功能和展示方式,为面向深度利用的历史档案知识服务做出了有益探索。关键词:历史档案;档案专题;知识库;本体;数字人文;元数据;中福公司Abstract:From the perspective of digital humanities,this paper analyzes the relevant concepts and theo
7、ries of the historical archives thematic knowledge base,and based on the historical archives database of Zhongfu Company,puts forward the construction principles,methods,functions and display methods of the historical archives thematic knowledge base by introducing ontology,improving metadata classi
8、fication and association rules,and making a beneficial exploration for the in-depth utilization of the historical archives knowledge service.Keywords:Historical archives;Archival topics;Knowledge base;Noumenon;Digital humanities;Metadata;Zhongfu companyDOI:10.15950/ki.1005-9458.2023.02.009档案管理投稿信箱:
9、理 论 探 讨53档案管理2/2023总第261期考。3 中福历史档案专题知识库的构建依据3.1 理论支撑。首先是数字人文理论。数字人文起源于文学与语言学领域,是新型的跨学科研究领域,数字技术的进步及其在科学领域的普及应用促使它的产生与发展。8数字人文富有层次化的理论框架与技术体系不断发展,自然语言检索、知识图谱、VR/AR、可视化、AI等新兴技术应用,为历史档案资源深度开发利用带来了无限契机,推动了历史档案资源从“数字化”向“数据化”“知识化”方向转型发展。其次是本体理论。本体是对某一领域内概念类及其类之间关系的形式化表示。9本体一词原是哲学领域的一个名词,但当前已经广泛应用于知识工程、系统
10、建模、信息处理、数字图书馆、自然语言理解、语义web等领域。本体通过定义类、属性等要素赋予数据语义关系,对相应知识集合实现细粒度的描述与归纳。10借助本体方法构建知识库系统可弥补档案数据库建设中重实体管理、轻知识服务的缺陷,有效地提高知识的可获取性、可互操作性、可共享性、可重用性和可维护性等,可以更好地进行历史档案资源的知识组织及相关研究。最后是知识服务理论。知识服务就是从各种显性和隐性信息资源中,根据对象的需求将知识提炼的过程,是依托资源建设为基础的高级阶段信息服务。11知识服务是基于知识管理的一种新的服务形态,知识管理是信息管理发展的新阶段,是知识发现、知识组织、知识利用的过程,它同信息管
11、理不同,要求把信息与知识、信息与活动、信息与人连接起来,知识服务提供者针对不同类型用户多样化知识需求,围绕自身所拥有的显性知识与隐性知识,提供快速知识服务。3.2 技术支撑。一是复用本体模型,CIDOC-CRM是一套应用于文化遗产的信息集成概念参考模型,支持图书馆、博物馆、档案馆等不同领域不同类型的专业研究,已有 81个类、160 个属性。DC是成熟的描述数字文献的通用元数据标准框架,包含了DCMI术语和应用纲要,包含了15个核心元素集。FOAF是一种遵循W3C体系标准的资源描述框架(RDF)词表,用于描述人、人群、人的活动的特定属性及人与人、人与物间的社会网络关系。这3种成熟本体各有特点互为
12、补充,档案专题知识库的构建在档案资源库的基础上,吸收成熟本体的部分元素,以此弥补原档案资源数据库的不足。二是自然语言处理技术。自然语言处理是档案知识库的核心应用技术,通过自然语言接口,用户在查询知识库内容时可以利用自然语言式的文本精确定义自己的知识需求;通过文档自动处理,使用NLP工具对词、短语和句子进行分析可以得出词、短语和句子之间的逻辑关系;通过知识自动获取,可以对档案资源库进行库数据挖掘进行知识抽取。尤其是自然语言处理的知识图谱构建应用,能根据不同逻辑实现知识的相互关联和图谱化输出。三是信息可视化技术。基于H5的虚拟现实、现实增强、地理信息系统等信息可视化技术在知识服务中逐渐兴起,使得知
13、识库更具有人文关怀,它提供多重感官体验,支持交互式操作,增加服务对象的自由度。中福公司历史档案知识库除在线知识检索外,搭建虚拟展厅,用叙事方式和可视化技术,展示多个历史主题,令公众有穿越历史的真实体验。3.3 资源支撑。历史档案专题知识库选择中福公司历史档案全宗为研究对象,具有四个特点:一是中福公司历史档案较其他全宗历史档案,内容更丰富、保存更完整,它形成于1897到1956年间的档案有4485卷,具有时间跨度大、形成主体多元、门类齐全、载体多样、领域宽泛,史料价值高的特点;二是中福公司历史档案依据民国历史档案著录规则结合中福公司档案特点,制定了中福公司档案著录细则,进行了数字化的整理和开发,
14、形成了标准化目录数据库和全文数据库,析出了中福公司档案的主题和关键要素,为知识库构建打下良好的数据基础;三是中福公司历史档案在社会上成为研究热点,产生了一系列中福公司档案研究成果、文史资料、翻译作品、科研论文等知识产品,丰富了知识库的来源;四是中福公司档案内容丰富,涵盖了政治、经济、文化、工业、教育等方方面面,是河南近代工业发展的缩影,便于与馆藏其他档案进行知识关联。4 中福历史档案专题知识库的元数据体系4.1 元数据项的设计需求。梁继红12对走向文本的历史档案数字整理研究提出,历史档案数字整理包括了文本阅读的基底层,元数据搭建的桥梁层,文本内数据化的加工层,以及数据分析和可视化的知识发现层。
15、可见,元数据是历史档案知识库构建的重要基础,元数据提供了知识的提取、聚类、关联,使得历史档案实体能够在数字空间中呈现多重脉络。前期中福公司历史档案实现了目录和内容层面的数字化,虽然按照中福公司档案著录细则进行了档案形式和内容元数据项著录,但是元数据是以资源管理为导向,是独立的、分散的,缺少语义关联,难以实现知识管理,不能完全满足专题知识库知识服务的需求。因此,需要在原有元数据基础上进行优化,构建能够体现语义特征的元数据方案。4.2 元数据体系的设计原则。遵循三个原则:一是复用与自定义相结合原则。历史档案既有一般历史文化遗产档案的共性特点,也具有自身特殊性。因此,参考CIDOC-CRM、DC、F
16、OAF模型对中福公司档案的核心元数据进行标准化描述和定义,选取通用核心指标直接复用,而其它特殊和次生指标通过专家协作进行增补和解释。二是有利于知识挖掘和关联原则。知识库建设大致分为自顶向下的基于本体和自底向上的基于人工智能两种表示方法,而历史档案知识库建设以挖掘隐性知识和深度利用为直接目的,应发挥两类方法各自优势,即在本体思想指导下进行元数据体系设计,并在此基础上通过人工智能技术支撑,进行实例抽取和知识关联,达到知识的深度挖掘。比如,针对中福公司历史档案特点,细化主题类目,规范定义每一个类目属性并辅助以同义词、近义词词表;在每一件文献著录主题词的基础上,增加所属一级主题类目、二级主题类目。三是突出历史档案专题特色原则。不同专题历史档案反映了不同历史阶段和专业领域,具有不同的档案类型和内容。在元数据体系设计上要考虑专题档案资源特点,体现出研究对象的特色。比如在对“事件”的界定上,既包括发生在这一历史时期的历史事件,也 理 论 探 讨54档案管理2/2023总第261期包括中福公司机构变化、人事任免、重要会议、煤矿、安全事故等公司大事。4.3 基于本体的元数据体系构建。历史档案专题知识库以