1、62档案与建设ARCHIVES&CONSTRUCTION2023 年 第 1 期汇交政策视角下科学数据与科研档案协同管理困境与反思孔祥盛(中国科学院档案馆,北京,100190)摘 要:科学数据是科研档案的重要组成部分,通过梳理和分析19个国家科学数据中心的25条汇交政策,总结出科学数据与科研档案协同管理存在内容来源复杂、管理目的差异、管理粒度不统一、学科领域差异、归档范围交叉、汇交流程重而不同、数据格式复杂等问题,并提出思考和建议。关键词:科学数据;科研档案;汇交政策;协同管理2018年,国务院办公厅印发了 科学数据管理办法1(以下简称P1),明确提出“政府预算资金资助的各级科技计划(专项、基
2、金等)项目所形成的科学数据,应由项目牵头单位汇交到相关科学数据中心”。2019年12月,科技部印发 科技计划项目科学数据汇交工作方案(试行)(以下简称P2),科学数据汇交工作开始走向规范化和常态化。本文聚焦科学数据管理中的汇交环节,选取典型的汇交政策进行分析,一方面总结目前科学数据汇交现状以及不同科学数据中心的汇交政策异同,另一方面对比科研档案管理要求,梳理协同管理的困境,并提出总结思考。一、科学数据汇交政策分析1.科学数据汇交政策梳理2019年,科技部、财政部发布了国家科技资源共享服务平台优化调整名单的通知,其中包括首批20家国家科学数据中心,承担相关领域科学数据的整合汇交工作。调研发现,目
3、前20家国家科学数据中心均提供了数据汇交服务,其中除国家极地科学数据中心官网暂无法访问外,13家提供了成文的政策文本,6家仅有网页介绍汇交政策内容(表格中用*标记)。因此,本研究选取了19家国家科学数据中心的25份数据汇交相关政策(见表1),使用文本分析法开展研究。2.科学数据汇交政策内容分析(1)汇交来源根据P1要求,所有的科学数据中心均按照规定接收科技计划(含专项、基金等)项目来源的科学数据。除此之外,有4家科学数据中心(C4,C5,C6,C8)将观测设施或装置(含网络)来源的科学数据纳入汇交范畴,7家科学数据中心(C4,C5,C7,C8,C13,C14,C18)将论文来源的科学数据纳入汇
4、交范畴,5家科学数据中心(C5,C8,C9,C14,C19)支持其他来源(如个人、机构、团队等)科学数据汇交。(2)汇交内容根据P2要求,科学数据汇交主要内容包括科学数据实体、科学数据描述信息和科学数据辅助工具软件三部分。各科学数据中心对数据实体的界定不一致,差异主要体现在对项目管理性文件和成果性文件的判定。几乎所有的科学数据中心都要求提交项目任务书、数据管理计划等管理性文件。大部分科学数据中心(C3,C6,C11,C12,C15,C18,C19)要求将项目相关论文、标准、专利等进行汇交。仅个别科学数据中心(C2,C14)明确在政策中指出汇交范围不包括论文、专利、软件著作权、未来研究计划等信息
5、。(3)汇交流程P2提出了科学数据汇交的7个环节,基本覆盖了科学数据管理的全流程。所有科学数据中心都遵循这一操作流程,但在各自政策中有细微差异。一是科学数据汇交计划制定环节。C4将“制定科学数据汇交计划”拆分为“制定数据管理计划”和“制定数据汇交方案”,在项目不同阶段实施。部分科学数据中心(C1,C13,C18,C19)允许在项目使用自定义的元数据模板/字典。二是科学数据制备环节。大多数632023 年 第 1 期业务研讨通过HTTP、FTP、Aspera命令行等多种方式在线批量提交。在面对大体量(通常为TB级别)科学数据一次性汇交时,所有的科学数据中心都建议采用线下邮寄存储介质(如硬盘、U盘
6、、光盘等)的方式协助完成汇交。C18在面对单个项目科学数据总量超出处理能力时,采取了部分逻辑汇交方式,将部分数据实体暂存项目单位。2四是科学数据审核环节。一般分为形式审核和内容审核两部分。形式审核一般由系统审核与人工审核相结合,通常要求数据实体汇交数量大于等于汇交计划中的数量。比如C6会对汇交数据进行完整性与规范性、一致性和数据质量审核,并对不符合规定的数据要求整改或拒绝其接收;C13会在填报完成后自动检测元数据的完整性和规范性;C15提供实体数据检查工具,便于统计数据条目数量。3内容审核目前主要分为三种模式:专家/同行评审(C1,C4,C7)、用户评价(C4,C6,C7,C8,C10,C13
7、)和科学数据中心审核(C2,C3,c5)。虽然P2要求组织开展科学数据质量同行评议等方式进行评估,但部分科学数据中心(C2,C13)的汇交流程并未将此作为汇交通过的必要条件。五是科学数据汇总环节。在分类方式上,科学数据中心会采取多种维度的分类方式进行汇总,便于用户发现和利用。在编目方式上,C2,C3采用“项目样本/标本数据”三级分类方式进行著录关联,不同来源的数据按类型分别汇交到各库中。而其他大多数科学数据中心通常以数据集为单位进行编目。在标识方面,除了C2,C3采用自编号外,其他所有科学数据中心均提供通用唯一标识符,如CSTR、DOI、PID、Handle。其中C5,C18还采用了本学科领域
8、的专用标识编号。六是科学数据的发布与共享环节。科学数据在汇交时需要明确数据开放发布时间、共享方式、引用方式等信息。通常建议科学数据保护期不超过一年,大部分科学数据中心都提供了相关领域的标准规范参考、格式要求以及相关培训资料和视频等,为科学数据的制备工作提供了较为充分的指导。例如C4提供了CDF、FITS、VOTable、HDF5、SAO等数据格式标准要求。三是科学数据提交环节。流程上,少部分科学数据中心(C1,C10,C14,C15)在政策中明确了科学数据质量自查流程,大多数科学数据中心一般采取项目负责人线上审核或线下签字盖章等形式确保数据质量。提交方式上,大部分科学数据中心都提供了线上提交方
9、式,用户可以在线完成科学数据汇交工作,一般可表1 19家国家科学数据中心的数据汇交相关政策清单编号政策来源政策文件名称C1国家高能物理科学数据中心高能物理科学数据汇交管理办法高能物理科学数据汇交操作流程C2国家基因组科学数据中心国家基因组科学数据中心数据汇交指南C3国家微生物科学数据中心国家微生物科学数据中心国家重点研发计划数据汇交介绍C4国家空间科学数据中心空间科学数据汇交指南c5国家天文科学数据中心天文科学数据汇交规范*C6国家对地观测科学数据中心国家对地观测科学数据中心数据汇交协议C7国家青藏高原科学数据中心国家青藏高原科学数据中心汇交政策*C8生态科学数据中心国家生态系统观测研究网络数
10、据管理与共享条例C9国家材料腐蚀与防护科学数据中心国家材料腐蚀与防护科学数据中心数据汇交页面*C10国家冰川冻土沙漠科学数据中心国家冰川冻土沙漠科学数据中心重点研发计划项目科学数据汇交工作指南C11国家计量科学数据中心国家计量科学数据中心项目数据汇交管理办法国家计量科学数据中心计量科研数据汇交标准规范C12国家地球系统科学数据中心国家地球系统科学数据中心汇交政策页面*C13国家人口健康科学数据中心国家人口健康科学数据中心管理流程国家人口健康科学数据中心汇交方式操作说明C14国家基础学科公共科学数据中心国家基础学科公共科学数据中心数据汇交页面*C15国家农业科学数据中心国家农业科学数据中心科技计
11、划项目科学数据汇交审核工作方案农业科学数据汇交管理办法C16国家林业和草原科学数据中心国家林业和草原科学数据中心数据提交页面*C17国家气象科学数据中心气象探测资料汇交规范气象探测资料汇交管理办法气象探测资料汇交服务指南C18国家地震科学数据中心科技项目科学数据文件整理规范与汇交方式C19国家海洋科学数据中心涉海类科技计划项目科学数据汇交流程与规则说明64档案与建设ARCHIVES&CONSTRUCTION2023 年 第 1 期科学数据中心都提供了超过一年的数据保护期限选择。比如FAST项目的数据一般情况拥有12个月数据保护期,到期后根据数据类型将分批公开。共享方式方面,根据共享范围分为暂不
12、共享、完全开放共享、协议共享等;根据是否收费分为公益、无偿共享和收费、有偿共享等。七是科学数据的使用与维护更新。由于科学数据可能需要持续更新和完善,P1也规定“项目/课题验收后产生的科学数据也应进行汇交”,因此科学数据中心都支持数据更新或追加。出于某些特殊原因(如侵权、剽窃、作假等),汇交负责人或科学数据中心有权提出撤回数据。二、汇交政策视角下科学数据与科研档案协同管理困境1.宏观层面(1)科学数据汇交来源复杂和流向混乱P1针对汇交提及了三种不同来源的科学数据:政府预算资金资助的各级科技计划(专项、基金等)项目所形成的科学数据、学术论文数据和社会资金资助形成的科学数据。这三类来源在逻辑分类上既
13、不全面,也存在交叉,比如学术论文数据通常属于科技项目数据的一部分;再比如对于多资金来源的项目,较难区分数据来源。从各科学数据中心的政策来看,不同科学数据中心对于“汇交”的认知存在差异,存在项目、样本、装置设施、野外台站、论文、机构/团队、个人等不同来源的数据。此外,现有的20家国家科学数据中心一方面存在领域交叉,另一方面也不能完全覆盖所有学科领域,导致无法在政策层面完全明确汇交数据归属流向。实际汇交过程中,数据流向可能受项目领域、项目来源、用户意愿等多个因素影响,造成混乱局面。对于档案部门而言,长期以来都以项目(任务)为单元开展科研档案管理工作,档案来源明确,已经形成了一套较为成熟固定的管理模
14、式。科学数据与科研档案协同管理首先需要理清科学数据的来源问题,即哪些来源的科学数据可以纳入科研档案管理、不同来源的科学数据如何融入现有的档案管理体系。(2)科学数据与科研档案管理主要目的差异虽然科学数据与科研档案都具有支撑和服务科研创新的作用,但是从更主要的目的来看,科研档案管理强调凭证价值,倾向于保存;而科学数据汇交强调情报价值,更倾向于共享利用。科研档案作为我国特有的一种门类档案,一直承担收集、整理、保管科技文件资料并提供利用服务的职能。长期以来,受知识产权保护、安全保密等因素影响,档案管理“重藏轻用”的倾向明显,在开发利用方面较为保守。目前,FAIR原则早已成为科学数据管理的共识,可发现
15、(Findable)、可访问(Accessible)、可互操作(Interoperable)和可重用(Reusable)四点要求也是基于共享利用这一需求提出的。相较于科研档案相对严格的利用管理要求,科学数据在汇交时就要求数据提交者明确开放发布时间、共享方式等,故而在提供利用时一般无需再次征求形成者意见,显得更加灵活和开放。作为科研档案一部分的科学数据,是否需要严格遵循科研档案的相对严格的利用范围限制,仍需进一步讨论。2.中观层面(1)科学数据与科研档案的管理粒度不统一不同学科领域科学数据产生方式和管理要求存在差异,导致其在管理粒度上差异较大。目前科学数据通常以“数据集”为最小单位进行管理,但是
16、数据集的概念并不明确,实际操作中一个数据集既可以是单个电子文件,也可以是某个时空序列或某个主题下多个电子文件的集合;数据集除了包含数据实体外,还可能包含数据对应的说明文档和缩略图等其他文件;数据集既可以是一个纯文本格式文件(如基因组数据),也可以是多条数据组成一个结构化数据文件(如标本名录数据),还可以是多维数组和二维表数据组成的一个多维数据集文件(如天文文件、大气文件等)即使在形式上科学数据完全属于电子文件范畴,但在实际工作中也并不能完全套用档案领域以“件”或“卷件”为单位的管理方式。(2)科学数据与科研档案的领域差异科研档案强调通用性,没有明显的领域差别。而科学数据强调学科领域差异,因此在描述时除了通用的核心元数据外,还会扩展本领域元数据,比如地理位置信息、数据产品分级信息、实验样本信息等。相较于档案领域较为单一、通用的著录项,这部分元数据信息能够直接揭示科学数据内容,更易于满足利用者需求。一些领域(如天文、空间、环境等)科学数据的产生具有连续性和可持续性,汇交可能只是一个阶段性工作。在后续汇交中可能还会对数据集的内容进行修改和更新,这也意味着元数据需要同步修改更新,一定程度上有悖