1、数据密集型科学环境下的情报效劳与开展摘 要:数据密集型科学环境的兴起与开展,使得情报效劳的内容与方式发生了变化,基于科学数据的保存、发现、分析等效劳成为了信息效劳机构的效劳增长点。文章对科学研究的第四范式、数据密集型科学环境的形成与推动因素进行了概述,重点对数据密集型科学环境下的情报效劳内容与开展途径进行了分析。关键词:数据密集型科学环境 第四范式 情报效劳 科学数据中图分类号: G250 文献标识码: A 文章编号: 1003-6938(2023)06-0105-04大数据时代的到来,使得学术活动的信息数据来源、组成、价值以及处理技术都发生了巨大变化,数据就如传统价值认识中的“黄金一样,变得
2、无比重要和价值巨大1,这些变化也影响到了学术信息的交流环境,使得科学研究向数据密集型科研转变,越来越多的科研工作是基于现有数据的重新分析、组织、认识、解析和利用,数据成为了科学研究的根底。虽然说从目前来看将数据比作“金矿有夸大之嫌,但也充分的说明了数据的重要作用与价值。同时,我们也看到,在这种数据密集型科学环境下,变化的不只是科学研究,一些效劳机构特别是信息效劳机构的效劳内容、效劳方式也在悄然发生着变化,对能为用户创造价值与创新的科学数据日益重视,基于数据的效劳也成为了它们的效劳增长点,对新型科学环境下的效劳开展学术研究也正在如火如荼的进行之中。基于此,本文从数据密集型科学环境出发,对科学研究
3、的第四范式、数据密集型科学环境的形成与推动因素进行了概述,重点对数据密集型科学环境下的情报效劳内容进行了陈述,同时也对情报效劳的开展途径如数据建设、人才建设、协作机制建设进行了分析。1 数据密集型科学研究兴起的社会环境2023 年,Jim Grey在美国国家研究理事会计算机科学和远程通讯委员会( NRC- CSTB) 的演讲报告中首次提出了以数据密集型计算为根底的科学研究“第四范式概念2,并将其作为与实验科学、理论推演、计算机仿真三种科研范式平行的科学研究3,但在对科学研究范式的开展及划分简单论述后,并未对第四研究范式的内涵、科学研究现状等进行深入论述。直到2023 年, 微软公司的TonyH
4、ey、Stewart Tansley和Kristin Tolle主编的The Fourth Paradigm:Data- intensive Scientific Discovery(第四范式数据密集型科学发现)一书,才较为详细的登载了第四范式的内涵和意义等内容,并从地球与环境、健康与幸福、科学根底设施、科学交流四个方面展示了69 位学者从不同的视角观察、理解、分析和探讨4。对数据密集型科学研究来说,科学研究第四范式强调传统的假设驱动将向基于科学数据探索的科学方法方向转变,并在这种数据的转变与方法实现中,数据依靠工具获取、分析与处理,依靠计算机存储。笔者认为,大数据时代的来临,数据的来源、类型
5、、存在形态将异常丰富,可以是实验观察数据、实验数据、仿真数据、互联网数据,也可以是产生于智能终端如智能 、社交活动如微博、虚拟社区中的信息行为数据等;类型和存在形态可以是已经可以灵活保存于数据库、机构库中的结构化数据,也可能是目前只能通过路径记录、现场拍摄才能记录的半结构化数据、非结构化数据。从数据密集型科学研究的兴起与形成来看,数量庞大、类型丰富、价值巨大的数据产生即大数据时代的到来以及一方面产生数据、一方面又能实现对数据管理与应用的现代信息技术更新、开展是数据密集型科学环境兴起与开展的根本推动因素,而信息爆炸、关联数据运动、数据开放运动等直接推动数据密集型科学环境成熟的运动也都功不可没。2
6、 数据密集型科学环境下的情报效劳2.1 科学数据效劳2023年6月,美国大学与研究图书馆协会出版了学术图书馆与科学数据效劳白皮书报告5,该报告调查了美国和加拿大的大学与研究图书馆协会的351所成员馆的科学数据效劳情况,结果显示尽管目前只有少数美国、加拿大的大学与研究图书馆协会成员馆开展科学数据效劳,但也显示许多高校图书馆准备在未来一到两年内开展科学数据效劳。这说明在当前的数据密集型环境下,开展科学数据效劳将成为情报效劳的主要组成局部。数据密集型环境下的科学数据效劳,既可以借鉴普渡大学图书馆的D2C2分布式数据保存工程6,开展诸如情报咨询、科学数据管理、科学数据查找效劳,也可以借鉴澳洲国立大学依
7、靠超级计算机设备进行的存储效劳7,提供大量范围内的数据存储、数据标注效劳。且相信随着技术的开展与用户的需求变化,在未来的情报效劳中,诸如科学数据的开发、发现、引用、标识、分析及技术支持等更大范围的数据效劳都将会实现。2.2 数据发现效劳产生于大量智能终端、社交网站、活动场所的海量、复杂的半结构化数据、非结构化数据的出现,使得传统的情报效劳中的数据处理与数据效劳变得困难,如何在数据密集型的科研环境下为用户提供数据的发现效劳,成为了数据密集型科研环境下的主要情报效劳内容之一。Web、本体、XML、RDF、标签等技术的出现,使得数据资源的共享、检索、标注与利用更加便捷,实现系统化、语义化、网络化、自
8、动化的数据发现效劳成为了可能,在以谷歌为代表的IT数据发现效劳带着下,业界掀起了基于数据发现效劳的数据发现效劳系统开发热潮,国内外研发了一批基于语义扩展搜索的数据发现系统,如ExLibris公司的Primo、EBSCO公司的EBSCO Discovery Service(EDS)、Innovative Interfaces公司的Encore等,OCLC的一站式知识资源发现与效劳系统Worldcat Local,提供了全世界近2万个图书馆的馆藏纸质资源和局部数字资源的信息共17亿条8。在数据密集型科学环境下,数据发现效劳不仅能为用户发现和关联可能存储于社会各个行业、多个领域、多个学科的数据知识,也能为用户发现数据外表、少量数据不易于发现的价值,进而为用户的市场预测、信息行为等做出态势分析、前景判断提供知识与数据支撑。此资料由网络收集而来,如有侵权请告知上传者立即删除。资料共分享,我们负责传递知识。