1、2023年第6期域外采风摘要:电子邮件作为政府履行职能、个人信息管理、社交媒体服务的重要载体,确保其完整、安全、可用,逐渐成为档案机构的重要职责。本文论述了国外电子邮件档案管理系统的功能需求与开发逻辑,从管理阶段、数据格式、保存措施、操作流程等方面进行了对比分析,并从尽早介入电子邮件生命周期、重点关注档案管理核心业务、科学厘清系统功能弱项等方面探讨了启示与思考。关键词:电子邮件档案管理系统;Archivematica;DArcMail;EAS;ePADDAbstract:Email is an important carrier for performing government functi
2、ons,personal information management and social media services.To ensure the integrity,security and availability of email has graduallybecome an important responsibility of archives.Thispaper discusses the functional requirements and development logic of email archives management system in foregin co
3、untries,and makes a comparativeanalysis from the aspects of management stage,dataformat,preservation measures and operation process.Then it discusses the enlightenment from theaspects of early intervention in the email life cycle,focusing on the core business of archives management,and scientificall
4、y clarifying the weak points of systemfunctions.Keywords:Email archives management system;Archivematica;DArcMail;EAS;ePADD电子邮件是指由电子计算机生成、处理,并通过电子邮件系统经由通信网络发送和接收的电子信息,1其最初作为一种联网计算机用户之间交换结构化文本信息的工具,已逐渐演变成为政府履行职能、个人信息管理、社交媒体服务的重要载体,在电子政务、历史文化遗产研究等领域具有独特的凭证和参考价值。与其他类型的数字格式信息记录相比,电子邮件档案管理在来源信息获取、内容信息关联、存
5、储方式选择、隐私安全保护等方面面临诸多挑战。为此,各国有关机构根据电子邮件的组成结构、技术特点和用户需求,开发了涵盖电子邮件收集、鉴定、整理、保存和利用功能的管理系统,确保归档电子邮件能够被保存、访问、理解和发挥凭证作用,比较有代表性的有 Archivematica2、DArcMail3、EAS4、ePADD5等。一、国外电子邮件档案管理系统的功能需求在移动互联网时代,电子邮件从交互信息的即时手段,转变为承载事件的记录者和参与者,凭证参考价值日益凸显。然而,其技术复杂性使得电子邮件档案管理系统不仅面临海量数据获取、筛选和存储压力,还必须应对不断演变的电子邮件服务和用户需求带来的影响。(一)精准
6、获取邮件来源信息获取邮件来源、确定邮件的形成者,是电子邮件档案管理的基础。然而,自定义的邮件地址设置使得档案机构仅凭邮箱账号无法直接获取邮件来源信息。一方面,电子邮件系统允许用户使用邮箱账号的别名、缩略名、分组名等作为收发地址,这些并不能代表真正的邮件来源。另一方面,电子邮件系统允许不同人使用同一个邮箱账号收发邮件。例如,一些机构将客服邮箱设置为,就可以在不公开个人邮箱的情况下将邮件发送给相应客服人员,单从该邮箱无法确认真正的收(发)件人。因此,电子邮件档案管理系统在设计之初就必须与邮件运营商合作,根据该运营商采用的邮件数据模型匹配地址信息采集工具,从邮件服务器端抽取地址元数据字段,从而得到确
7、切的邮件来源信息。(二)确保归档邮件真实可靠确保电子邮件形成过程真实、内容可信,是邮件得以作为社会真实记忆长久保存的前提。然而,分布式、自组织的邮件系统结构导致档案机构很难独立验证归档邮件的真实性。一方面,“存储转发”的邮件传输方式使得邮件在传输过程中不断被编码封装、解码读取、分解发送,最终以用户端的特定格式组合呈现。此外,当同一封邮件的多个版本出现不一致时,例如发件人撰写的版本、收件人下载到本地的版本等,仅凭档案机构很难判断哪一个是真实的。另一方面,电子邮件系统的传输通信协议、数据标准、元数据均允许进行本地扩展和定制,这增加了伪造、窃取、篡改数据等漏洞风国外电子邮件档案管理系统研究及启示*陈
8、栩杉(栏目编辑:胡 菡)432023年第6期域外采风险,仅凭面向传输安全的认证信息无法验证邮件形成过程和内容的真实性。因此,电子邮件档案管理系统应提供第三方访问和操作功能,允许档案机构、邮件账户所有者、邮件运营方等多方加入归档邮件真实性的鉴定过程。(三)保证邮件账户完整可用保证电子邮件齐全完整、可再现还原,是如实反映和理解邮件承载事务活动的依据。然而,用户主导的邮件管理方式造成档案机构难以还原邮件账户原始状态。一方面,档案机构通常只能在邮件账户不再使用或使用活跃期之后才能获取到邮件数据。用户由于缺乏档案意识及专业知识技能,可能随意删除或导出邮件,导致数据流失、附件损坏、外部链接失效等问题。另一
9、方面,用于呈现个性化邮件管理状态的元数据通常存储在本地客户端,当邮件导出并更换存储环境后,元数据的丢失可能造成无法还原邮件间的逻辑关联。因此,电子邮件档案管理系统支持的数据类型应与电子邮件系统保持兼容,能维护邮件结构、内容之间的有机联系,便于各类型数据可被读取、检索和理解。(四)具备异构数据存储管理能力多样化的邮件组成给档案机构带来了繁重的数据存储管理压力。首先,不同电子邮件系统采用的附件处理方式不一。有的将附件以MIME格式嵌入在邮件中;有的将附件单独存放,邮件中只出现附件的指针信息。其次,外部链接资源的数据类型丰富。邮件中的超链接可以使用户访问到特定的外部资源,如文本、图片、音频、视频、网
10、页等。最后,签名信息动态变化。邮件的签名信息包含了发件人丰富的社会背景信息,如所属机构、联系方式、社交媒体账户等,但同一个用户在不同时期的签名信息可能变化、不同邮件账户的签名信息可能相同等,需要进行消歧和融合处理。因此,电子邮件档案管理系统应设计合理的保存策略,具备存储不同格式附件和外部资源的能力,为邮件数据的完整性和可用性做好基本保障。二、国外电子邮件档案管理系统的开发逻辑(一)功能构成满足不同阶段管理需求电子邮件生命周期主要包括形成与使用、鉴定与选择、收集、处置、保存、发现与利用等基本阶段,6其中前两个阶段由电子邮件系统完成,其余阶段均可依托电子邮件档案管理系统完成。在收集阶段,对具有保存
11、价值的邮件进行格式转换、敏感性审查、病毒检测、完整性检查等前处理。在处置阶段,对邮件进行鉴定整理,构建邮件之间、账户之间、内容之间的逻辑关系。在保存阶段,对邮件正文、附件、元数据等进行存储,生成归档信息包。在发现与利用阶段,根据需求查询检索,生成发布信息包提供利用。(二)互操作性支持业务流程灵活定制电子邮件档案管理系统在数据模型、格式、交互接口等方面应基本保持一致,能够实现灵活组合和交互。数据模型方面,系统采用互联网协会的RFC标准对邮件组成结构进行建模,采用METS、PREMIS等对邮件元数据进行建模和定义。数据格式方面,系统大多以MBOX格式作为输入输出格式,以SIP和DIP信息包作为系统
12、内业务流程的交换格式。交互接口方面,利用API接口实现不同系统之间的集成,档案管理人员只需直接调用指定API即可实现所需功能。(三)存储方式体现不同类型保存策略电子邮件档案管理系统采取的保存策略主要分为三种类型。一是复制保存策略,即在系统暂时无法满足全数据类型保存需求的情况下,保存邮件的原始版本,避免其出现损坏、丢失、更改等,待条件成熟后再进行后续处理;二是标准化保存策略,即将原始邮件格式转换为更加稳定的主流标准格式进行存储,便于与其他系统共享利用;三是仿真保存策略,即创建一个完全相同的模拟环境,重现原始邮件应用程序、还原邮件内容和结构关系,解决依赖专有软硬件的数据可用问题。三、国外电子邮件档
13、案管理系统的主要特点为了更好地理解国外电子邮件档案管理系统的设计思路、实现功能、工作方式,笔者选取了已形成最佳实践、具有广泛借鉴意义的4个电子邮件档案管理系统,对其覆盖的管理阶段、可处理的数据格式、采取的保存措施、具体操作流程等方面进行了对比,如表1所示。这些系统突出体现了开源思维和微服务设计,不仅能满足电子邮件档案管理需求,还可以作为组件与其他档案管理系统融合集成。Archivematica由Artefactual Systems公司开发,用户利用系统能够自定义电子邮件档案管理策略和工具,形成个性化的管理框架和流程。DArcMail由史密森尼学会档案馆开发,系统在AIP和DIP信息包中均保留
14、了邮件原始账户的逻辑关系,便于在不同层级(如单封邮件、邮件组、邮件账户等)进行管理。EAS由哈佛大学图书馆开发,系统能够自动记录技术和管理元数据,且与ePADD实现功能集成。ePADD由斯坦福大学图书馆开发,系统使用命名实体识别工具将邮件转化为结构化数据,辅以电子邮件档案的受控版本,便于远程查询检索,在提高利用效率的同时确保了安全性。从对比结果可以看出,上述系统存在以下几个方面的特点:一是功能设计偏重归档电子邮件管理。电子邮件作为电子文件管理的新生对象,其管理理念也应遵循全程管理和前端控制原则,但由于电子邮件通常并不依托统一的OA系统形成,且数据量大、结构复杂、流动性强,很难对其本身和元数据进
15、行实时的收集和存储。因此,在目前管理方法和制度标准相对松散的情况下,以归档电子邮件管理序号系统 名称 功能实现 操作流程 管理 阶段 输入 格式 输出 格式 保存 措施 1 A r c h i v e-m a t i c a 处置 保存 利用 M B O X P S T 其他格式 M B O X 原始格式 复 制 标准化 仿 真 若格式为M B O X、P S T,则(1)创建邮件存储的磁盘映像,生成磁盘上所有文件的列表并进行校验。(2)将磁盘映像、文件列表、元数据生成归档信息包、发布信息包、元数据包,分别存储。(3)根据利用需求提供对应的磁盘映像,远程实现仿真即服务。若为其他格式,则将原始数
16、据导入系统保存,不进行其他操作。2 D A r c M a-i l 处置 保存 利用 M B O X M B O X X M L 标准化(1)将邮件转换为 M B O X 格式导入系统,经过筛选后的邮件转换为X M L 格式。(2)将原始格式、M B O X 格式、X M L 格式的数据封装成归档信息包,放入长期保存库。筛选后的数据放入利用库。(3)根据利用需求,对利用库数据进行二次审查并生成发布信息包提供使用。3 E A S 处置 保存 M B O X P S T O L M 无 标准化(1)将邮件转换为M B O X 格式并导入 e P A D D 鉴定模块。(2)筛选、标识邮件中的垃圾或敏感信息,将鉴定完毕后的数据以 M B O X 格式导出。(3)将导出数据导入 E A S 进行整理,邮件内容、附件、元数据一并封装后保存。4 e P A D D 鉴定 处置 保存 利用 M B O X M B O X 标准化(1)将邮件转换为M B O X 格式并导入鉴定模块,筛选、标识邮件中的垃圾或敏感信息。(2)将鉴定完毕后的数据导入处理模块进行二次审查,形成3 个版本的数据包:一次鉴定后的