1、中华人民共和国国家标准 中华人民共和国国家标准 术语与辞书条目的记录交换用磁带格式术语与辞书条目的记录交换用磁带格式 Magnetic tape exchange format for terminological/lexicographical records(MATER)GB/T 13726-92 本标准参照采用国际标准 ISO 61561987术语与辞书条目的记录交换用磁带格式。1 主题内容与适用范围 本标准设计了一种信息交换用的框架,规定了术语与辞书条目数据项的内涵、组分以及标识方法,为单语种或多语种术语与辞书条目数据的交换提供了一种通用的格式。本标准适用于信息系统之间进行计算机可读数
2、据载体的信息交换。2 引用标准 GB1988 信息处理 信息交换用七位编码字符集 GB1989 信息处理交换用七位编码字符集在 9 磁道 12 7 毫米磁带上的表示方法 GB 2311 信息处理 七位和八位编码字符集代码扩充技术 GB 2312 信息交换用汉字编码字符集 基本集 GB 2659 世界各国和地区名称代码 GB 2901 书目信息交换用磁带格式 GB 4880 语种名称代码 GB 6550 信息处理交换用 9 磁道 127 毫米宽 63 行毫米调相制记录磁带 GB 7574 信息处理交换用磁带标号和文件结构 GB 7589 信息交换用汉字编码字符集 第二辅助集 GB 7590 信息
3、交换用汉字编码字符集 第四辅助集 GB 8565185653 信息处理 文本通信用编码字符集 GB 10112 确立术语的一般原则与方法 GB 11383 信息处理 信息交换用八位代码结构和编码规则 GBT 13715 信息处理用现代汉语分词规范 汉语拼音正词法基本规则 国家语言文字工作委员会 1988 年发布 3 概述 本标准的目的在于促进术语与辞书条目数据库间的信息交换,使数据库拥有者能以标准格式向他人提供全部或部分数据,同时又能以标准格式从其他数据库获得自己所需的数据。本格式的作用还在于每个数据库拥有者进行数据交换时,只需编制两个转换程序:其一是将自己的内部格式转换成标准格式;其二是将标
4、准格式转换成内部格式。本标准只规定格式的物理和逻辑结构,而对每个记录的长度和内容不作定义。在本标准中,术语与辞书条目数据应理解为:a 术语库所包括的内容;b 词表和重要语汇索引,包括术语词表、辞书式汇编和文本的索引;c 词典和百科全书的条目;d 文献处理语言,包括分类体系、叙词表、关键词索引。虽然本标准是为磁带设计的,它的结构也可以用于其他数据载体(如软盆)。本标准对系统内部组织与管理数据的方法不作规定。4 定义 41 术语与辞书条目记录:数据字段的集合,包括记录头标、参考数据区、目次区和一个交换单位的术语数据与辞书条目数据。42 目次区:记录中所有数据字段位置的索引,包括每个数据字段的字段标
5、识符、长度、位置和说明符。43 数据字段:记录中包含特定数据项的可变长部分,位于目次区之后并与其中一个目次项相联系。44 目次区说明:说明目次区中目次项结构的一组参数。45 数据项:构成术语与辞书条目记录并具有特定含义的数据字段。46 数据项类别:描述术语与辞书条目的一组数据项。47 字段标识符:用于标识一个数据字段的三个字符。48 说明符:为相应数据字段内容提供附加信息的三个字符。4 9 术语与辞书条目交换单位:描述某一术语(和它的各种含义)或某一概念(和与其相关的所有同义词)的数据字段的集合。5 字符集 应使用 GB 1988 中的字符和按照 GB 2311 规定的方法所调用的其他标准字符
6、集(如 GB 2312,GB 7589,GB 7590)中的字符,以及其他在 ISO 注册的字符集中的字符。本标准规定 GB 1988 为基本字符集。所有记录头标和目次区中的字符、代码型数据所用字符以及各种分隔符都取自 GB 1988。若使用非 GB 1988 的某一字符集时,必须首先指明,然后才可调用它作为工作字符集。指明和调用的方法遵照GB 2311 的规定,具体执行方法可参照 GB 2901 附录 A 第 A26 条。注:不同设备所使用的字符集的差别对于数据交换可能产生严重的障碍。并且字符集的不同版本(国家版本或应用者版本)之间进行自动转换是相当复杂的,如果没有对其内容的说明往往很难做到
7、。因此,数据交换的双方应该就所用的字符集和字符代码达成协议,并在信息交换说明书(见附录 c)中详尽地描述。6 交换文件的结构 本标准规定了术语与辞书条目数据交换的文件格式(见第 7 章)。如果需要交换其他类型的文件,其中书目数据应根据 GB 2901 规定的格式单独存入一个文件予以交换,其他数据应以辅助文件的形式进行交换(见 6 2 4)。用户处理交换文件所需要的但又不能以机读方式提交的信息必须填入信息交换说明书。61 文件和带标 磁带上的所有文件应按照 GB 7574 规定的标号来标识。所有的记录都是可变长的,在 GB 7574 允许的标记级别中,级别 3 用于变长记录。62 交换文件 构成
8、交换文件的交换单位和记录的层次结构如图 1 所示。图 1 621 交换单位 交换文件由一个可选择使用的信息记录和若干交换单位组成,每个交换单位包括一个或几个变长记录,每个记录的长度由记录头标的前 5 位十进制数表示(见 711)。注:这里描述的记录长度是一个逻辑记录的长度。根据数据的机器处理的具体情况,当一个记录的信息记录在磁性载体上时,可能需划分成几个物理块。GB 7574 中规定了在磁带上实现跨块的标准技术。622 信息记录 信息记录使接收文件的机构能立即对交换文件进行自动分析。除了一般性信息(如生产者姓名和建立日期),信息记录还应包括所用的分隔字符、字符集名称(即由转义序列引入的字符集在
9、 ISO 的国际注册号)和字符集参考表。信息记录的使用是任选的,如果使用信息记录,它应该是文件的首记录。为了唯一地标识该信息记录,记录头标内字符位置 5(记录头标的第 2 项,即记录状态位)的所有 8位应全置为“1”。623 书目数据文件 应使用一个单独的文件交换有关的书目数据,该文件中数据的记录结构应与GB 2901 规定的格式一致。624 辅助文件 该文件包括有关交换数据的辅助信息,例如数字化图示、用于数据处理的文字资料、数据处理程序等。该文件的记录结构不固定,交换机构之间必须对此达成一致意见,或者在信息交换说明书的附件中予以说明。7 交换单位的结构 本章只定义构成交换单位的逻辑记录结构,
10、不规定任何专门的记录录入系统。本格式部分地参照 GB 2901,并且适合于术语与辞书条目。一个交换单位包含一个术语或辞书条目记录的数据(例如词典的词条),通常是交换文件中的一个变长记录。某些情况下,交换单位可以由几个记录组成,属于同一交换单位的记录应该具有相同的标识号,它们之间由在记录计数中的顺序编号相互区别。记录标识:参考数据区字符位置 07(见 712);记录计数:参考数据区字符位置 8 和 9(见 712)。71 记录结构 图 2 表示了记录的一般格式。记录头标 参考数据区 目次区 数据区 记录分隔符 图 2 一个记录包含下列内容,次序如图 3 所示。记录头标:固定长;参考数据区:固定长
11、;目次区:可变长;数据字段;可变数和可变长;字段分隔符:一个字符,应使用 GB 1988 中定义的字段分隔符(RS);记录分隔符:一个字符,应使用 GB 1988 中定义的记录分隔符(GS)。711 记录头标 记录头标是记录的第一部分,其内容是标识和处理该记录的关键信息(见表1)。表 1 编号 字符位置 长度 类型 含义 内容 1 04 5 N 记录长度 记录中的字节数2 5 1 C 记录状态 N=新的 A=修正 D=删除 3 69 4 C 执行码 0000(或指定的编码)4 10 1 N 指示符长度 3 5 11 1 不用 0 6 1216 5 N 数据基地址 7 1719 3 备用 000
12、 8 20 1 N 目次区中各目次项的“数据字段长度”所占的字符位数4 9 21 1 N 目次区中各日次项的“起始字符位”所占的字符位数 5 10 22 1 N 说明符长度 3 11 23 1 备用 0 注:1)C:左取齐,字母数字型;N:右取齐,十进制数字字符,如果必要前方填0。2)用以指明记录类型;术语的,辞书条目的,等等。3)数据字段区第一个字段相对于记录的第一千字节的位置。4)说明符共三位,第一和第二位表示数据的语种,第三位表示数据字段的重复性或所在的组(见 7141)。若不用,则说明符中总有一位置零。图 3 712 参考数据区 为了能更加方便地对一个完整的交换单位进行存取,设置了一个
13、总长为 96字切的参考数据区(见表 2)其位置紧随记录头标之后。这部分与 GB 2901 有所不同。表 2 编号 字符位置 长度 类型 含义 内容 1 2 3 4 O7 89 1O17 1823 8 2 8 6 N N C N 交换单位的标识号 记录计数(交换单位内)提供数据的机构为交换单位分配的内部标 识号 交换单位的生成日期 文件中交换单位的连续号,从十进制的00000001 开始按升序 排列 见 72 由源机构分配 源机构最终的修改日 期(YYMMDD)5 6 7 2447 487l 7295 24 24 24 C C 学科领域代码 交换单位的语种 备用 在“信息交换说明书”中注明本代码
14、的含义 应使用 GB 4880规定 的代码 注:1)C:左取齐字母数字;N:右取齐十进制数字字符。713 目次区 目次区反映各数据字段内数据的有关信息。目次区是记录的一部分,它只反映本记录中的数据,不反映同属一个交换单位的其他记录中数据的信息。每个记录都有自己的目次区。目次区中的目次项长度均为 15 个字节。记录中目次项的个数因记录而异,但应与本记录的数 据字段个数相同并一一对应。目次项的结构如图 4 所示:字符位置 类型 意 义 02 36 711 1214 N N N C 字段标识符 数据字段长 数据字段的起始字符位置 说明符(见 7 1 1 表 1 注释 4)图 4 目次区中目次项的顺序
15、应与该记录中对应的数据字段顺序相同。注:目次区中的起始字符位置是相对于数据基地址而言的(在记录头标中第 1216 字符位给出了基地址),第一个数据字段的起始字符位置为 0。目次区应以一个字段分隔符(GB 1988 中的 RS)结束。如若需要,可以重复出现相同的字段标识符。数据字段长指的是包括指示符和字段分隔符在内的数据字段的总长度。714 数据字段 数据字段用于存储所交换的数据。每个字段只包含一个数据项。字段长度是可变的。数据字段的结构如图 5 所示。字符位旨 类型 含 义 O2 3(K-1)K N C 指示符 数据 字段分隔符(RS)图 5 为了便于不依赖目次区就可检查输出数据,目次项中的字
16、段标识符在此作为指示符重复出现。一个数据字段不能跨两个记录,必要时,使用溢出记录(见72)。7141 编组 若干数据字段或数据字段组可以重复使用相同的字段标识符。说明符的第三位用于区分重复的字段或字段组。7142 示例 例 1:(单一语种)说明符 字段标识符 相应数据字段的内容 LA0 LA1 LA2 LA3 LA0 LA0 100 500 500 500 400 800 以 A 语种表示的主条目 以 A 语种表示的第一同义词 以 A 语种表示的第二同义词 以 A 语种表示的第三同义问 以 A 语种表示的主条目的定义 以 A 语种描述的定义来源 例 2:(多语种)说明符 字段标识符 相应数据字段的内容 LA0 LA0 LA0 LA0 LB0 LB1 LB2 LC0 LC0 LC0 100 500 400 800 100 500 500 100 400 800 以 A 语种表示的主条目 以 A 语种表示的同义词 以 A 语种表示的主条目的定义 以 A 语种描述的定义来源 以 B 语种表示的主条目 以 B 语种表示的第一同义词 以 B 语种表示的第二同义词 以 C 语种表示的主条目 以 C