1、中华人民共和国国家标准 中华人民共和国国家标准 术语工作 计算机应用 词汇 术语工作 计算机应用 词汇 Terminology workComputer applicationsVocabulary GB/T 175321998 eqv ISODIS 1087-2-2:1996 0 导言 本标准的条目按顺序给出,每部分设一个一般性的标题。在通常的情况下,后面的条目原则上应该由前面出现的条目来定义。条目的格式按 GBT 161997 的规定。条目的内容顺序如下:条目编号 优先术语(黑体)缩写形式(黑体)许用术语 拒用术语;括号中注明“(拒用)”专业领域用尖括号 定义 引用的术语用黑体标出,并在后
2、面用括号注明条目编号 例 注 除了条目编号之外,优先术语和定义仅在适当的地方出现。1 范围 本标准规定了在术语工作和术语编纂中用于语言和信息处理的术语。本标准适用于术语数据库的研究、开发、维护及管理工作,在其他涉及术语数据处理的工作中也可参考使用。2 引用标准 下列标准所包含的条文,通过在本标准中引用而构成为本标准的条文。本标准出版时,所示版本均为有效。所有标准都会被修订,使用本标准的各方应探讨使用下列标准最新版本的可能性。GBT 1220021994 汉语信息处理词汇 02 部分:汉语和汉字 GBT 129911991 信息处理系统 数据库语言 SQL(idt ISOIEC 9075:198
3、9)GBT 152371994 术语学基本词汇(neq ISO 1087:1990)GBT 527181993 数据处理 词汇 08 部分:控制、完整性和安全性(eqv ISO 23828:1986)ISO/IEC 23821:1993 信息技术 词汇 第 1 部分:基本术语 ISO 23824;1987 信息处理系统 词汇 第 4 部分:数据的组织 ISO 23826,1987 信息处理系统 词汇 第 6 部分:数据的准备和处理 ISOIEC 23829:1994 信息技术 词汇 第 9 部分:数据通信 ISOIEC 238223:1994 信息技术 词汇 第 23 部分:文本处理 3 一般
4、概念 31 信息 information 信息处理)关于客体(如事实、概念、事件、思想、过程等)的知识,它在一定的上千文中具有特定的意义。注 1 本条引自 ISOIEC 2382-1。2 在其他的应用领域,信息的定义不同。32 数据 data 为进行通信、解释和处理而使用的信息(31)的形式化表现形式。注:本条改自 ISOIEC 2382-1。33 数据处理 data processing DP 对数据(32)进行的系统操作。例:对数据进行算术运算或逻辑运算,数据的归并(95)或分类(94),程序的汇编或编译,以及对文本(36)的操作,如文本编辑(123)、分类、归并、存储、检索、显示(96)
5、、打印等。注:本术语不能作为信息处理(34)的同义术语。34 信息处理 information processing 对信息(31)进行的系统操作,它包含数据处理(33)。注 1 本条改自 ISOIEC 2382-1。2 本术语不能作为数据处理(33)的同义术语。35 语言处理 language processing 对语言进行的系统操作,它包括数据处理(33)。36 文本 text 以字符(61)、符号、词、短语、句子、段落、表格或其他的符号序列的构成的用于表达意义的结构化数据(32)。其解释主要根据阅读文本的人对于某种自然语言或人工语言的知识来进行。注:本条引自 ISOIEC 2382-1
6、。37 文本语料库 textcorpus 语料库 corpus 根据预先确定的规则所准备、编码或存储的机器可读文本(参阅 7 4)或文本的某些部分的有组织集合。注:文本语料库可按专业领域、容量或时代做不同的限定,例如,从 1986 年以来的某些特定的期刊、数学文本等。文本语料库可用作进一步的语言分析或术语工作的原材料。38 类型 type 文本(3,6)中代表一个确定类别的浯言单位。注:这种语言单位通常是未用定界符(310)隔开的不间断的字符串。39 类例 token 类型(38)在文本中的具体表现形式。例:在英语中,如果把 good 的所有词形定义为类型,那么 good,better 和 b
7、est等都是词形 good 的类例。310 定界符 delimiter 分隔符 separator 用于指明一个字符串(613)的开始或结尾的一个或多个字符(61)。注 1 本条引自 ISO 2382-4。2 空白或标点符号经常用作定界符。311 词形 word form 给定词的任何形态句法变体。例:在英语中,indicate;indicates,visitor:visitorS 注 1 在屈折语中,词形经常是屈折形式,例如,英语的 go,goes;以及 go,went,gone。2 这个定义不包含正词法方面的变体。312 词形变化范型 paradigm 属于某一给定词的各个词形(311)的
8、类聚。313 基本词形 base form 参照词形 reference form 根据词典编纂学的惯例选出的用以表示一个词形变化范型(312)中的各个形式的词形(311)。例:在英语中,bind 是 bind,bound,binds,binding 等的基本词形。注 1 本条改自 GBT 15237-1994。2 术语“基本词形”也可以应用于词组型术语。314 词组型术语 multi-word term 包括两个以上词的术语。315 压缩形 compressed form 规定形 normalized form(拒用)缩减形 reduced form(拒用)经过压缩(84)的字符串。例:字符
9、串“inputoutput-algorithm”变成其压缩形“inputoutputalgorithm”。注:术语“缩减形”和“规定形”可能会导致误解,建议避免使用这两个术语。316 屈折 deinflection 取消词形(3117)中的屈折成分。317 取消屈折的词形 deinflected word form 在取消屈折(316)之后余下的词段(318)。318 词段 word part 词片 word segment 为了某种特殊用途从一个词形(311)中取出的字符串(613)。319 词形还原 lemmatization 从某一给定词形(311)生成基本词形(313)的过程。例;在英
10、语中,“go”是“goes”通过取消屈折(316)而得到的基本词形(313);而“go”是“went”通过不规则动词变换得到的基本词形(313),这种变换不符合标准的屈折规则。注:这样的结果也称为词形还原。320 剖折 parsing 根据给定的算法,将给定的结构分解为其组成成分的操作。例:在英语句子“all unsaturated fatty acids are not degradable by biological methods”中,“all unsaturated fatty acids”和“biological methods”可看成是词组型术语(314),它们可以被抽取(89)。
11、注:剖析不一定必须提供对某一句子的完整分析。321 术语数据集合 terminological data collection 包含特定专业领域有关各种概念的信息(31)数据(32)集合。322 术语条目 terminological entry 术语数据集合(321)中所包含的关于一个概念的术语数据(32)。注:一个术语条目可以包含两个以上的记录(79)。323 同形词 homograph 两个以上的具有相同书写形式但表示不同的概念(语义同形)或不同句法功能(句法同形)的词形或词。例:在英语中,lead(铅 Pb)和 lead(领导);bark(吠)和 bark(树皮)。在汉语中,仪表(人的
12、外表)和仪表(测量温度、压力等的仪器);杜鹃(布谷鸟)和杜鹃(映山红)。注:具有不同书写形式但经过压缩(84)2 后变为同形的词形(311)不算同形词。324 歧义消解 disambiguation 通过赋予同形词贴切的概念或贴切的句法功能从而分化同形词(323)的过程,或者通过赋予同形词组以不同的语言解释来分化同形词组的过程。例:在汉语中,分化“白跑”和“白纸”中的“白”分别为副词和形容词;分化“学习文件”的句法结构分别为动宾结构和偏正结构。4 数据组织 41 分类值 sort value 排序值 sorting value 根据预先确定的顺序,字符集(62)中某一元素的位置。例:在法语中,
13、字母 A 具有比字母 B 较低的分类值。一个小写字母是否与它相应的大写字母具有相同的分类值,取决于实际应用的需要。带发音符号的字母有时按其相应的基本字母来处理,有时按不同的字母来处理。42 分类关键字 sort key 排序键 用于满足分类(94)和归并(95)操作要求的字符串(613)。例:当给图书数据分类以便产生作者目录时,作者的姓是第一分类关键字,作者的名是第二分类关键字。如果同一个作者有两个题目,则把出版年份或题目作为附加的分类关键字。43 字母排序 alphabetical ordering 在组织字符串(613)时,表中的每一个串(612)的位置唯一地由从该串(612)头部开始的分
14、类值(41)来确定。注 1 带有发音符号和连音符号的字母以及带有数字、上标、下标的其他符号都可以作为特殊的分类值。2 字母排序的规则可以因语言的不同而不同。44 逆字母排序 reverse alphabetical ordering 在组织字符串(613)时,表中的每一个串(612)的位置唯一地由从该串(612)尾部开始的分类值(41)来确定。45 频度顺序 frequency order 在特定的文本(36)或文本语料库(37)中,根据类例(39)出现频度上升或下降的顺序来排列的类型(38)的顺序。注:在通常情况下,表的类型是词形(311)频度表或原形词频度表。46 轮排 permutati
15、on 使词组型术语中每个实词都作为关键词进行的排序。例:在英语中,对字符串“millions of instructions per second”MIPS轮排时,“instructions,millions of per seconds”,“second,millions of instructions per”等形式分别出现在“instructions”和“second”等实词的排序表中,这样可以保证术语中任何想要的成分都可以出现在相应字母的排序位置。注:本条改自 GBT 15237-1994。47 毗连 concatenation 两个以上的字符串(613)按特定的顺序合并,形成一个新的
16、串(612),其长度等于各个字符串(613)长度的和。5 术语数据的筛选 51 非用词表 exclusion list 停用词表 stop word list 在数据处理(33)中任意选择的不予考虑的字符串(613)组成的表。注 1 在术语工作中,产生忽略功能词(代词、冠词等)的词表可能是有益的。2 有时,非用词表中的字符串可以被保留下来(例如在词语索引(54)中),但是不注明其频度。52 拟用词表 inclusion list 加用词表 plus word list 要保存或认为要进一步数据处理(33)的字符串(613)组成的表。例:凡包含“bank”(银行)或“credit institution”(信用机构)的所有的句子都抽出;凡以“M”起头的所有的条目在名字索引中都检索出来;凡以“anti-”开头的所有的单词都选出来。注:如果适合的话,拟用词表也可以包含词段(318)或其他的字符串(613)。53 自由文本搜索 free-text search 在文本语料库(37)中进行的,能够检索任何类型(38)的搜索(87)。54 词语索引 concordance 按字母顺序排列的词形(3