1、第 卷第期牡丹江大学学报 年月 文章编号:()收稿日期:基金项目:国家社科项目“基于语料库的当前我国立法语言研究”(项目编号:)作者简介:郭康平(),女,黑龙江绥化人,黑龙江大学在读硕士研究生,研究方向:话语分析。冯莉(),女,黑龙江哈尔滨人,黑龙江大学教授,博士,研究方向:语言类型学与话语分析。从助词标注看汉语分词软件的问题郭康平冯莉(黑龙江大学文学院;黑龙江大学应用外语学院,黑龙江哈尔滨 )摘 要:以中文分词标注软件 对助词标注的结果为研究对象,总结出六种标注错误类型:动词标记为助词、名词标记为助词、量词标记为助词或介词、代词标记为助词、助词标记为动词、助词标记为形容词。同时,比较了同类型
2、的分词标注软件“”,发现“”分词和标记词性的正确率高于“”,且两款软件存在共同的标记错误之处。最后,根据存在的共同错误类型,提出了相应的改进建议。汉语分词、标记技术研究以及方法研究等方面还有待改进和提升,人工检查在研究中必不可少,加强人工检查,能够提高词性标记的准确率。关键词:;助词;标注;分词中图分类号:文献标识码:(,;,):,DOI:10.15907/ki.23-1450.2023.02.007 ,:;一、前言 是一款创建于 年且免费使用的语料库分词和标注工具和该软件具有类似分词标注词性功能的软件“”系统(也可直接称为“”),都是由中国科学院计算技术研究所研制的,主要功能包括中文分词、词
3、性标注、命名实体识别、新词识别等等。首先运用语料分词标记软件 对 年 政府工作报告(部分年代有缺失)语料进行分词并标记词性。运用 软件对历年助词词种以及出现的频次进行统计。发现 对部分年份中助词词性标记错误。此 外,在 与 标 注 同 一 句 子 时,与 软件具有共同的错误之处。本文提出的词性标注错误主要依据词典、现代汉语教材和相关论文。词典主要有 现代汉语词典()、现代汉语八百词(增订本 )、现代汉语规范用法大词典();现代汉语 教材主要参考钱乃荣(),兰宾汉、邢向东(),郭锐、王理嘉、陆俭明(),黄伯荣、廖旭东(),邢福义、汪国胜()等等。其他著作主要参考:马彪(),齐沪扬、张谊生、陈昌来
4、()等等。二、标注错误类型就助词词性标注来看,其错误类型主要归为两大类。第一类是将实词性语素或词标记为助词;第二类是将助词标记为其他词性。(一)将实词性语素标记为助词第一类是将实词性语素或词标记为助词,有“动词标记为助词、名词标记为助词、量词标记为助词和介词、代词标记为助词”四小类。动词标记为助词动词标记为助词的有“得”和“着”。()得()得关于“得”的词性有三种看法。)标记“得”是动词、助词、助动词三种词性的有 现代汉语词典、现代汉语规范用法大词典。)标记“得”是助词、动词两种词性的有 现 代 汉 语 八 百 词。)仅 仅 提 及“得”的 助 词 用 法 的 有 黄 伯 荣、廖 旭 东()等
5、。笔者认为上述词典以及教材对“得”的助词和动词用法释义基本相同,可以归结为:“得”为动词词性,表示完成,得到义;“得”为结构助词,用在中心词和补语中间,是补语的标志。至于表示“需要、允许”义的“得”,究竟为助动词或助词,反映了学术意见的不同,不是软件自身的问题。因此,本文仅展示该软件将动词“得”标记为助词的例句。该软件将动词“得”标记为助词。该软件将“得不到、少劳少得、得大头、得实惠”等结构中的动词“得”标记为助词。黄伯荣、廖旭东()等学者认为助词“得”是附着在实词、短语、句子后表示结构关系或动态等语法意义,是补语标志,而“得不到、少劳少得、得大头、得实惠”等结构中的“得”一般为中补结构,动宾
6、结构,在句中作谓语或中心语成分,具有“得到”义,因此不是助词。现代汉语词典、现代汉语八百词等认为具有“得到”等意义的“得”是动词,因此本文认为应该将其判定为动词。表动词“得”标记为助词的错误示例错误类型例句动词补语巴勒斯坦 人民的民族权利得得不到恢复,并列结构多劳多 得、少劳少得得动词宾语保证国家得得大头()着()着关于“着”的词性有两种看法。)认为“着”有助词和动词两种词性的有 现代汉语词典、现代汉语规范用法大词典、现代汉语八百词。)仅提及“着”的助词词性的有黄伯荣、廖旭东(),郭锐、王理嘉、陆俭明()等。可见,“着”有两种词性:“着”为助词,表示动作或状态的持续;“着”为动词,表示强调义。
7、该软件将“着重地”“着重点”中的动词“着”错 误 地 标 记 为 助 词。现 代 汉 语 词典等均认为助词“着”表示动作或状态的持续,例如:他们正谈着话。“着重地”“着重点”中的“着”不表示动作或状态的持续,但具有“强调”义,因此不是助词词性。现代汉语词典认为“着重”是动词,表示把重点放在某一方面,具有强调意义,因此“着重地”“着重点”中的“着”为动词。该软件误将“着重地”“着重点”判定“着重地”“着重点”,分词和标注均是错误的。例句:()着着重地发展了社会主义的国营经济和各种类型的合作社经济()()它 的 着着 重 点,是 在坚持六 项政治标准的前提下()名词标记为助词名词标记为助词的有“地
8、”。地地关于“地”的词性有两种看法。)认为“地”有助词和名词两种词性的有 现代汉语词典、现代汉语规范用法大词典。)认为“地”为助词词性的有 现代汉语八百词,邵 敬 敏(),黄 伯 荣、廖 旭 东()等。可见,“地”有两个:“地”为名词,表示土地,地级等;“地”为结构助词,用在状语和中心语之间,是状语标志。该软件将“等地,因地制宜,因地施肥,地、市、县”等结构中的名词“地”错误地标注为助词词性。现代汉语词典等认为“地”作为名词表示地球、陆地、地区、地方、路程等意义。“等地”“因地制宜”“因地施肥”中“地”表示地区的意义,而“地、市、县”等结构中的“地”表示级别意义,因此以上语料中的“地”是名词。
9、现代汉语词典,黄 伯 荣、廖 旭 东()认 为 助 词“地”表示它前面的词或词组是状语,是状语标志,如“天渐渐地冷了”中“地”为助词。因此上述语料中的“地”为名词而非助词。例如:()如 变 碱地 和 砂 地 地 为 良田,变 山坡 地 为 梯田,()()研究因地地改良、因地地种植、因地地施肥等项措施()()自治区以及地地、市、县和基层组织()量词标记为助词和介词量词标记为助词和介词的有“所”。所所对于“所”的词性主要有四种看法。)认为“所”有名词、量词、助词三种词性的有 现代汉语词典、现代汉语规范用法大词典。)认为“所”为助词词性的有 现代汉语八百词等词典,黄伯荣、廖旭东()等教材。)认为“所
10、”为介词的有钱乃荣()。)认为“所”有代词词性的有文锋()。钱乃荣()、文锋()等认为“所”具有介词词性、代词词性的例子现均被认为是助词词性,如黄伯荣、廖 旭 东(),邢 福 义、汪 国 胜()。可见“所”有三种词性:“所”为名词,表示处所;“所”为量词,用于房屋等建筑;“所”为助词,帮助“所动词”构成名词短语。该软件错误地将量词“所”标记为助词词性以及介词词性。第一种错误是该软件将量词“所”标记为助词。其表现是将类似于“中央卫生部医院共有三千零六十八所”中的量词“所”标注为助词。现代汉语词典 释义及黄伯荣、廖旭东()等人认为助词“所”用在及物动词之前,使“所动词”成为名词短语,如:“我所认识
11、的人、所见所闻、各取所需”等结构中的“所”为助词,可见软件标准语料中的“所”不是助词词性。现代汉语词典、现代汉语规范用法大词典认为“一所学校”中的“所”是量词,“所”作为量词可用于房屋,学校等。因此可以判定“所”是量词而非助词。第二种错误是该软件将量词“所”标记为介词。量词“所”标记为介词仅有 年“全国设立的工人技术学校将达 所”这一例语料。而上述词典和著作中仅仅钱乃荣()认为“所”为介词,根据黄伯荣、廖旭东()对介词定义来判断,“所”不具有介引功能。因此,该句中的“所”不是介词而是量词。表量词“所”标记的部分错误示例错误类型例句量词标记为助词 中央卫生部 所属 医院共有三千零六十八所所量词标
12、记为介词全国设立的工人技术学校将达 所所 代词标记为助词代词标记为助词的是“之”。之之对于“之”的词性主要有两种看法。)认为“之”具有动词、代词、助词三种词性的有 现代汉语词典、现代汉语规范用法大词典。)认为“之”是结构助词的有黄伯荣、廖旭东()等。可见“之”有三种词性:“之”为动词,表示到,该用法来源于古代汉语;“之”为代词,代指人或事物;“之”为助词,相当于“的”。软件是将代词“之”错误地标记为助词。该软件将“本政府均愿与之建立外交关系”“辅之以必要的改革”等结构中的代词“之”错 误 地 标 记 为 助 词。现 代 汉 语 词典等认为助词“之”用在定语和中心词之间,组成偏正词组,例如:求之
13、不得。黄伯荣、廖旭东()认为结构助词“之”相当于口语“的”,居定中短语中间,例如:光荣之家。语料中的“之”分别充当动词“辅”的宾语,代表某个政策,作介词“与”的宾语,代表某个国家,均具有指代意义,因此“之”不是结构助词。现代汉语词典等认为代词“之”代替人或事物。所以,语料中的“之”均为代词。例如:()本政府均愿 与之之建立外交关系。()()使之之逐步地转变为社会主义企业,()()辅之之以必要的改革。()(二)将助词词性标记为其他词性将助词词性标记为其他词性的有“助词标记为动词、助词标记为形容词”两小类。助词标记为动词助词标记为动词的有“等”。等等对于“等”的词性主要有三种看法。)认为“等”有名
14、词、动词、量词、助词、介词五种词性的有 现代汉语词典。)认为“等”具有动词和助词两种词性主要有 现代汉语八百词。)认为“等”具有助词词性的有邵敬敏()、朱军()等。可见,“等”有五种词性:“等”为名词,表示等级;“等”为动词,表示等待,等候;“等”为量词,表示类别,种类;“等”为助词,用在人称代词后表示复数;“等”为介词,表示等到。该软件将“发展以粮食等农产品为原料的加工业、运用信息网络等现代技术”等句子中的助词“等”错误地标记为动词。现代汉语词典认为动词“等”表示等候、等待,语料中的“等”不具有动词含义,但具有列举未尽 之 意,因 此 不 是 动 词。现 代 汉 语 词典、现 代 汉 语 八
15、 百 词、邵 敬 敏()等认为助词“等”表示列举未尽。语料中出现的“粮食等农产品”“网络等现代技术”中的“等”均表示列举未尽之意,因此均为助词词性。例如:()运用信息 网络 等等现代 技术,推 动 生 产、管理和营销模式变革,加大对民生等等薄弱环节的支持。()助词标记为形容词助词标记为形容词的有“一样”。一样一样对于“一样”的词性大致有四种看法。)认为“一样”具有形容词、助词两种词性的有 现代汉语规范用法大词典、邵敬敏()。)认为“一样”只具有形容词性的有 现 代 汉 语 词 典 现 代 汉 语 八 百词。)认为“一样”具有助词词性的有黄伯荣、廖旭东()等。)认为“一样”具有形容词、数量词组、
16、比况助词三种词性的有张谊生()、徐复岭()。可见,“一样”有三种词性:“一样”为形容词,表示“相等”义;“一样”和“似的”一样是助词,不能单独作句子成分;“一样”是数量词组,例如:一样东西。该软件将“年青的知识分子,正在像雨后春笋一样地生长起来”“把大田种得像菜园子一样”中的助词“一样”错误地标记为形容词。现代汉语词典认为形容词“一样”表示没有差别,语料中“一样”不表示没有 差 别。根 据 现 代 汉 语 规 范 用 法 大 词典,黄 伯 荣、廖 旭 东()等 人 的 看法,本文认为,“正在像雨后春笋一样地生长起来”“把大田种得像菜园子一样”中的“一样”是助词而非形容词。例如:()年青的知识分子,正在像雨后春笋一样一样地生长起来。()(三)小结该软件 将 实 词 性 语 素“着”“地”“之”“所”标记为助词,将助词“等”“一样”分别标记为动词和形容词等实词词性存在识别不清词性的问题。将“所、一样”等词错误地标记为介词、形容词等词性,这是由于该软件的词性标注参照没有统一的标准导致的。三、两款软件分词标注结果的比较本文为了探求此类软件在助词分词和标记词性方面是否一致,随机选择 标记错误的