ImageVerifierCode 换一换
格式:PDF , 页数:8 ,大小:356.36KB ,
资源ID:346751      下载积分:10 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wnwk.com/docdown/346751.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(从助词标注看汉语分词软件的问题_郭康平.pdf)为本站会员(哎呦****中)主动上传,蜗牛文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蜗牛文库(发送邮件至admin@wnwk.com或直接QQ联系客服),我们立即给予删除!

从助词标注看汉语分词软件的问题_郭康平.pdf

1、第 卷第期牡丹江大学学报 年月 文章编号:()收稿日期:基金项目:国家社科项目“基于语料库的当前我国立法语言研究”(项目编号:)作者简介:郭康平(),女,黑龙江绥化人,黑龙江大学在读硕士研究生,研究方向:话语分析。冯莉(),女,黑龙江哈尔滨人,黑龙江大学教授,博士,研究方向:语言类型学与话语分析。从助词标注看汉语分词软件的问题郭康平冯莉(黑龙江大学文学院;黑龙江大学应用外语学院,黑龙江哈尔滨 )摘 要:以中文分词标注软件 对助词标注的结果为研究对象,总结出六种标注错误类型:动词标记为助词、名词标记为助词、量词标记为助词或介词、代词标记为助词、助词标记为动词、助词标记为形容词。同时,比较了同类型

2、的分词标注软件“”,发现“”分词和标记词性的正确率高于“”,且两款软件存在共同的标记错误之处。最后,根据存在的共同错误类型,提出了相应的改进建议。汉语分词、标记技术研究以及方法研究等方面还有待改进和提升,人工检查在研究中必不可少,加强人工检查,能够提高词性标记的准确率。关键词:;助词;标注;分词中图分类号:文献标识码:(,;,):,DOI:10.15907/ki.23-1450.2023.02.007 ,:;一、前言 是一款创建于 年且免费使用的语料库分词和标注工具和该软件具有类似分词标注词性功能的软件“”系统(也可直接称为“”),都是由中国科学院计算技术研究所研制的,主要功能包括中文分词、词

3、性标注、命名实体识别、新词识别等等。首先运用语料分词标记软件 对 年 政府工作报告(部分年代有缺失)语料进行分词并标记词性。运用 软件对历年助词词种以及出现的频次进行统计。发现 对部分年份中助词词性标记错误。此 外,在 与 标 注 同 一 句 子 时,与 软件具有共同的错误之处。本文提出的词性标注错误主要依据词典、现代汉语教材和相关论文。词典主要有 现代汉语词典()、现代汉语八百词(增订本 )、现代汉语规范用法大词典();现代汉语 教材主要参考钱乃荣(),兰宾汉、邢向东(),郭锐、王理嘉、陆俭明(),黄伯荣、廖旭东(),邢福义、汪国胜()等等。其他著作主要参考:马彪(),齐沪扬、张谊生、陈昌来

4、()等等。二、标注错误类型就助词词性标注来看,其错误类型主要归为两大类。第一类是将实词性语素或词标记为助词;第二类是将助词标记为其他词性。(一)将实词性语素标记为助词第一类是将实词性语素或词标记为助词,有“动词标记为助词、名词标记为助词、量词标记为助词和介词、代词标记为助词”四小类。动词标记为助词动词标记为助词的有“得”和“着”。()得()得关于“得”的词性有三种看法。)标记“得”是动词、助词、助动词三种词性的有 现代汉语词典、现代汉语规范用法大词典。)标记“得”是助词、动词两种词性的有 现 代 汉 语 八 百 词。)仅 仅 提 及“得”的 助 词 用 法 的 有 黄 伯 荣、廖 旭 东()等

5、。笔者认为上述词典以及教材对“得”的助词和动词用法释义基本相同,可以归结为:“得”为动词词性,表示完成,得到义;“得”为结构助词,用在中心词和补语中间,是补语的标志。至于表示“需要、允许”义的“得”,究竟为助动词或助词,反映了学术意见的不同,不是软件自身的问题。因此,本文仅展示该软件将动词“得”标记为助词的例句。该软件将动词“得”标记为助词。该软件将“得不到、少劳少得、得大头、得实惠”等结构中的动词“得”标记为助词。黄伯荣、廖旭东()等学者认为助词“得”是附着在实词、短语、句子后表示结构关系或动态等语法意义,是补语标志,而“得不到、少劳少得、得大头、得实惠”等结构中的“得”一般为中补结构,动宾

6、结构,在句中作谓语或中心语成分,具有“得到”义,因此不是助词。现代汉语词典、现代汉语八百词等认为具有“得到”等意义的“得”是动词,因此本文认为应该将其判定为动词。表动词“得”标记为助词的错误示例错误类型例句动词补语巴勒斯坦 人民的民族权利得得不到恢复,并列结构多劳多 得、少劳少得得动词宾语保证国家得得大头()着()着关于“着”的词性有两种看法。)认为“着”有助词和动词两种词性的有 现代汉语词典、现代汉语规范用法大词典、现代汉语八百词。)仅提及“着”的助词词性的有黄伯荣、廖旭东(),郭锐、王理嘉、陆俭明()等。可见,“着”有两种词性:“着”为助词,表示动作或状态的持续;“着”为动词,表示强调义。

7、该软件将“着重地”“着重点”中的动词“着”错 误 地 标 记 为 助 词。现 代 汉 语 词典等均认为助词“着”表示动作或状态的持续,例如:他们正谈着话。“着重地”“着重点”中的“着”不表示动作或状态的持续,但具有“强调”义,因此不是助词词性。现代汉语词典认为“着重”是动词,表示把重点放在某一方面,具有强调意义,因此“着重地”“着重点”中的“着”为动词。该软件误将“着重地”“着重点”判定“着重地”“着重点”,分词和标注均是错误的。例句:()着着重地发展了社会主义的国营经济和各种类型的合作社经济()()它 的 着着 重 点,是 在坚持六 项政治标准的前提下()名词标记为助词名词标记为助词的有“地

8、”。地地关于“地”的词性有两种看法。)认为“地”有助词和名词两种词性的有 现代汉语词典、现代汉语规范用法大词典。)认为“地”为助词词性的有 现代汉语八百词,邵 敬 敏(),黄 伯 荣、廖 旭 东()等。可见,“地”有两个:“地”为名词,表示土地,地级等;“地”为结构助词,用在状语和中心语之间,是状语标志。该软件将“等地,因地制宜,因地施肥,地、市、县”等结构中的名词“地”错误地标注为助词词性。现代汉语词典等认为“地”作为名词表示地球、陆地、地区、地方、路程等意义。“等地”“因地制宜”“因地施肥”中“地”表示地区的意义,而“地、市、县”等结构中的“地”表示级别意义,因此以上语料中的“地”是名词。

9、现代汉语词典,黄 伯 荣、廖 旭 东()认 为 助 词“地”表示它前面的词或词组是状语,是状语标志,如“天渐渐地冷了”中“地”为助词。因此上述语料中的“地”为名词而非助词。例如:()如 变 碱地 和 砂 地 地 为 良田,变 山坡 地 为 梯田,()()研究因地地改良、因地地种植、因地地施肥等项措施()()自治区以及地地、市、县和基层组织()量词标记为助词和介词量词标记为助词和介词的有“所”。所所对于“所”的词性主要有四种看法。)认为“所”有名词、量词、助词三种词性的有 现代汉语词典、现代汉语规范用法大词典。)认为“所”为助词词性的有 现代汉语八百词等词典,黄伯荣、廖旭东()等教材。)认为“所

10、”为介词的有钱乃荣()。)认为“所”有代词词性的有文锋()。钱乃荣()、文锋()等认为“所”具有介词词性、代词词性的例子现均被认为是助词词性,如黄伯荣、廖 旭 东(),邢 福 义、汪 国 胜()。可见“所”有三种词性:“所”为名词,表示处所;“所”为量词,用于房屋等建筑;“所”为助词,帮助“所动词”构成名词短语。该软件错误地将量词“所”标记为助词词性以及介词词性。第一种错误是该软件将量词“所”标记为助词。其表现是将类似于“中央卫生部医院共有三千零六十八所”中的量词“所”标注为助词。现代汉语词典 释义及黄伯荣、廖旭东()等人认为助词“所”用在及物动词之前,使“所动词”成为名词短语,如:“我所认识

11、的人、所见所闻、各取所需”等结构中的“所”为助词,可见软件标准语料中的“所”不是助词词性。现代汉语词典、现代汉语规范用法大词典认为“一所学校”中的“所”是量词,“所”作为量词可用于房屋,学校等。因此可以判定“所”是量词而非助词。第二种错误是该软件将量词“所”标记为介词。量词“所”标记为介词仅有 年“全国设立的工人技术学校将达 所”这一例语料。而上述词典和著作中仅仅钱乃荣()认为“所”为介词,根据黄伯荣、廖旭东()对介词定义来判断,“所”不具有介引功能。因此,该句中的“所”不是介词而是量词。表量词“所”标记的部分错误示例错误类型例句量词标记为助词 中央卫生部 所属 医院共有三千零六十八所所量词标

12、记为介词全国设立的工人技术学校将达 所所 代词标记为助词代词标记为助词的是“之”。之之对于“之”的词性主要有两种看法。)认为“之”具有动词、代词、助词三种词性的有 现代汉语词典、现代汉语规范用法大词典。)认为“之”是结构助词的有黄伯荣、廖旭东()等。可见“之”有三种词性:“之”为动词,表示到,该用法来源于古代汉语;“之”为代词,代指人或事物;“之”为助词,相当于“的”。软件是将代词“之”错误地标记为助词。该软件将“本政府均愿与之建立外交关系”“辅之以必要的改革”等结构中的代词“之”错 误 地 标 记 为 助 词。现 代 汉 语 词典等认为助词“之”用在定语和中心词之间,组成偏正词组,例如:求之

13、不得。黄伯荣、廖旭东()认为结构助词“之”相当于口语“的”,居定中短语中间,例如:光荣之家。语料中的“之”分别充当动词“辅”的宾语,代表某个政策,作介词“与”的宾语,代表某个国家,均具有指代意义,因此“之”不是结构助词。现代汉语词典等认为代词“之”代替人或事物。所以,语料中的“之”均为代词。例如:()本政府均愿 与之之建立外交关系。()()使之之逐步地转变为社会主义企业,()()辅之之以必要的改革。()(二)将助词词性标记为其他词性将助词词性标记为其他词性的有“助词标记为动词、助词标记为形容词”两小类。助词标记为动词助词标记为动词的有“等”。等等对于“等”的词性主要有三种看法。)认为“等”有名

14、词、动词、量词、助词、介词五种词性的有 现代汉语词典。)认为“等”具有动词和助词两种词性主要有 现代汉语八百词。)认为“等”具有助词词性的有邵敬敏()、朱军()等。可见,“等”有五种词性:“等”为名词,表示等级;“等”为动词,表示等待,等候;“等”为量词,表示类别,种类;“等”为助词,用在人称代词后表示复数;“等”为介词,表示等到。该软件将“发展以粮食等农产品为原料的加工业、运用信息网络等现代技术”等句子中的助词“等”错误地标记为动词。现代汉语词典认为动词“等”表示等候、等待,语料中的“等”不具有动词含义,但具有列举未尽 之 意,因 此 不 是 动 词。现 代 汉 语 词典、现 代 汉 语 八

15、 百 词、邵 敬 敏()等认为助词“等”表示列举未尽。语料中出现的“粮食等农产品”“网络等现代技术”中的“等”均表示列举未尽之意,因此均为助词词性。例如:()运用信息 网络 等等现代 技术,推 动 生 产、管理和营销模式变革,加大对民生等等薄弱环节的支持。()助词标记为形容词助词标记为形容词的有“一样”。一样一样对于“一样”的词性大致有四种看法。)认为“一样”具有形容词、助词两种词性的有 现代汉语规范用法大词典、邵敬敏()。)认为“一样”只具有形容词性的有 现 代 汉 语 词 典 现 代 汉 语 八 百词。)认为“一样”具有助词词性的有黄伯荣、廖旭东()等。)认为“一样”具有形容词、数量词组、

16、比况助词三种词性的有张谊生()、徐复岭()。可见,“一样”有三种词性:“一样”为形容词,表示“相等”义;“一样”和“似的”一样是助词,不能单独作句子成分;“一样”是数量词组,例如:一样东西。该软件将“年青的知识分子,正在像雨后春笋一样地生长起来”“把大田种得像菜园子一样”中的助词“一样”错误地标记为形容词。现代汉语词典认为形容词“一样”表示没有差别,语料中“一样”不表示没有 差 别。根 据 现 代 汉 语 规 范 用 法 大 词典,黄 伯 荣、廖 旭 东()等 人 的 看法,本文认为,“正在像雨后春笋一样地生长起来”“把大田种得像菜园子一样”中的“一样”是助词而非形容词。例如:()年青的知识分子,正在像雨后春笋一样一样地生长起来。()(三)小结该软件 将 实 词 性 语 素“着”“地”“之”“所”标记为助词,将助词“等”“一样”分别标记为动词和形容词等实词词性存在识别不清词性的问题。将“所、一样”等词错误地标记为介词、形容词等词性,这是由于该软件的词性标注参照没有统一的标准导致的。三、两款软件分词标注结果的比较本文为了探求此类软件在助词分词和标记词性方面是否一致,随机选择 标记错误的

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2