1、第 卷第期 年月湖 州 师 范 学 院 学 报 收稿日期:基金项目:国家社科基金项目“情境植入层级建构下的汉英事态限定方式比较研究”();北京市社会科学基金“认知语法视角下补语事件表征的跨语言研究”()阶段性成果;国家留学基金管理委员会资助()。作者简介:杨艺,博士,从事对比语言学和定量语言学研究。基于语义向量的汉语动词“看”用法研究杨艺,王义娜(北京航空航天大学,北京 )摘要:动词“看”是现代汉语最高频的动词之一,具有多义性和多功能性。运用语义向量和降维技术,可以对“看”类结构的语义进行可视化呈现,将所有包含“看”的词汇短语体现在同一个二维平面上,距离越近,表示语义越相似。经过 降维后,“看
2、”类表达在有修饰语和无修饰语时差别明显,“看”的四字结构与其他结构具有明显的差别。经过 聚类,“看”的结构出现了以词干为核心的聚类。说明“看”类的内部语义差异主要由有无修饰语、长度、词干三个因素造成。关键词:“看”;感知动词;语义向量;分布;降维技术中图分类号:文献标志码:文章编号:()人类通过视觉、听觉、触觉、嗅觉、味觉等感知方式与客观世界进行互动。在多种语言中,感知动词是人类表达对世界认知的语言载体。发现,视觉感知在五类感知情态中最为突显,数量也最多,且语义具有多样性和统治性 。因此,视觉动词在整个感知动词范畴中具有重要且特别的地位。视觉动词“看”是现代汉语中最高频使用的感知动词。首先,通
3、过检索大型语料库,发现北京大学中国语言研究中心的 语料库中共有 个“看”的例句,北京语言大学开发的 汉语语料库中共有 个“看”的例句。“看”在 现代汉语频率词典 中使用度和频率排名第 位,在动词中的频率仅次于“来、去、到”,在感知动词中频率最高 。此外,以往研究均表明了“看”具有多义性。现代汉语词典(第版)中“看”有个释义、个词条。中文词汇网络(:)中“看”有 个词义。以上词频统计均可证明“看”是汉语母语者最常用的动词之一。以往研究主要运用定性或语料库定量方法考察少数“看”类词或短语,本研究以分布语义理论()为基础,结合计算语言学的语义向量()方法和语言学统计研究方法,对感知动词“看”所组成的
4、二字、三字、四字词汇或短语进行定量研究。一、现代汉语动词“看”的多义性与多功能性(一)动词“看”的多义性与其他感知动词相比,视觉动词更具多义性。现代汉语词典(第版)中的“看”共有个释义:()使视线接触人或物;()观察并加以判断;()取决于;决定于;()访问;探望;()对待;()诊治;()照料;()用在表示动作或变化的词或词组前面,表示预见到某种变化趋势,或者提醒对方注意可能发生或将要发生的某种不好的事情或情况;()用在动词或动词结构后面,表示试一试。中文词汇网络是由台湾地区学者开发的中文词汇释义平台(:),在对外汉语中运用广泛,具有一定的国际影响力 。其认为汉语动词“看”包括以下语义:()用眼
5、睛观察;()仔细查看特定对象;()仔细观察,作为判断或决定的标准;()透过视觉来理解或欣赏;()以特定态度对待;()决定于后述条件;()拜访、探望后述对象;()医生诊治病人;()病人接受诊治;()对事件做判断;()提醒,注意;()时态标记,表事件或动作的尝试。虽然上述两种文献对“看”的词义界定存在分歧,但是可以发现“看”具有多义性。“看”的语义涵盖了视觉感知、观察、判断推断、认知、就医、人际交往、尝试态标记等多个维度。与此同时,“看”类结构非常丰富,既有被词典收录的动词,又有成为短语或话语标记的二、三、四字结构,它们彼此之间的联系也较为复杂。以往研究往往关注几个“看”类结构之间的比较,“你看”
6、或“我看”的比较,或者是“看”与其他动词“想、说”等的横向对比,鲜有文献对“看”的所有用法进行整体研究。(二)动词“看”的多功能性以往研究对于“看”的多功能研究,主要从四个方面展开:()感知动词;()情态;()言据传信;()话语标记。由于绝大多数研究“看”的文章均提到了其作为感知动词本身的用法,本文主要关注“看”作为情态、言据、话语标记时的用法。以往研究表明,“看”类结构可以充当表达言者对命题确信程度的情态标记。赵彧认为,“看起来、看上去、看情况、看样子”的虚化过程经历了从“行域到知域、句法主语到言者主语、命题成分到情态成分、自由度低到高”四个阶段 。范伟将部分“看”类结构划分成情态成分,认为
7、“看起来、看来、看样子、看上去、看似”表达确信程度较低的揣测型认识情态 。“看”类表达不仅可以表达感知,还可以表达基于感知或推断的言据(信息来源)。朱永生认为,“看、看到、听到、听说”等动词可以表达言据,其中“看到、听到”的言据性强,“看”的言据性中等,“听说”的言据性最弱。“看”的短语也可以充当话语标记。曹秀玲等认为“我看、你看”可以形成征询意见的一对表达,其中“你看”要求听者发表意见和看法,“我看”用于表达言者的意见或推断 。“你看”更可以表示“寻求对方认同、劝慰和说服对方、责备抱怨”等用法。曹秀玲等对汉语中的“看来、看起来、看上去、看样子、看这意思、如此看来、由此看来、这么看来、这样看来
8、”等结构进行研究后发现,“看”类结构从感知动词逐渐演变成了元话语标记,是表达推断的主要形式 。综上所述,现代汉语动词“看”相关的用法具有多义性与多功能性。基于此,我们提出以下研究问题:基于语料训练而成的语义向量能否反映前人研究中所发现的特征?语义向量能否帮助我们发现其他特征?二、研究方法与研究对象(一)研究方法分布语义学起源于 提出的分布假设,其核心观点是“”,即一个元素的分布是它所有环境的总和 。认为“”(一 个 词 的 特 点 是 由 它 周 围 共 现 的 词 来 体 现的)。换言之,两个词的分布环境越相似,其语义和功能就越相似。说明两者的分布具有相似性,也就是功能较为相似。而且,利用分
9、布语义学理论发现的相似词不一定是近义词,也可以是反义词、上义第期杨艺,等:基于语义向量的汉语动词“看”用法研究词、下义词等 。反义词往往会和相似的词共现,说明二者在功能上具有相似性,其差异仅仅体现在语义对立的程度上。这一理论是语料库语言学和计算语言学研究语义的重要基础。此后,由认知语言学家 和 提出的行为特征分析法也将这一思想沿用到了多义词与近义词的分析对比研究中 。他们对句中的主语、谓语、宾语、状语、补语等进行细粒度标记,再运用聚类分析等统计工具对近义词或多义词进行分类,以找出相似的语义或相似的词。这一方法曾用于研究俄语“尝试”类动词 和英语“主要”义副词 ,为词义消歧和近义词区分提供了很好
10、的方法。但是这一方法需要人工标注,工作量较大,可以研究的范围也很有限。同样基于分布语义学的语义向量,是一种基于机器学习与自然语言处理的新技术,早期只要运用于机器学习和心理语言学等领域,近年来逐渐运用至具体语言现象的研究。等结合计算语言学与定量语言学的研究方法,提出语义的相似性可以由分布的相似性来体现,而分布的相似性可以由向量的相似性来体现 。明确指出,基于类符()的语义向量空间()不仅能够运用至语料库研究中,还可以运用在理论驱动的研究中 。这一思想是运用语义向量对比语义相似性的理论基础。其优势在于:语义向量由计算语言学家利用真实语料库训练而成,是一串可以用于计算的数值型向量,比行为特征分析法中
11、的细粒度标注更加高效,可以研究的范围更广,不再局限于少数几个词或构式的对比研究。本研究拟基于上述语义向量的研究方法,利用腾讯人工智能实验室开发的向量数据库(:),对比汉语中“看”类结构的内部区别与联系。腾讯的向量数据库基于最新的汉语使用实例训练而成,既包含词汇,又包含短语,每一个表达有一个 维度的向量,保留至小数点后第位。本文以“看到”和“看起来”为例,在腾讯的向量数据库中会提取到以下信息:看到 看起来 但是,数值型向量本身不具有可解释性。因此,在获取向量后,还需要运用降维技术对数值进行计算处理。本文运用多维尺度分析(,)和 ()两种降维算法将 维的数据投射至两维的平面上,将数值型向量转换成距
12、离进行语义对比分析。算法需要先将语义向量转换成相异性矩阵(),再将相异性矩阵可视化。这一算法的优点是可以较为准确地获取词与词之间的距离,以此来判断它们在语义上的相似性。算法擅长抓取数据中的类别,能将数据聚类到二维平面上,但是点与点之间的相对距离不具有可分析性。两种降维方法各有利弊,后文将结合使用,以便综合分析。(二)研究对象本研究中对于“看”类结构的范围是基于腾讯的语义向量来决定的,主要考虑以下因素:()从结构形式上,只考虑一至四字结构;()从频率上,只考虑在 语料库中频率较高的用法,排除少数不常用的结构,如“看懵”;()从语义上,排除自身语义不能自足的结构,如“我看他”,但是保留了表责备的“
13、你看你”;()排除“看”在名词中的用法,如“看法、看客”。基于以上标准,在腾讯数据库中检索包含动词“看”的所有向量,排除以上情况后,共得到 个由“看”和其他成分组成的结构。这些表达主要包括单音节动词“看”、双音节动词“看到、看见、看来”、双音节结构“我看”、三音节结构“我看到、看上去、看起来”、四音节结构“由此看来、我们看到、可以看到”。在得到所有包含“看”的词汇和短语后,在 语言中对上述 个湖 州 师 范 学 院 学 报第 卷为节省空间,文中仅列出每个词向量的前 个维度。表达进行数据分析,并运用 ()函数对语义向量进行可视化。三、研究发现通过对上述“看”类词汇短语进行降维处理,我们发现运用
14、和 的组合可以发现一些和以往研究相关的规律,且两者规律存在差别。如图所示,运用 对腾讯数据库中“看”类结构进行可视化后,发现横轴尺度较大,纵轴尺度较小。主要体现了“看”是否带有修饰语,体现了“看”类结构的固化程度。整体而言,没有过多修饰语的“看”类结构位于左侧,有时间、方式、结果等修饰语的“看”类结构位于右侧。在图的最左侧,较多的是字典收录的词条,如“看、观看、看见、查看、看到、看待”。即使是未被收录的四字短语,如“在我看来、可以看到、能够看到、不难看出”,也都是较为常用且固化的话语标记。随着横轴向右,修饰成分与“看”的关系越来越松散。一是出现了“看补语”的结构,如“看涨、看跌”,表示言者预见
15、到了某种变化趋势。二是更容易出现主谓结构,如“我看见、记者看到、小编看到、外人看来、人们看到”,这些是常见的“主语感知动词”表言据的结构。三是有时间、方式、程度修饰语“看”类结构,如“目前看来、如今看来、表面看来、总的看来、很难看到、回头看看、短期来看”,越往右结构越松散,在语料库中对应的频率也就越低。最靠右的是“笑看、看够、速看、看腻”等用法,这些结构在汉语中不是一个独立的词或短语,与“看”共现部分的语义较为凸显,在合成新表达时影响了整个词的语义。因此,“看”类结构修饰语和固化程度会影响其语义。无修饰语的词,或是常见动补结构的词,固化程度更高,语义更加相似。有修饰语且固化程度低的词,其语义容
16、易受到修饰语的影响,语义差别更大。图“看”类结构的语义向量 图第期杨艺,等:基于语义向量的汉语动词“看”用法研究 非常明显地反映了汉语中“看”类结构的字数音节数影响其语义。单音节“看”位于左上方,双音节结构大部分位于上半部分,三音节结构位于横轴附近,四音节结构基本上位于图下半部分。结合曹秀玲等的研究可以发现,单音节或双音节结构多为动词,绝大多数情况下位于句中充当述谓。随着结构变长,其用法也随之改变,从句内走到句外,成为小句标记或话语标记。“看”和“观看”位于图左上角,如例、例均符合字典释义中的“用眼睛观察”,为典型的视觉感知义。例:有时有 多人聚在一起观看这台英寸的黑白电视。例:他最喜欢看日出,每天早上天一亮就爬起来,叫我陪他看太阳。相比之下,四字短语多为话语标记,其语义更加抽象,主要集中在图的下半部分。例中的“具体来看”是一个话语标记,在上下文中具有承接作用。“具体来看”之前的部分是对于整体的概括,之后的部分则添加了更多细节,如“枚金牌,亚洲占了 枚”“其中中国枚、日本枚、韩国枚、乌兹别克斯坦枚”。这些数据为言者表达自身观点提供了很可靠的论据。例:带领中国队参加了慕尼黑世锦赛的宋兆年