1、基于蒙古语依存树库的直接宾语句法计量研究齐力格尔,达胡白乙拉,乌优坛,其丽格尔(内蒙古大学 蒙古学学院,内蒙古 呼和浩特 010021)摘要 在构建蒙古语不同语体依存树库的基础上,运用依存语法理论和计量语言学方法对蒙古语直接宾语的依存距离、依存方向、词性分布等句法特征进行计量研究。研究结果显示,蒙古语书面语依存树库中直接宾述关系的平均依存距离为1.72;口语依存树库中直接宾述关系的平均依存距离为1.88,两者均有依存距离最小化倾向;蒙古语书面语依存树库和口语依存树库中的相邻依存关系都比非相邻依存关系多;蒙古语是一种支配词居后占优势的混合型语言;蒙古语书面语依存树库和口语依存树库中直接宾述关系的
2、支配词主要为动词,从属词主要为名词。此研究结果既验证了人类普遍认知观点和传统语法中已有的判断,也在蒙古语依存树库的基础上用计量语言学的方法对这些判断进行了更精确的解释和补充。关键词 蒙古语;语体;直接宾述关系;依存距离;依存方向;句法特征;计量研究中图分类号H212文献标志码 A 文章编号1671-0215(2022)06-0013-07蒙古文信息处理研究始于20世纪80年代,“到目前为止,语料库、语法信息词典、蒙古语言资源平台等基础性建设初具规模,办公软件、编辑排版系统等已实用化,各种蒙古文网络资源也正在稳步增长”1。民族语言信息处理是语言信息处理的重要组成部分,几十年来,蒙古文信息处理工作
3、虽然取得了一定的发展,也获得了一定的成果,但是与中文信息处理工作相比较是相当滞后的。相关部门应当加强民族语言信息处理工作,使民族语言信息处理工作跟上中文信息处理的脚步,对国家语言文字信息处理工作的进一步发展具有推动性作用。近年来,基于依存树库的计量语言学研究非常盛行。依存树库是基于依存语法而进行句法标注体系的语料库,以词与词之间的关系描述句法结构,“树库含有大量的句法分布特征,为句法计量研究提供了有效的资源”2。计量语言学是以真实语料为基础,用精确的方法研究语言结构和发展规律的语言学分析学科3,语言研究科学化是现代语言学重要的努力方向,在语言学中引入计量语言学方法是语言研究科学化的常用途径和有
4、效手段。蒙古语有主语、谓语、宾语、定语、状语等句子成分,主语和谓语是句子的主要成分,宾语、定语、状语是句子的次要成分。由主语和谓语组成的句子能够表达完整的意义,但是仅由主语和谓语两个成分组成的句子过于简短,需要由句子的次要成分扩展句子的意义4;直接宾语作为次要成分,与句子中的主要成分有一基金项目 本文系国家社会科学基金重点项目“基于标注语料库的蒙古语句法计量研究”(项目编号:19AYY018)的阶段性成果。作者简介 齐力格尔,内蒙古大学蒙古学学院中国语言文学专业2020级博士研究生,研究方向为蒙古文信息处理;达胡白乙拉,内蒙古大学蒙古学学院教授,博士,研究方向为语言学及应用语言学、计量语言学;
5、乌优坛,内蒙古大学蒙古学学院中国语言文学专业2019级博士研究生,研究方向为蒙古文信息处理;其丽格尔,内蒙古大学蒙古学学院语语言学及应用语言学专业2020级硕士研究生,研究方向为蒙古文信息处理。内 蒙 古 民 族 大 学 学 报(社会科学版)Journal of Inner Mongolia Minzu University(Social Sciences)Vol.48 No.6Nov.2022第48卷 第6期2022年11月13DOI:10.14045/ki.nmsx.2022.06.009定的语法关系,它不仅有扩展句子主要成分的作用,而且受句子主要成分的支配,还有从多方面扩展、说明、完善句
6、子结构,丰富句子语义的作用5 381。也就是说,直接宾语在蒙古语中是非常重要的句子成分,具有一定的研究意义。一、语料、研究方法、研究步骤(一)语料本文采用的书面语语料从中国蒙古语新闻网(http:/)2013年至2014年的“新农村”“市场”“社会生活”“文化艺术”“法律咨询”等十八个栏目中选取,共有136个文本、4092个句子、99923个词。本文采用的口语语料从内蒙古网络广播电视台(http:/)2012年至2016年的“社会观察”“法制宪行”“茶余饭后”“喜鹊踏枝”“蒙医蒙药”等十八个栏目中选取,总时长8小时7分39秒,共有5039个句子、58987个词。(二)研究方法和研究步骤本研究运
7、用依存语法理论和计量语言学研究方法构建蒙古语书面语依存树库和蒙古语口语依存树库,对依存树库的直接宾述关系的句法特征进行计量研究。“依存语法理论认为词与词之间存在主从关系,这是一种二元不等价的关系。在句子中,如果一个词修饰另一个词,则称修饰词为从属词,被修饰的词语称为支配词,两者之间的语法关系称为依存关系”6。计量语言学是以真实语料为基础,用精确的方法研究语言结构和发展规律的一门学科,把计量方法用于语言研究,能够进一步促进语言学的现代化和科学化发展。研究步骤如下。第一,收集书面语语料和口语语料。第二,运用语依存语法理论和计量语言学研究方法,用蒙古语依存句法分析系统构建蒙古语书面语依存树库和蒙古语
8、口语依存树库。第三,用人类普遍认知观点和传统研究已有的观点对蒙古语直接宾述关系的词性分布进行假设。第四,统计蒙古语书面语依存树库和蒙古语口语依存树库中直接宾述关系的平均依存距离和依存方向,讨论依存距离的最小化倾向。第五,统计蒙古语直接宾述关系的词性分布,验证对词性分布进行的假设。二、假设在人类普遍认知中,句子中可以充当直接宾语成分的词包括名词、代词、数词、形容词等。学者们已经对蒙古语直接宾语和谓语的词性分布展开了大量的研究。从以往的研究来看,清格尔泰、舍 罗布苍旺丹、达瓦、那森柏、涛高、莫德勒图、哈斯额尔顿、纳 格日勒图、内蒙古大学蒙古语文研究所的学者、图力古尔、嘎日迪、图门吉日嘎拉等对蒙古语
9、直接宾语和谓语词性分布的观点基本一致,认为直接宾语成分主要由名词、代词、形容词、数词、时位词、动词等词性充当,谓语主要由动词的多种形式、名词、形容词、数词、时位词、拟声词和一些副词充当716。可见,人类普遍认知的观点与学者以往研究的观点基本一致。本研究假设蒙古语书面语依存树库、蒙古语口语依存树库中的直接宾述关系的词性分布与人类普遍认知中的直接宾述关系的词性分布和学者以往研究的词性分布大致相同,接下来运用计量研究方法检验本研究进行的假设是否与以往的研究相符合。三、统计结果与分析(一)蒙古语直接宾述关系的依存距离和依存方向统计1.蒙古语直接宾述关系的依存距离经统计,蒙古语书面语依存树库中直接宾述关
10、系的平均依存距离为1.72,蒙古语口语依存树库中直接宾述关系的平均依存距离为1.88。以往研究显示,蒙古语书面语依存树库平均依存距离为2.43,蒙古语口语依存树库的平均依存距离为2.1517 48。由此可见,两个依存树库中的直接宾述关系的平均依存距离与两个依存树库的平均依存距离相比,呈14减少趋势。2.蒙古语直接宾述关系的依存距离最小化研究下面统计分析了蒙古语书面语依存树库和蒙古语口语依存树库中直接宾述关系的依存距离分布。蒙古语书面语依存树库的直接宾述关系依存距离时序,见图1;蒙古语口语依存树库的直接宾述关系依存距离时序,见图2。706050403020100依存距离图1蒙古语书面语依存树库的
11、直接宾述关系依存距离时序706050403020100-10依存距离图2蒙古语口语依存树库的直接宾述关系依存距离时序图1数据显示,蒙古语书面语依存树库直接宾述关系的依存距离都密集分布在纵轴0至10之间;图2数据显示,蒙古语口语依存树库直接宾述关系的依存距离都密集分布在纵轴-10至10之间。由此可见,两个依存树库中的直接宾述关系的依存距离均有最小化倾向,大致分布在纵轴-10至10之间。依存距离为正数,说明支配词居后;依存距离为负数,说明支配居前。蒙古语书面语依存树库的直接宾语依存关系均为支配词居后的关系,蒙古语口语依存树库的直接宾语有支配词居前的情况,说明蒙古语的书面语和口语具有差异。“刘海涛教
12、授考察了20种语言后发现,人类语言存在依存距离最小化倾向,并且这种依存距离均值应该处于一定的范围之内,受到人类工作记忆容量的限制。在刘海涛教授研究的20种语言中,平均有50%的依存关系属于相邻依存关系”18。在本文的蒙古语书面语依存树库的直接宾述关系中,相邻依存关系占71.87%,非相邻依存关系占28.13%;在本文的蒙古语口语依存树库的直接宾述关系中,相邻依存关系占64.09%,非相邻依存关系占35.91%。这说明,蒙古语书面语依存树库直接宾述关系的相邻依存关系比非相邻依存关系多,蒙古语口语依存树库直接宾述关系的相邻依存关系也比非相邻依存关系多。两个依存树库相比,书面语依存树库的相邻依存关系
13、比蒙古语口语依存树库的相邻依存关系多,蒙古语书面语依存树库的非相邻依存关系比蒙古语口语依存树库的非相邻依存关系少,两种依存树库中都是相邻依存关系比非相邻关系多。蒙古语书面语和蒙古语口语依存树库的直接宾述关系依存距离分布,见图3。15100.0090.0080.0070.0060.0050.0040.0030.0020.0010.000.00书面语口语5279关系2126关系572关系1089关系266关系394关系133关系187关系73关系101关系50关系80关系27关系65关系21关系38关系14关系16关系35关系96 关系%12345678910图3蒙古语书面语和口语依存树库的直接宾
14、述关系依存距离分布图3数据显示的是直接宾述关系的依存距离分布。蒙古语书面语依存树库中总共有7345个直接宾述关系,其中依存距离为1的关系有5279个,占71.87%;依存距离为2的关系有1089个,占14.82%;依存距离为3的关系有394个,占5.36%,呈现依存距离越大数量越少的趋势。蒙古语口语依存树库中总共有3317个直接宾述关系。其中依存距离为1的关系有2126个,占64.09%;依存距离为2的关系有572个,占17.24%;依存距离为3的关系有266个,占8.02%,也呈现依存距离越大数量越少的趋势。这说明,蒙古语书面语依存树库的直接宾述关系和蒙古语口语依存树库的直接宾述关系同样具有
15、依存距离越大数量越少的特点。依存距离为1时,说明相邻词之间形成依存关系;依存距离除了1以外时,说明非相邻词之间形成依存关系。当相邻词之间形成依存关系时,依存距离变小;非相邻词之间形成依存关系时,依存距离变大。在本文的蒙古语书面语依存树库中,由于除依存距离为1之外的其他依存关系之间形成直接宾述关系的词共有2066个,仅占28.13%,出现直接宾述关系的依存距离为较低(1.72)的现象。在蒙古语口语依存树库中,非相邻词之间形成直接宾述关系的词共有1191个,占35.91%,出现直接宾述关系的依存距离为较低(1.88)的现象。这两个依存距离均值依然没有超出人类短时记忆容量,具有依存距离最小化的倾向。
16、以上数据和分析符合“无论是在一种语言中,还是在一个具体的依存关系中,比如主语关系和宾语关系中,依存距离也存在最小化倾向”19 255的观点。也就是说,本研究中的蒙古语书面语依存树库和蒙古语口语依存树库的平均依存距离和具体依存关系,即直接宾述关系的依存距离均有依存距离最小化倾向。3.蒙古语直接宾述关系的依存方向从以往研究来看,蒙古语是一种支配词居后占优势的混合型语言17 52。图1数据显示,蒙古语书面语依存树库中的直接宾述关系均为支配词居后的依存关系,依存距离均为正数(大于0),这表示在直接宾述关系中没有出现支配词居前的依存关系。图2数据显示,蒙古语口语依存树库的直接宾述关系虽然大部分都属于支配词居后的依存关系,但是也有依存距离为负数(小于0)的情况,这表示在蒙古语口语依存树库的直接宾述关系中有支配词居前的依存关系,与李雯雯的观点“依存关系时序图不仅可以帮助我们证明一种语言、多种语言及其不同的依存关系具有依存距离最小化倾向,还可以帮助我们判断一种语言或者一种具体依存关系的依存方向支配词居后、支配词居前,或者是混合型语言”19 256一致。这说明,蒙古语书面语依存树库的直接宾述关系和蒙古语