ImageVerifierCode 换一换
格式:DOCX , 页数:5 ,大小:24.78KB ,
资源ID:1122243      下载积分:8 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wnwk.com/docdown/1122243.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(2023年什么是世界上最怪异的语言.docx)为本站会员(la****1)主动上传,蜗牛文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蜗牛文库(发送邮件至admin@wnwk.com或直接QQ联系客服),我们立即给予删除!

2023年什么是世界上最怪异的语言.docx

1、什么是世界上最怪异的语言?翻开文本图片集我们主要是搞自然语言处理,涉及相关语言繁多。过去6个月,我们研究的语言有(深呼吸):英语、葡萄牙语(巴西葡萄牙语及葡萄牙本地语)、西班牙语、意大利语、法语、俄语、德语、土耳其语、阿拉伯语、日语、希腊语、汉语普通话、波斯语、波兰语、荷兰语、瑞典语、塞尔维亚语、罗马尼亚语、韩语、匈牙利语、保加利亚语、印地语、克罗地亚语、捷克语、乌克兰语、芬兰语、希伯来语、乌尔都语、加泰罗尼亚语、斯洛伐克语、印尼语、马来语、越南语、孟加拉语、泰语,以及一点拉脱维亚语、爱沙尼亚语、立陶宛语、库尔德语、约鲁巴语、阿姆哈拉语、祖鲁语、豪萨语、哈萨克语、信德语、旁遮普语、他加禄语、宿

2、雾语、丹麦语和纳瓦霍语。自然语言处理(Natural Lan-guage Processing,下称 NLP)就是要找到语言的模式。例如:录入大量非结构化的文本,自动从中抽离结构。NLP 有一个公开的秘密:它极以英语为中心。英语无疑是语言学家研究最多的一门语言,于计算机科学工程而言,也是具有最多可用资源的一门语言(就计算机科学而言,数据总是越多越好)。因此,测试一个 NLP 系统的最正确方式之一,就是换用不是英语的语言来测试。一个系统处理多样化数据的能力越强,那么其应付未预见数据的能力,也就更令人有信心。为此,我们也许可以选择去根据英语的特性来定义“怪异度。但是,这样的定义可是相当令人恼火。所

3、以咱们来试试换一种方法吧。纵观全球,纠出“语言异类语言结构世界地图(WorldAtlas of Language Structures,下称 WALS)根据一大堆各种语言特征,评估 2676 种不同的语言。这些语言特征包括词序、声音种类、否认方式,以及许多其他方面共计 192 种不同的语言特征。因此,与其采用一个以英语为中心的世界观,WALS 毋宁允许我们换用一个世界性的世界观。也就是说,我们评估每一门语言,根据的都是其每种语言特征的不寻常度。例如,英语的词序是“主语动词宾语, WALS 对 1377 种语言的词序进行编码,其中 35.5% 具有“主动宾词序。同时,只有 8.7% 的语言以动词

4、作为起始,比方威尔士语、夏威夷语和马扬语(Majang)。因此,从跨语言学角度讲,以动词作为起始,就是不寻常。另外顺带一提,实际上全世界语言有 41.0% 是“主宾动顺序。(题外话:从事了一些夏威夷语和马扬语的相关工作后,动词对我而言,简直就变成如结婚般重大的承诺:每每开口,我却总是还没有做好准备。)WALS 的数据相当稀疏,所以我们把研究限定于 165 种语言特征,这些特征至少要包含 100 种不同语言的数据。(现阶段,就这 165 种语言特征而言,数据缺乏其中 10 种的语言,我们也剔除掉了。因此共计还剩 1693 种语言。)现在,有个问题就是,如果我们的筛选到此为止,那么数据共线性太高。

5、之所以如此,局部是因 WALS 中列举的语言特征本质而决定有整体考量“主语/动词/宾语顺序的特征项,另又有分别考量“宾语/动词和“主语/动词的项。理想情况下,我们希望基于不相关的特征评断怪异度。我们可以集中关注互相之间没有很强相关度的语言特征(在两种互相关联的特征中,我们选择有更多语言编码的特征)。最终我们筛得总计 21 种语言特征。至于某种语言的每项数据值,我们考量其他所有具备该项编码的语言,计算该项值的相对频度。因此,如果我们把“主语宾语动词词序也算进来的话,那么英语得到的怪异度值就会是 0.355(实际上,我们根据每项语言特征的整体熵值对所有数据值统一化处理,所以这个值本身并不正好就是

6、0.355,但你懂这意思就行了)。因此,得到的“怪异度指数(Weirdness Index),就是一项交叉考量 21 种独特结构特征的平均值。但是,因为不同的特征采集数值的数量不同,我们为了减少统计偏斜,实际上取了调和平均值(又因为我们希望“数字越大=越怪异,所以终值是用 1 减去这个平均值)。本篇博文我汇报所涉及的语言,就这 21 项语言特征而言,至少三分之二(即 14 项)具有数据值(即 239 种语言)。答案揭晓:全世界最怪异的语言是与全世界大多数语言最不同的语言,是一种以动词起句的声调语言,在墨西哥的瓦哈卡(Oaxaca)有 6000 人使用,名叫“恰卡通戈米斯特克语(Chalcato

7、ngo Mixtec),又名“大圣米格尔米斯特克语(San Miguel el Grande Mixtec)。第二名在西伯利亚有 2.2 万人使用:涅涅茨语(Nenets)英文里“派克大衣或称毛皮风雪大衣(parka)一词就来源于这种语言。第三名是乔克托语(Choctaw),约有 1 万人使用,大多在美国俄克拉荷马州。但是,难就难在这儿了有些实际上最怪异的语言,是你听说过的:德语、荷兰语、挪威语、捷克语、西班牙语,以及汉语普通话。而且,实际上英语在“语言怪异度指数(Language Weirdness Index)表中也位列第 33 名。世界上最怪异的 25 种语言:北美洲的,恰卡通戈米斯特克

8、语、乔克托语、大梅萨迪埃格诺语(Mesa Grande Diegueo)、库特奈语(Kutenai)、索克语(Zoque);南美洲的,帕乌玛利语(Paumar)、特鲁迈语(Trumai);澳洲暨大洋洲的,皮詹加加拉语(Pitjantjatjara)、拉伍卡莱维语(Lavukaleve);非洲的,哈勒尔奥罗莫语(Harar Oromo)、伊拉库语(Iraqw)、刚果语、穆穆耶语(Mumuye)、祖候语(Juhoan)、科伊科伊语(Khoekhoe);亚洲的,涅涅茨语、东亚美尼亚语、阿布哈兹语、拉达克语、普通话;以及欧洲的:德语、荷兰语、挪威语、捷克语和西班牙语。顺带一提,皮詹加加拉语(Pitja

9、ntjatjara),这名字还能更牛吗?(另外,你能猜出这个拉丁化拼写中哪个音节不发音吗?x)以两项特征为例:问句与代词“这很怪。这很怪吗?(This is odd. Is this odd?)区分各种语言的特征之一,是“是非问句的提问方式。绝大多数语言都有特别的疑问语助词,添加在句中某处(例如日语问句句末的“ka)。在 WALS 中,有 954 种语言具有这项值的编码,其中 584 种有疑问语助词。(译注:又如本段段首的普通话提问方式,添加语助词“吗实现简单疑问句提问。)但像英语那样的提问方式,即调换词序,其比例在所有语言中仅为 1.4%。也就是说,一共只有 13 种语言采用这样的方式,而它

10、们大局部都是欧洲语言:德语、捷克语、荷兰语、瑞典语、挪威语、弗里西亚语、英语、丹麦语和西班牙语。但还有一种语言,其是非问句的提问方式更加不走寻常路,那就是恰卡通戈米斯特克语:提问时,什么都不变。我们调查所涉及语言中,唯有这种语言提问时没有疑问语助词,没有词序调换,没有语调变换这种语言就“是否提问时,以及作简单陈述时,讲话真的是毫无任何区别。我花了好些时间,想象用这种语言做电视游戏节目会是什么样。语言还需应付的另一个问题,是如何处理简单主语代词,比方“我(I)、“他们/她们/它们(they)、“它(it)。这些词称为“代词主语(而像“有关部门负责人模糊其辞这样的说法那么是使用了名词主语)。最通常

11、的做法,是将代词信息附加到动词上所调查的 711 中语言中有 437 中语言采用这样的做法,如西班牙语、意大利语和葡萄牙语。但是,荷兰语、德语和挪威语,与英语一样,宁可使用特别的主语代词,而这些代词通常或必须在句中出现。不过,在 WALS 有编码的 711 种语言里,也只有 82 种语言采用这样的处理方法。库特奈语(加拿大不列颠哥伦比亚省有 100 人使用)和穆穆耶语(尼日利亚有 40 万使用者)的处理方法更不寻常:它们有类似主语代词的东西,但其在句法中的位置,那么与完整名词性短语的位置不同。而比这还更不寻常的,又是恰卡通戈米斯特克语:这种语言混合多种不同策略,所以既有附着在动词上的主语标记,

12、又有代词,而且这些代词在句中出现的位置,还与完整名词短语不同。世界上最“不怪异的语言如果我现在请你考虑一下以下这几种语言,你觉得它们有多怪呢?立陶宛语、印尼语、土耳其语、巴斯克语,以及粤语。吓一跳吧!它们的怪异指数排名相当低呢。对于语言学家和语言学习者而言,这几种语言可能并不显得典型;但就我们研究的 21 种语言特征而言,它们相当随大流。请注意,在怪异度各级分布中,我们有一些孤立语言(比方巴斯克语)。巴斯克语很“典型;但是另一种孤立语言,库特奈语,那么相当怪异。更令人惊讶的是,汉语普通话名列 25 大最怪异语言,但粤语却栖身倒数十大。这与二者发音系统不同有关:与粤语不同的是,普通话有小舌延续音

13、(uvular continuants),而且在软腭鼻音方面有一些局限(普通话同英语类似,可以发出英语“song词尾的那个音,比方汉语“颂sng;但无法将这个尾音置于单词的词首发音世界性地来看,这个特定限制实属罕见。)而在怪异指数列表最末尾的几种语言里,有两种你听过,有 3 种你可能没听过:匈牙利语,通常享有“语言学异类的美誉,但在我们考量的这些维度里,却是彻头彻尾的典型语言。(我去年夏天在布达佩斯住过,我发誓匈牙利语绝对有其怪异之处,只是隐藏在其他地方了而已。)查莫罗语(关岛有 9.5 万使用者)、阿伊努语(仅在日本有少量使用者的濒危语言),以及布雷佩查语(Purpecha,5.5 万使用者

14、,多在墨西哥),这三种语言都很正常。但是,所有语言中最最正常、超级典型、最不诡异的一种语言,怪异指数仅 0.087 的语言,是印地语只有一项怪异特征。这一点,一局部说明,有些你想当然以为正常的语言(如英语、西班牙语或德语),其实一贯与世界上其他语言格格不入。这令我想起心理学的一个根本问题:如果我们调查研究主要基于大学生即如约瑟夫亨利希(Joseph Heich)及其同事所认为的,西方的、受过教育的、工业化的、富裕的、民主的大学生那么这样的研究,其概括程度到底能有多高?换句话说,有时输入的信息本身就“不正常,或曰怪异,那你就要问问自己,这是否会导致研究的变化。你讲英语,你很怪尽管这里采用的方法没

15、有以英语界定,但仍然夹带了一些文化特异性的私货。即是说,开发这个系统以及注释这些语言特征的语言学家,大局部都是欧洲语言使用者。如果换为巴布亚新几内亚、埃塞俄比亚或亚马逊的某个人来做研究,最终确定的语言特征又是哪些呢?而且,当然,WALS 并不具备全球约 4000 种语言的所有数据;其所拥有数据资料的语言,也并不真正足够随机。话虽如此,英语排名仍然很高,是挺不寻常的一种语言(排名 33 位,指数值 0.756)。如果你能带着一个英语思维的大脑,去读这篇文章英语原文,那你可真是怪怪哒。(译注:你操汉语,能读这篇译文,那你的脑子更怪。)x内容注释:译注:原文表述略有不当;皮詹加加拉语(Pitjantjatjara)在当地原住民语言中或可简称为“皮詹加拉语(Pitjantjara banaa),所以这个完整的拉丁化拼写并非“有一个音节不发音,而只是有一个音节“可以省略且不发音。

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2