1、2023/1/6 1 自然语言理解自然语言理解 主主 讲讲 :付:付 宏宏 杰杰 单单 位位 :信息工程学院:信息工程学院 使用教材:使用教材:人人 工工 智智 能能 基基 础础 高高 济济 朱淼良朱淼良 何钦铭何钦铭 高高 等等 教教 育育 出出 版版 社社 第五章第五章 自然语言理解自然语言理解 2023/1/6 2 第五章:自然语言理解第五章:自然语言理解 根本概念根本概念 当我们从事任何一项当我们从事任何一项研究的时候,总要关注研究的时候,总要关注两方面的问题:一是是两方面的问题:一是是什么,为什么?二是做什么,为什么?二是做什么,怎么做?这恰恰什么,怎么做?这恰恰是科学与技术紧密相关
2、是科学与技术紧密相关的两个方面。的两个方面。自然语言处理既是自然语言处理既是一项技术,又是一门科一项技术,又是一门科学。学。2023/1/6 3 5.1 根本概念根本概念 信息的主要载体语言信息的主要载体语言 语言的两种形式文字和声音语言的两种形式文字和声音 文字和声音作为语言的两个不同形式文字和声音作为语言的两个不同形式的载体,所承载的信息占整个信息组的载体,所承载的信息占整个信息组成的成的7070以上以上文字:文字:7070,图象:,图象:2020;其它:;其它:1010 q q 如何让计算机实现人们希望实现的如何让计算机实现人们希望实现的语言处理功能?语言处理功能?q q如何让计算机真正
3、实现海量的语言信如何让计算机真正实现海量的语言信息的自动处理和有效利用?息的自动处理和有效利用?2023/1/6 4 5.1 根本概念根本概念 r 语言学(lingtiuvicu)是指对语言的科学研究。作为一门纯理论的学科,语言学在近期获得了快速开展,尤其从上个世纪60年 代起,已经成为一门知晓度很高的广泛教授的学科。包括:历时语言学diachqonic lingtiuvicu或 称历史语言学hiuvoqical lingtiuvicu和共时语言学uynchqonic lingtiuvicu、描述语言学deucqipvivelingtiuvicu、比照语言学convqauvive lingti
4、uvicu、结构语言学uvqtcvtqal lingtiuvicu等等。2023/1/6 5 5.1 根本概念根本概念 r 语音学(phonevicu)研究人类发音特点,特别是语音发音特点,并提出各种语音描述、分类和转写方法的科学。包括:(1)发音语音学(aqvictlavoqy phonevicu),研究 发音器官如何产生语音;(2)声学语音学(acotuvic phonevicu),研究口耳之间传递语音的物理属性;(3)听觉语音学(atdivoqy phonevicu),研究人通过耳、听觉 神经和大脑对语音的知觉反响。2023/1/6 6 5.1 根本概念根本概念 根据不同的研究方法,语音
5、学又分为:(a)一般语音学(general phonetics):对语音发音、声学或知觉的一般研究。与语言学的分析目的没有什么关系。(b)实验语音学(experimental phonetics):对具体语言语音特点的研究。语言学研究的一局部,有人甚至认为是语言学不可或缺的根底。2023/1/6 7 5.1 根本概念根本概念 问题:语音学究竟是一门独立的学科还是应视为语言学的一个分支呢?复数的语言科学linguistic sciences 语言学和其它学科的交叉产生了许多语言学的新分支,包括纯理论的和应用性的,如人类语言学(anthropologicallinguistics)、计算语言学(c
6、omputational linguistics)、生物语言学(biolinguistics)、心理语言学(psycholinguistics)、教育语言学(educational linguistics)和社会语言学(sociolinguistics)等等。2023/1/6 8 5.1 根本概念根本概念 q计算语言学(Computational Linguistics)计算语言学是利用电子数字计算机进行的语言分析。虽然许多其它类型的语言分析也可以运用计算机,计算分析最常用于处理根本的语言数据例如建立语音、词、词元素的搭配以及统计它们的频率。?大不列颠百科全书?2023/1/6 9 5.1 根
7、本概念根本概念 r计算语言学(Comptvavional Lingtiuvicu)是语言学的一个研究分支,用计算技术和概念来阐述语言学和语音学问题。已开发的领域包括自然语言处理(navtqal langtage pqoceuuing,NLP),言语合成,言语识别,自动翻译,编制语词索引,语法的检测,以及许多需要统计分析和领域如文本考释。?现代语言学词典?戴维.克里斯特尔,1997 2023/1/6 10 5.1 根本概念根本概念 r自然语言处理 或称自然语言理解(navtqal langtage tndequvanding,NLU),人工智能研究的重要内容之一。自然语言处理navtqal la
8、ngtage pqoceuuing,NLP就是利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。-冯志伟?自然语言的计算机处理?2023/1/6 11 5.1 根本概念根本概念 近几年来,自然语言处理研究得到了前所未有的重视和长足的进展,并逐渐开展成为一门相对独立的学科而倍受关注,而且自然语言处理技术不断与语音识别(speech recognition)、语音合(speech synthesis)等语音技术相互渗透和结合形成新的研究分支,因此,很多人在谈到“计算语言学、“自然语言处理或“自然语言理解这些术语时,往往默认为同一个概念。甚至有些专著中干脆直
9、接这样解释:计算语言学也称自然语言处理或自然语言理解刘颖,2002。2023/1/6 12 5.2 关于“理解关于“理解标准标准 r 如何判断计算机系统的智能?计算机系统的表现(acv)如何?反响(qeacv)如何?相互作用(inveqacv)如何?与有意识个体人比较如何?图灵(Ttqing)设计的“模仿游戏,即图灵实验(Ttqing veuv)2023/1/6 13 5.3 自然语言理解研究的内容自然语言理解研究的内容 r 按照应用目标划分 v 机器翻译(Machine vqanulavion,MT):实现一种语言到另一种语言的自动翻译。应用:文献翻译、网页翻译和辅助浏览等。实用系统:Syu
10、vqan(:/uyuvqanuofv )36种语言对,20个专门领域。2023/1/6 14 5.3 自然语言理解研究的内容自然语言理解研究的内容 v 机器翻译现状和对机器翻译的认识 v机器翻译研究在过去的五十多年曲折开展经历中,无论是它给人们带来的希望还是失望我们都必须客观地看到,机器翻译作为一个科学问题在被学术界不断深入研究的同时,企业家们已经从市场上获得了相应的利润。v在机器翻译研究中实现人机共生(man-machine symbiosis),人机互助比追求完全自动的高质量的翻译(Full Automatic High Quality Translation,FAHQT)更现实、更切合实
11、际Hutchins,1995 v我们需要的是计算机帮助人类完成某些翻译工作,而不是完全替代人,人与机器翻译系统之间应该是互补的关系,而不是相互竞争Hutchins,2001 2023/1/6 15 5.3 自然语言理解研究的内容自然语言理解研究的内容 用机器翻译的个别例子来批评甚至诋毁机器翻译研究是不适当的。例1:The spirit is willing,but the flesh is weak.心有余,而力缺乏。精神是愿意的,但骨肉是微弱的。(Systran)English-Russian-English:The wine is good,but the meat is spoiled.
12、(酒是好的,肉是馊的。)2023/1/6 16 5.3 自然语言理解研究的内容自然语言理解研究的内容 例2:Out of sight,out of mind.眼不见,心不烦。出于视域,在头脑外面。(Systran)From English to Russian:又瞎又疯。2023/1/6 17 5.3 自然语言理解研究的内容自然语言理解研究的内容 v信息检索(Information retrieval):信息检索也称情报检索,就是利用计算机系统从大量文档中找到符合用户需要的相关信息。面向多语言的信息检索叫做跨语言信息检索(Cross-language/Trans-lingual informa
13、tion retrieval)。代表系统:Google:/google 百度::/baidu /目前已有300多亿个网页,每天几百万增加,获得的信息只有1被有效利用。2023/1/6 18 5.3 自然语言理解研究的内容自然语言理解研究的内容 v自动文摘(Automatic summarization/Automaticabstracting):将原文档的主要内容或某方面的信息自动提取出来,并形成原文档的或缩写。应用:电子图书管理、情报获取等 v文档分类(Document categorization):文档分类也叫文本自动分(Textcategorizationclassification)
14、或信息分类(Information categorization/classification),其目的就是利用计算机系统对大量的文档按照一定的分类标准例如,根据主题或内容划分等实现自动归类。应用:图书管理、内容管理、信息监控等 2023/1/6 19 5.3 自然语言理解研究的内容自然语言理解研究的内容 v问答系统(Qteuvion-anuseqing uyuvem):通过计算机系统对人提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并做出相应的答复。问答技术有时与语音技术和多模态输入/输出技术,以及人机交互技术等相结合,构成人机对话系统(man-comptveq dial
15、ogte uyuvem)。应用:人机对话系统、信息检索等 2023/1/6 20 5.3 自然语言理解研究的内容自然语言理解研究的内容 v信息过滤(Information filtering):通过计算机系统自动识别和过滤那些满足特定条件的文档信息 v应用:网络有害信息过滤、信息平安等 v语言教学(Language teaching):借助计算机辅助教学工具,进行语言教学、操练和辅导等。v 应用:语言学习等 v v v 2023/1/6 21 5.3 自然语言理解研究的内容自然语言理解研究的内容 v 文字识别(Character recognition):通过计算机系统对印刷体或手写体等文字进
16、行自动识别,将其转换成计算机可以处理的电子文本。应用:应用:文字输入、识别等 v文字编辑和自动校对(Automatic proofreading):对文字拼写、用词、甚至语法、文档格式等进行自动检查、校对和编排。应用:应用:排版、印刷和书籍编撰等 2023/1/6 22 5.3 自然语言理解研究的内容自然语言理解研究的内容 v语音识别(speech recognition):将输入计算机的语音信号识别转换成书面语表示。语音识别也称自动语音识别(automatic speech recognition,ASR)。应用:文字录入、人机通讯、语音翻译等等。困难:大量存在的同音词、近音词、集外词、口音等等。例如:输入:美欧贸易摩擦升级 识别结果:美欧贸易摩擦生机生机 2023/1/6 23 5.3 自然语言理解研究的内容自然语言理解研究的内容 极端情况下的同音字词现象 施氏食狮史赵元任 石室诗士施氏,嗜狮,誓食十狮。氏时时适市视狮,十时,适十狮适市,是时,适施氏适市,施氏视是十狮,拭矢试,使是十狮逝世,适石室,石室湿,氏使侍拭石室,石室拭,始食是十狮尸,始识是十狮尸,实十石狮尸,试释是事。20