基于规则的web评论倾向性分析工商管理专业.docx

资源描述

1、基于规则的web评论倾向性分析摘要论文摘要由题头、摘要正文、关键词、论文类型、资助申明等部分组成。题头在首页的左上方，按行逐次向下排列的顺序为：论文题目、学科专业、申请人、指导教师姓名。硕士学位论文摘要正文为6000字(word)左右。内容一般包括：从事这项研究工作的目的和意义；完成的工作（作者独立进行的研究工作及相应结果的概括性叙述）；获得的主要结论（这是摘要的中心内容）。硕士学位论文摘要应突出论文的新见解。摘要中一般不用图、表、化学结构式、非公知公用的符号和术语。如果论文的主体工作得到了有关基金资助，应在摘要第一页的页脚处标注：本研究得到某某基金（编号：）资助。（五号）关键词：XXX；XX

2、X；XXX；XXX；XXX关键词由35个组成。关键词应从汉语主题词表中摘选，当汉语主题词表的词不足以反映主题时，可由申请人设计关键词，但须加注。每一关键词之间用分号分开，最后一个关键词后不打标点符号。由申请人设计的关键词，须在该关键词的右上角标注*，并在该页的页脚处注明“*表示非汉语主题词”。论文类型：XXXX论文类型包括：1.理论研究，2.应用基础，3.应用研究，4.研究报告，5.软件开发，6.设计报告，7.案例分析，8.调研报告，9.其它。35ABSTRACTABSTRACT英文摘要撰写要求如下：（1）用词准确，符合语法；（2）关键词按相应专业的标准术语写出，尽量从英语主题词表中摘选；（3

3、）如果论文的主体工作得到了有关基金资助，应用英文在摘要第一页的页脚处标注：本研究得到某某基金（编号：）资助；中文摘要和英文摘要均不要求学位申请人及其指导教师签字。摘要正文每段开头不空格，每段之间空一行；The key parts in drip irrigation facilities are emitters. The structural design parameters of emitters can directly affect its performance and the function of the whole drip irrigation system 1. Beca

4、use2. Only 3. To support KEYWORDS:XXX; XXX; XXX; XXX每个关键词组的第一个字母大写，其余为小写，每一关键词之间用分号分开，最后一个关键词后不打标点符号。例如：Drip irrigation emitter; RP&M; Hydraulics; Labyrinth flow channelTYPE OF THESIS: XXXXXXX须与中文摘要中的论文类型一致；每个单词第一个字母大写，其余为小写。例如：Applied Research论文类型包括：1.理论研究（Theoretical Research)，2.应用基础(Application F

5、undamentals)，3.应用研究(Applied Research)，4.研究报告(Research Report)，5.软件开发(Software Development)，6.设计报告(Design Report)，7.案例分析(Case Study)，8.调研报告(Investigation Report)，9.其它。目录目录1绪论（标题1）31.1标题231.1.1标题332 XX（标题1）32.1标题232.1.1标题333 XXX（标题1）33.1标题233.1.1标题334 XXXX（标题1）34.1标题234.1.1标题335 XXXXX（标题1）35.1标题235.1.

6、1标题336 XXXXXX（标题1）36.1标题236.1.1标题337 XXXXXXX（标题1）37.1标题237.1.1标题338 XXXXXXXX（标题1）38.1标题238.1.1标题339 XXXXXXXXX（标题1）39.1标题239.1.1标题3310 XXXXXXXXXX（标题1）310.1标题2310.1.1标题3311 XXXXXXXXXXX（标题1）311.1标题2311.1.1标题3312结论与展望312.1标题2312.1.1标题33参考文献3附录3致谢3攻读学位期间取得的研究成果3声明CONTENTSCONTENTS1 PrefaceX 1.1 Drip Irrig

7、ation TechnologyX1.1.1 Drip Irrigation SystemsX2 Rapid Development of Labyrinth Drip Irrigation EmittersX 2.1 Structural Design of Labyrinth Drip Irrigation EmittersX2.1.1TheoryX 2.6 Brief SummaryX12 Conclusions and SuggestionsXReferencesXAppendices（单个附件用Appendix）XAcknowledgementsXAchievementsXDecla

8、ration（这里的目录没办法自动生成，因为你没有相应的英文标题样式，只好你自己手工添加了，其实就是把中文目录翻译成英文就可以了）编辑格式：“章节号英文标题Tab键1次页码”，编完以后，套用“CONTENTS”样式。7 致谢1 绪论1.1 选题意义及应用背景1.2 国内外研究现状1.2.1 国外研究现状1.2.2 国内研究现状1.3 论文的主要研究内容1.4 论文的组织结构2 情感分析相关研究工作2.1 Web文本情感分析的任务情感分析又称作情感分类或者意见挖掘，它是数据挖掘和计算机语言学的一个分支。情感倾向性分析是对含有情感或者作者态度的文本进行分类，判断其为正面（褒义）或是负面（贬义）。比

9、如：今天新进一部小米3，屏幕尺寸够大，摄像头像素够高，价格还算便宜，性价比很高。这句话中，“屏幕大”，“像素高”，“价格便宜”，“性价比高”都反映出作者的情感倾向。再比如：汤姆身材高大，身手灵活，是个优秀的水手。这句话中“高大”、“灵活”、“优秀”都是对汤姆的夸奖，这句话可以划分为褒义。文本情感分析有很多种类别。按内容分，可以分为文本的主客观性分析和主观性文本情感倾向性分析(如图2.1所示)。文本主客观性分析是将文本分为主观性和客观性两大类，也有分为主观性、客观性和中性三类。对于带有情感倾向性的主观性文本，按照研究粒度可以分为词语级情感倾向性分析、句子级情感倾向性分析和篇章级情感倾向性分析。其

10、中词语的情感倾向性分析是研究句子和篇章的情感倾向性的基础。图2.1文本情感分析的分类2.1.1 词语级情感倾向性分析词语级的情感倾向性分析是诸多情感分析任务的基础【1，2,】，是情感分析的重要组成部分。词语的情感倾向性分析包括情感词的自动发现和情感词的极性计算，通过情感词的极性来判断情感词的褒贬性。通常，用-1至+1的实数来表示情感词的语义倾向，数值为正表示词语为褒义，数值为负表示词语为贬义。数值的绝对值表示词语语义倾向的强度。文献【3-5】研究了形容词的语义倾向对文本情感分类结果的影响；文献【6-8】研究了形容词、副词、名词相互组合之后对文本情感分类结果的影响。目前，构建情感词典的方法一般

11、分为三种：人工标注的方法、基于语料库的方法和基于词典资源的方法【9】。基于语料库和基于词典资源的方法将在本文第三章中详细介绍。人工标注的方法【10】，首先要标注情感倾向分析语料库,然后利用词语的共现关系、搭配关系、语义关系和句子中的连接词等判断词语的情感倾向性。这种方法虽然结果性能比较良好，但是做起来费时耗力，一般很少有人单独使用这种方法。由于自动构建情感词典经常会有一些错误产生，因此可以用人工标注的方法对自动构建情感词典的结果进行校验。2.1.2 句子级情感倾向性分析句子级的情感分析不同于词语级针对单独的词语进行分析，他的处理对象是特定上下文中出现的语句。句子级情感分析的任务也有两方面，一是

12、主客观性分析，二是主观性句子的情感倾向性分析。句子的情感倾向性分析首先要提取出句子的主观性信息，然后判断句子的情感倾向性，包括句子的情感极性和极性强度分析。在判断的过程中可以将情感词、否定词与程度副词搭配起来进行。在句子的主客观性判断方面，文献10建立一个主观性句子规则库，然后根据库的规则来判断句子的主客观性，结果表明这种方法准确率高达 90%，但是召回率很低。文献11提出一种不需要训练集的判断方法，较之文献【10】，这种方法提高了召回率，但是结果依然不太理想。王根等12提出基于多重标记 CRF（ConditionalRandomField，条件随机场）的方法，这种方法构建一个分级模型，将句子

13、的主客观性分类、褒贬分类和强弱分类统一起来。实验结果表明三重标记效果最好。采用点互信息SO-PMI（(SemantieOrienttation-pointwiseMutualInformatio）法，将句子中所有情感词的倾向值相加，直接以结果的正负号来表示句子的极性，数值的绝对值表示句子的极性强度。基于HowNet的词汇语义相似度的方法。文献13在HowNet的词汇语义相似度计算的基础上，通过计算句子中任意两个词语间的语义距离和语法距离两种方式，来判断句子的情感倾向性。采用机器学习的方法。文献【14】利用基于贝叶斯分类器的方法，把句子的情感倾向性分析当作文本分类来进行实验。2.1.3 篇章级情

14、感倾向性分析篇章级情感倾向性分析是将整个篇章看作一个基本单元，然后按照情感分析的类别把一个篇章分为两类（褒义、贬义）或三类（褒义、贬义、中性）。近年来，许多研究15, 16, 17对篇章级情感倾向性分析做出了贡献，分析的方法主要有两类，即有指导的机器学习方法和无指导学习的方法。常用的机器学习的文本分类算法有贝叶斯分类器，K近邻分类算法(K-Nearest Neighbor)，最大嫡模型和支持向量机(Support Vector Machine)等。2002年，Pang等人利用贝叶斯分类器，最大嫡模型，以及支持向量机等方法对电影评论进行分类【15】。中文领域也有很多相关研究【18,19,20】。

15、研究【21,22,23】结果表明，支持向量机与贝叶斯分类器的分类效果要高于其他的分类方法。Turney首先对文本进行标注，然后抽取与给定模式相符合的二元组，再利用PMI计算二元组与正负面的互信息，综合这些信息来得到篇章的语义倾向性。Liu B等24针对商品评论研究了对同一类商品的分出来的多个子主题的倾向性进行分析，综合得到总结性的结果，具有较高的商用价值。2.2 Web评论的获取2.2.1 网络爬虫Web爬虫又称为蜘蛛（Spider）或者机器人（Robot），是能够自动下载网页的程序。网络上的信息分散在数以亿计的网页中，用户通常只是通过超链接来获取信息，他们穿梭于一张又一张网页中。而爬虫则可将多个站点的信息收集起来，并通过在线（网页被下载后）或者离线（网页被存储后）的方式，集中进行进一步的分析和挖掘。最简单的爬虫从一系列种子网页开始，然后使用这

展开阅读全文