收藏 分享(赏)

基于ConceptNet语义的伪相关反馈信息检索方法.pdf

上传人:哎呦****中 文档编号:3036440 上传时间:2024-01-18 格式:PDF 页数:10 大小:1.29MB
下载 相关 举报
基于ConceptNet语义的伪相关反馈信息检索方法.pdf_第1页
第1页 / 共10页
基于ConceptNet语义的伪相关反馈信息检索方法.pdf_第2页
第2页 / 共10页
基于ConceptNet语义的伪相关反馈信息检索方法.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 卷湖北师范大学学报(自然科学版)第 期 ()基于 语义的伪相关反馈信息检索方法潘 敏刘 宇裴全力李 腾(湖北师范大学计算机与信息工程学院湖北 黄石 约克大学 信息技术学院安大略 多伦多)摘要:伪相关性反馈技术在信息检索领域应用广泛在考虑词频和逆文档频率等重要特征时传统的信息检索方法容易忽略查询词本身的语义信息 提出了一种基于语义的伪相关性反馈信息检索方法()充分利用 获取语义信息不仅考虑了查询词在文档中的词频重要性还将查询词的语义信息整合到伪相关反馈框架中以改善查询扩展词的选择 在 个 数据集上实验结果表明:方法对比较强基线模型和几种基于神经网络的方法在 和 两个指标上具有显著提升关键词:

2、伪相关反馈查询扩展信息检索中图分类号:文献标志码:文章编号:():./.引言在信息检索的过程中用户为了方便用作检索的查询词通常很简短这增加了系统理解用户的真实意图的难度 伪相关反馈()技术针对上述问题提供了一种可行的解决方法大量基于 技术的检索模型 已被证明能帮助检索系统更好地去理解用户的查询意图 因为自然语言的多样性会导致一词多义和多词同义的问题 考虑查询词的解释词、同义词和属性词能够获得更多信息去帮助选择查询扩展词进而提高检索结果的精准度 因此本文考虑了将 知识图谱的信息引入到伪相关反馈的查询扩展词的选择中 具体来说在 的基础上将 作为查询的外部知识库将 的语义信息融入到查询词中来提升伪相

3、关反馈模型的检索性能 相关工作 一般从第一轮检索的伪相关文档中选择查询扩展词并通过对扩展后的查询词进行二次检索来提高检索系统性能 年 等人在 检索系统中的实验发现了伪相关反馈的有效性 算法使用首次检索返回的文档作为反馈信息通过最大化查询向量与相关反馈文档的相似度最小化查询向量与不相关反馈文档的相似度计算出最优的查询向量.在过去的几十年中许多学者继续改进和加强 模型的适用性 等人考虑到候选词与反馈文档中相应查询之间的邻近关系提出了基于滑动窗口的方法、基于核函数的方法和超空间模拟语言的方法分别为、和 这些方法表明邻近度信息能够有效提高模型性能 和 收稿日期:基金项目:年湖北省教育厅科研计划项目重点

4、项目()国家留学基金委博士后基金项目()年研究生创新科研项目()作者简介:潘敏()男湖北荆门人博士副教授研究方向为信息检索.使用了三种词频变换技术来捕捉反馈文档中候选词的词频重要性 由于在各种数据集上的良好表现 和 近年来被认为是相关工作中的强基线 因此在本文中将用它们与我们提出的模型进行比较以测试我们提出的框架的有效性近年来神经网络模型在机器翻译、语音识别等领域中展现出良好的效果信息检索领域也开始对于神经网络模型进行尝试 年 等人提出了一种自适应深度关联匹配模型()其基本思路是:在查询词级别使用联合深层体系结构进行关联匹配实验结果表明该模型明显优于一些先进的深度匹配模型 年 等人 将 ()用

5、于文档检索任务中通过对句子进行单独的计算聚合句子得分生成文档得分 在 微博和 数据集上的实验结果证明了该方法的有效性 至此在信息检索中使用深度学习方法 改进的新模型不断出现 年 等人将词的共现信息整合到 模型和 模型中使用高斯核函数来测量候选词与查询词的共现关系分别提出了 和 模型能有效提高检索性能此外查询主题的语义信息也能很好地帮助检索系统理解用户的查询意图 等人发现选择适当的语义集合资源尤其是外部语义资源能够有效改善查询扩展词的选择 等人将维基百科的知识引入查询扩展的环节提取维基百科文章内 的查询改善了查询扩展词的选择 等人利用知识图谱嵌入表示建立语义连接更有效地发掘查询和文本之间的语义信

6、息优化查询效果 等人将词袋和知识图谱链接到的实体相结合克服了仅使用词袋表示时语义信息不丰富和仅使用实体表示时造成信息损失的缺点优化了知识图谱增强信息检索模型的结构 通过分析不同的外部语义资源我们发现 的描述更接近自然语言与链接数据和谷歌知识图谱相比 比较侧重于词与词之间的关系 从这个角度看 更加接近于但是又比 包含的关系类型多 所以我们选择 作为我们的外部知识库它提供的语义信息是基于 ()语料库中的近 万个英语句子 具有稳定的知识结构即实体、关系和实体可以进行知识挖掘更容易计算、理解和评估信息资源 目前 已被成功应用于信息检索的模型中 等人使用 和 的语义信息扩展查询词的实验结果表明该方法对中

7、难度查询的改进效果更好也验证了 在引入语义信息方面的独特优势 为信息检索查询扩展词的选择带来了新的启发 但是关于将 的语义优势整合到 框架中的研究较少 因此本文研究 在检索系统中的具体作用并尝试将其引入至经典的 模型中并评估其对检索性能的改进效果 基于 的伪相关反馈信息检索方法本节主要提出了一个改进的 信息检索模型将 概念知识图谱提供的语义信息整合到 中 首先从 中获取查询词的语义信息计算语义信息与伪相关文档内词项的相似性 接着对 框架下的查询词项的权重重新赋值 将通过 产生的带有语义信息的扩展词与通过 算法产生的查询扩展词进行结合重构一个新查询并进行二次检索来提升检索性能 具体步骤如下:)针

8、对首次查询选择合理的信息检索模型在实验数据集上进行检索返回第一次检索文档集合并选取前 篇文档作为伪相关文档集合)集成 概念知识网络获取查询词的语义信息经过处理从伪文档中选择若干词作为查询扩展词并为查询扩展词重新分配权重)通过 算法框架将原查询向量和扩展词向量进行合并计算出新查询向量)利用新的查询向量在数据集上完成第二次检索得到最终结果集合上述伪相关反馈的检索流程如图 所示:图 查询扩展过程的流程图.语义信息增强在 中用三元组()的形式表示词项其中表示头部实体表示尾部实体表示 和 之间的关系 提供了 个替代关系 中的节点是自然语言的单词或者短语 对于给定的查询首先使用从 和其他输入构建的词嵌入来

9、查找相关词项 作为初始候选语义词项 如公式()所示:()()其中表示第 个查询词 表示选取概念词数量()表示与查询本身相关的语义词是通过向输入查询而获得的表示语义词的数量然而在获取语义词项时也会引入很多噪音这意味着有些语义词并不能完全匹配用户的查询意图甚至会影响系统的性能为了缓解这个问题本文考虑消除语义项的噪点优化语义去噪去噪后得到的语义词可以表示如公式()所示:()()其中表示伪相关文档中的词为初始候选语义词项表示原始查询()表示去噪后的语义相关词通过此操作可以快速过滤掉许多噪声项另外发现在 中获得的语义词可以同时获得 到 的语义相关性分数因此选择只保留分数排名最靠前的一部分语义词并将数量

10、预设为.在实验部分将深入探讨 值的合理选择如果去噪后的语义词数量小于将保留所有语义词如果超过 个将按顺序获取前 个语义词计算伪相关文档中的词与去噪后所有语义词之间的余弦相似性具体表示为()和()通过这种方式得到伪相关文档中每个语义关系()如公式()所示:()()()()()()其中()()表示计算()和()的内积将()的计算结果从大到小进行排序并采用前 项作为候选词重要性向量组合.本文采用经典方法 法来计算伪相关文档中词的重要性权重()计算如公式():()(.)()()()其中表示数据集中伪相关文档的总数()是包含词的文档数而()表示文档中词的词频同样以相同的方式对计算结果进行排序并采用前 项

11、作为候选语义相关性向量组合.采用线性融合来协调语义匹配信息和重要性匹配信息之间的关系并得到查询扩展词 的向量组合如公式()所示:()()其中 和 表示对 和 的归一化处理以便更公平地进行线性融合计算 为 和 分配合理权重的参数.改进的 模型在 模型中假设某个查询、相关文档 和不相关文档 是已知的使用 得到一个完整的扩展查询 如公式()所示:()不相关文档对最终扩展查询影响较小因此本文忽略了不相关文档的复杂计算即公式简化如公式()所示:()本文提出了一个基于 语义增强的 模型将查询词的概念语义信息集成到传统的模型中表示原始查询表示由第一次检索反馈文档中基于构造的语义扩展词以及基于词频或词分布的扩

12、展词集合根据来自伪文档的扩展查询 以及原始查询 可以得到如下基于 语义信息的新查询如公式()所示:()其中 和 是取值范围为 到 的调整参数具体来说参数 用于调整原始查询和反馈信息的相对贡献由于扩展项以两种方式提取和加权还引入了一个参数 来平衡相应模型分量的贡献:第一次检索反馈文档中基于 构造的语义扩展词以及基于词频或词分布的扩展词集合伪相关文档 对于扩展查询词的选择非常重要本文选择 完成第一轮信息检索并选定排名前 个文档作为伪相关文档.使用 对优化后的扩展查询进行第二轮信息检索从而公平地比较优化方案的可行性 实验与分析本节主要对所提出的伪相关反馈信息检索方法在 数据集上开展实验 首先将介绍数

13、据集和实验过程除此之外还将与基线模型、先进模型和神经模型在 和 两个指标上进行结果分析并进行参数敏感性分析.数据集在实验中使用了文本检索会议 提供的国际标准数据集为了便于客观评估模型的效果本文选取了一些具有代表性的数据集:、和.数据集为 年美联社发表的文集 数据集为 年到 年美联社所出版的刊物文章 数据集包含多元新闻专线文章如美联社()、华尔街日报()和金融时报()集合包含来自专线 ()的新闻 为华尔街日报()新闻 数据集是在互联网上爬取的 小规模 网页 表 为六个数据集的具体信息含名称、数据集文档数、查询编号范围以及查询个数:表 数据集信息数据集大小/查询查询数量文档数量.实验流程实验过程分

14、为以下六大部分:)语料预处理与索引建立事实证明语料集通常伴随多种影响检索结果的噪音如无意义的网页标签、符号、网址以及邮箱地址等这些与查询主题无关的信息 通常在实验前研究人员常会采取数据集预处理来减轻噪音影响 除此之外一般还会进行去停用词和词干化的操作 在检索过程中词频和逆文档词频尤为重要而数据预处理有助于系统快速获得这些信息实验中本文使用 来建立数据集索引 预处理的清除噪音操作在索引前处理而去停用词和词干化是由 分析器完成)第一次检索通常在伪相关反馈检索过程中研究人员使用 模型进行查询第一轮的检索进而获得伪相关反馈文档 具体来说本文在使用 检索模型对原始查询进行首次检索的过程中参数设置与相同

15、随后对所获的结果文档按照与查询的相关度得分排序 选取得分高的前 篇作为相关反馈文档)查询扩展 值为伪相关反馈文档的文档数量在选取的伪文档的基础上研究人员对查询扩展项进行操作 具体来说常依据 的权重分数对扩展词进行排名且最终选取排名靠前的词项作为查询扩展词项 在本文方法中通过对伪相关反馈文档进行建模获取语义级别的查询扩展词并设置了语义增强的候选扩展词数量 设置为经过预设实验见下一小节本文发现通过 获得的语义增强的候选扩展词数量 在 时效果最好最终在所有实验中将 确定为.)构建新查询向量得到扩展词后利用 框架将原始查询和扩展词计算得出新查询向量 对于原始查询检索系统往往不知道各词条的重要程度且在表

16、示查询意图时极其重要故而构建原始查询向量时每个词权重常被设置为.对于扩展词:根据 公式计算得出扩展词重要分数并将所得分数进行之间的归一化完成赋值 在 算法下利用参数 和 对原始查询向量和扩展词向量进行线性融合计算出新查询向量)第二次检索根据伪相关反馈文档通过一系列的方法计算达到对查询词进行扩展的操作最终得到一个新的查询向量利用这个新的查询向量在系统中进行又一次检索 这个过程称为伪相关反馈中的第二次检索 在第二次检索中本文还是在使用与第一轮检索相同的 模型与此同时其相关参数设置与第一次检索相同 将第二轮检索的结果文档按照得分降序排列该文档集合是检索过程最终得到的反馈文档即检索结果)参数设置及程序

17、运行本文的伪相关反馈检索实验中 和 被设置为构造原始查询和新查询的线性组合参数取值为步长为.参数 为伪相关反馈文档数量参数 为从伪相关反馈文档中选取扩展词项数量取值区间为步长为 语义扩展词数量的参数 本文取.预设实验当 反馈的语义词数量较大时可以使用的语义信息增多的同时可能会引入一些不符合用户查询意图的信息 因此本文设计预设实验:在 中获取查询的语义项时将每个查询词的反馈词数设置为、或更多 探索反馈词数量与检索性能之间的关系从而确定最佳反馈词数对 个标准数据集进行预设实验可以发现当反馈项数量过大时性能会降低 分析发现可能是由于大量反馈项会引入噪声从而对检索造成干扰 在反复调整反馈词的数量后最终

18、决定将每个查询词的语义词数设置为 当获取的语义词数大于 时取相关性最高的前 个当获取的词数小于 时取全部反馈词最优化查询相关的所有语义信息带来的效果.与基线模型对比在本节中我们将给出所提出的 模型结果 表 和表 分别展示了 与各个对比模型在 个 数据集上的实验结果包括在平均正确率()和返回前 个结果的精确率()两个指标上的实验结果 如表 和表 所示括号中的值表示相对于 和 的改进 数据右上角的“”和“”分别表示 和 在统计学上的显著改善实验结果表明在各实验数据集上本文所提出的基于 的伪相关反馈信息检索方法在效果上均优于基线模型 具体来说在 评价指标上本文的方法在各实验数据集上的性能均有提升 例

19、如在 数据集上基于 的伪相关反馈信息检索方法较之 和 方法分别提高了.和.在数据集 上分别提高了.和.在数据集 上提高了.和.在数据集 上提高的百分比达到了.和.在数据集 上为.和.在数据集 分别提高了.和.对于评测指标 来说在各数据集上相比较于基线模型本文方法在各个数据集上均有提升表 、和 模型在 个数据集上的 值结果 .(.).(.).(.).(.).(.).(.)表 、和 模型在 个数据集上的 值结果 .(.).(.).(.).(.).(.).(.)实验结果表明本文方法在新闻性质的数据集表现较好如新闻数据集 、以及.分析造成这种结果的可能原因认为对于新闻性质的语料集提取得更加有效另外一个

20、可能的潜在原因是新闻数据集质量普遍较好 除此之外本文还发现相比较 和 等时事新闻数据集 在(金融新闻)数据集表现略差可能的原因是金融领域专业术语和概念较为复杂在进行概念知识匹配时难度较大.与先进模型对比为了进一步验证本文所提出方法的有效性将本文方法与基于邻近感应的 模型()和词项频率变换模型()进行了比较结果如表 和表 所示 其中括号中的值表示相对于 和 的改进 数据右上角的“”和“”分别表示 和 在统计学上的显著改善 在 结果上本文方法在 数据集上性能较弱但在其他 个数据集上优于 和 .在 指标上本文方法优于 和 进一步验证了本文方法在前 个结果的精度方面也表现良好 我们分析 表现优于 的原

21、因是因为 和 只考虑了词项频率对查询扩展词选取的影响没有考虑语义信息 一般来说本文所提出的模型与其他模型相当表 、和 模型在 个数据集上的 值结果 .(.).(.).(.).(.).(.).(.)表 、和 模型在 个数据集上的 值结果 .(.).(.).(.).(.).(.).(.).与神经模型对比为了进一步验证模型的有效性将本文方法与神经模型进行了比较 如表 所示数据右上角的“”和“”表示与 和 相比(标记测试 .)在统计意义上显著的改进 在 上本文所提出的方法性能在 数据集和 数据集上优于 和.和 使用的是语义匹配方法 和 通过计算查询和文档之间的语义向量之间的余弦相似度来进行检索考虑了一

22、词多义和多词同义等语义问题对检索的影响考虑了文本上下文的语义信息但是没有充分利用语义信息来帮助原始查询进行查询扩展我们分析带有属性关系和语义信息的查询扩展环节才是帮助检索系统结果提升的原因 实验结果表明结合语义匹配的 模型是有效的表 、和 模型在 和 数据集上的 值结果.(.).(.).参数敏感度在本文方法中调整参数 和反馈词项数量 可能是影响鲁棒性的重要因素如图 所示 为外部查询扩展的权重 的增加意味着外部语义信息的增强 为二轮检索前查询扩展词的数量在 个数据集上的实验发现 最佳范围为.此时 指标具有最佳性能过高的 值可能会导致噪声增多根据参数 的变化对 个数据集的影响发现 在区间 时上具有

23、最佳值模型效果更好图 模型的参数 和不同 值在六个数据集上的敏感度分析 结论以及展望本文围绕信息检索中的伪相关反馈和语义信息展开研究提出了一种增强语义信息重要性的伪相关反馈模型 具体来说在利用 提供语义信息时不仅考虑语义信息还考虑了反馈项引入的噪声对检索性能的影响能更精准的捕获查询意图 将上述语义信息集成到伪相关反馈方法中能够有效改善查询扩展词的选择 在 个 数据集中的实验结果表明本文提出的方法是可行的在 和 方面可与强基线、最先进的模型和几种基于神经网络的模型相媲美在未来的工作中计划在更多更大的数据集(如金融数据集、医学数据集)上进行实验以评估本文方法的实用性 拟采用深度学习方法来进一步优化

24、查询扩展项的权重分布改善模型的性能 此外对于引入外部语义信息引起的语义噪声问题后续将探寻更合适的解决方案参考文献:./.:():./.:.():./:./:.():.:./.王雪彦何婷婷黄翔等.基于文档内位置关系的伪相关反馈方法.山东大学学报(理学版)():.():.():.:./.潘敏.基于潜在语义关系的伪相关反馈查询扩展技术研究.武汉:华中师范大学国家数字化学习工程技术研究中心.:./:./:./.:.:./.:/:():.:/.:./.():.():.:./.:/.:./:.():.():./:./:.():.:/:./:.:/:.:/:./:./.:./:.:.():.().()().:

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2