1、电视节目的个性化搜索研究摘 要电视节目是人们普遍喜欢的娱乐方式之一。然而随着电视技术的高速开展,电视节目日益丰富的,人们不知不觉中已深处在电视节目的海洋中。电视节目包含了文本字幕,因而对电视节目的查找可间接地转换为对电视文本的搜索。为了帮助用户快速地查找到喜爱的电视节目,针对电视节目的个性化搜索进行了研究,并开发了一个小型的个性化电视节目搜索原型系统。本文主要研究了基于文本的电视节目的个性化搜索,在文章最后可以看到个性化搜索算法可以显著提高搜索质量。关键词:个性化搜索,用户兴趣模型,查询扩展,用户反响一、引言电视节目是人们普通的娱乐方式;然而随着电视技术的高速开展,出现了诸如电缆、光缆、微波、
2、卫星等多种传播方式。我国的鑫诺通信卫星可可同时支持两百余套标准清晰度电视节目;人们不知不觉中已深处在电视节目的海洋中。为了帮助用户快速地查找到喜爱的个性化电视节目,针对电视节目的个性化搜索进行了研究。在我们的系统中,我们是基于如下假定:每个电视节目都有一个对应的具有固定格式且具有类别信息的描述文本,所以对电视节目的搜索可以转换为对电视文本的搜索。二、个性化搜索引擎研究综述个性化搜索引擎目的是为了建立的通用搜索引擎之上的新一代的搜索引擎,它的目标是消除当前搜索引擎缺点即结果相关性低和“千人一面等缺点。2.1个性化搜索框架如以下图所示,我们设计的电视节目个性化搜索系统共分为6个子系统:分别是处于最
3、底层的自然语言处理子系统和网络蜘蛛子系统、处于次底层的存储子系统和索引子系统。图2-1电视节目个性化搜索系统架构处于中间层的通用搜索系统和个性化搜索子系统,处于最高层的用户查询处理子系统。其中个性化搜索子系统又包括了四个子模块,分别为用户兴趣模型模块,用户反响模块,语义库模块和以语义库为根底的查询扩展模块。我们的系统通用搜索引擎在此根底上,添加了基于用户兴趣模型,用户查询关键字的扩展,用户相关反响等三个要素,使经典的搜索引擎具有了个性化搜索的特征。由上面可以看出,我们的电视节目个性化搜索系统是有九大模块组成的,每个模块具有各自相对对立的功能(高内聚),而各个模块间紧密联系(低耦合),一起共同实
4、现了电视节目的个性化搜索的功能。我们的系统是通过在原理的根底上增加了用户兴趣模型、用户查询扩展和用户反响等中间层的子系统来实现搜索引擎的个性化。所以接下我们将介绍整个系统各个子系统的设计和实现,并着重介绍用户兴趣模型、用户查询扩展和用户反响等中间层的子系统等三个子系统。个性化搜索的流程图图2-2个性化搜索流程图如上图所示,用户使用个性化搜索的系统的过程如下:1.首先用户必须先注册,使系统能记录你的相关信息,从而提供每个用户具有一个独立的,与众不同的搜索引擎。2.用户通过查询界面输入查询,用户查询处理子系统会对用户查询调用自然语言处理子系统进行预处理。“用户查询扩展子模块对查询进行扩展,扩展后的
5、查询再经过“用户兴趣模型子模块进行过滤得到跟用户更相关的查询。4.初始查询请求作为输入经过通用搜索引擎子系统的处理,并获得初始的查询结果再利用“用户兴趣模型模块对初始查询结果进行重排序和过滤,得到最终的个性化查询结果。5.用户对查询结果做出反响,那些反响信息将被参加到“用户兴趣模型模块中,使其能在下一次搜索中发挥作用。三、用户反响和用户兴趣模型用户反响技术(user feedback)是在个性化搜索方面最重要的方法之一。一个搜索引擎最终返回的结果很大程度是依赖于用户的查询词。然而很少有用户能够构造理想的查询词,用户构造出来的查询词通常含义模糊。这样的原因有很多:用户的教育背景,用户对搜索引擎的
6、理解水平,用户对检索问题的掌握情况。但是用户能做的是,如果把相关文档摆在用户面前,用户是能够知道这是我想要的。因此很自然的就产生了“用户反响的想法,即通过使用用户反响来改进搜索系统的性能,提高用户的满意程度。我们定义的用户兴趣模型的信息是通过用户反响捕捉到的动态用户兴趣。我们下面主要讲述了通过学习用户显式或隐式反响来建立用户兴趣模型并动态更新用户模型的方法。我们研究的用户兴趣模型是基于如下几个方面的考虑的:用户可以具有多个不同的兴趣模型,用户兴趣模型反映了用户的兴趣和偏好;用户显式或隐式反响是将触发用户兴趣的建立或者更新,用户反响包括了显示正反响,显示负反响,隐式正反响和隐式负反响四种;每一个
7、用户的兴趣模型可以通过向量空间模型来表示;文档和用户兴趣的相似度大小可以通过余弦公式来计算。图3-1用户兴趣模型结构毫无疑问,用户的兴趣是会随着户显式或隐式的反响而动态改变的,比方新兴趣的参加,旧兴趣的消失,以及原来来兴趣的减弱或者加强。因此我们的系统必须能及时调整,才能真正反映用户的兴趣爱好。用户兴趣模型学习算法描述如下:输入:反响类型fbType,被反响的文档向量空间表示fvd,学习速率注释:fbType0代表用户喜欢该反响文档,学习速率代表用户的偏好大小Find the most relevant category C in user profile PIf Relevance(C fv
8、d) o then Learn NewCatergory (P, fbType, fvd, a)Else Learn UserFeedback (P, fbType, fvd, a)End if给定一个反响文档,首先是先找到在profile中和反响文档最相关的兴趣类别C。如果相关度最大兴趣类别的值小于一定的阈值那么建立一个新的兴趣类别;否那么该兴趣类别将根据反响类型fbType的值和学习速率进行相应的修改。四、用户查询扩展用户使用搜索引擎获得的搜索结果相关性上下往往和关键字的选取有很大关系。然而受用户的教育背景,用户对搜索引擎的理解水平及用户对检索问题的掌握情况等多方面因素的限制。因而很少用户
9、能够构造理想的查询词,因此个性化的搜索系统必须要能够理解用户的搜索意图,主动向用户推荐相关度较好的关键字。我们知道自然语言的词语之间有着非常复杂的关系,在实际的应用中,有时需要把这种复杂的关系用一种简单的数量来度量,而词语相似度的量化就是其中的一种。如果能把获得和用户查询关键字相似度高的词语,无疑能提高用户的查询结果。另外,我们可以像Baidu那样从用户查询日志里面提取“相关搜索“来实现用户查询的扩展。我们的系统采用了两种方法来进行查询扩展:1采用Corpus来获得某个词语的相似词语,来实现查询的扩展。2采用基于关键字的相似性和IDF的方法来实现关键字的扩展。通过对用户查询关键字进行扩展,得到
10、潜在的用户查询意图并经过用户兴趣模型的过滤得到用户个性化的关键字推荐。由前面章节讨论可以知道,用户查询扩展主要借助Corpus库对用户查询的关键字进行扩展,实现向用户主动推荐可能满足用户意图的关键字功能。基于Corpus的查询扩展子系统结构Corpus是在大规模语料库中统计的来得丰富信息进行筛选并存储,作为词和词之间相似度量化的信息根底。如以下图所示,corpus库用于把浩瀚的语料库中所蕴含的词和词之间的关系通过统计的方法提取出来并进行存储,然后为上层的词语关系量化计算提供支持。图4-1 Corpus库介绍图4-2基于Corpus的查询扩展子系统结构图图4-3 Corpus库结构该子系统主要使
11、用了下层Corpus库提供的单词扩展接口,该函数返回和输入单词相似度最高的10个单词,从而实现了对查询的扩展,因而可能得到更符合用户潜在需求的查询关键字。五、实验与数据分析为了验证我们个性化搜索系统原型,我们进行了一些模拟实验。我们的实验过程如下:图5-1实验流程图系统的测试是通过志愿者来人工判读搜索结果的好坏的。测试的结果和语料以测试者的主观判读有很大的关系。实验结果说明,使用个性化的搜索的结果比通用搜索的结果平均满意程度要高10%。图5-2结果比照除此之外,我们电视化个性化搜索系统的结果的精度与学习速率以及兴趣类别阈值具有很大的关系。图5-3学习速率和用户满意程度的关系实验结果说明,用户的
12、满意程度随着学习速率的降低而增大。图5-4兴趣类别阈值和结果精度之间关系而查询结果精度随着兴趣类别的阈值增大而有增长趋势。六、总结个性化搜索是当今搜索引擎领域热门的研究方向之一。在本文中,我们研究了通过用户兴趣模型过滤搜索结果、通过使用用户反响改进搜索质量、通过用户扩展捕捉用户查询意图等途径来共同实现电视节目的个性化搜索的方法。我们通过用户反响得到的文档来建立用户兴趣模型来表示用户的个性化信息。另外,通过对用户查询关键字进行扩展,得到潜在的用户查询意图并经过用户兴趣模型的过滤得到用户个性化的关键字推荐。用户个性化的兴趣模型是我们研究的核心,它对能否实现个性化搜索具有重要的意义。基于用户的兴趣是多样并且是多变的事实,我们使用用户兴趣模型来代表用户多样且多变的兴趣分类。每个兴趣分类由含短期正兴趣描述向量、短期负兴趣描述向量以及长期兴趣描述向量等3局部组成。实验结果说明,我们设计的出的个性化搜索系统能显著提高用户的查询体验。参考文献1艾瑞发布的2023年第三季度搜索引擎市场报告.3杜小勇.下一代搜索引擎,中国传媒科技.45宋懿,国德峰.基于压缩倒排文件的中文全文检索仿真系统.计算机工程.2023(12)6龚笔宏.基于用户反响的个性化检索技术研究.北京大学博士论文,2023,pp.92.