首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
目前大部分搜索引擎对于用户查询返回结果的差异依赖于查询词.而实际上,即便查询词相同,不同的用户潜在的信息需求可能不同.搜索引擎并不能针对用户的特点提供个性化的服务,大多数返回的文档都是与用户的需求不相关的.提出"搜索系统错误的目标定位是导致用户体验不佳的根本原因".因此,设计一个面向用户的排序算法来解决个性化服务的问题是十分必要的.提出的面向用户排序算法将概率排序原则返回的原始列表重新排序,将用户兴趣向量作为列表重排的参数之一,使之能够向用户提供特定服务,满足用户潜在信息需求.通过分析用户的查询和浏览的文档,为用户建立并维护一个用户兴趣向量,以此作为面向用户排序的基础.实验证明了该方法具有更优的性能.  相似文献   

2.
随着Web技术的迅速发展,提供个性化服务的搜索引擎技术受到用户的广泛关注,网页排序是其中的关键技术之一。本文利用PageRank算法对原有的Lucene网页排序进行了改进,设计并实现了关于手机信息搜索的个性化搜索引擎。实验结果证明,改进后的排序算法能够较好地提高信息检索的准确度,为用户带来了优于Lucene自身排序的搜索体验。  相似文献   

3.
针对传统方法不能很好地处理网页中简短域和用户查询之间的相关性排序问题,提出一种改进的编辑距离(MED)排序算法,在编码和计算过程中引入查询词分布的位置、顺序和距离等信息,将查询和简短域之间的相关性问题转化为编码字符串的相似性问题。仿真实验结果表明,与传统的相关性排序算法相比,该算法可以提高网页搜索中简短网页域的相关性排序性能。  相似文献   

4.
胡小生  钟勇 《计算机应用》2012,32(12):3331-3334
当前排序学习算法在学习时将样本集中的所有查询及其相关文档等同对待,忽略了查询之间以及其相关文档之间的差异性,影响了排序模型的性能。对查询之间的差异进行分析,同时考虑文档排序位置造成的资料被检视概率不同的差异特性,提出了一种两层加权融合的排序方法。该方法为每一个查询及其相关文档建立一个子排序模型,在此过程中,对文档赋予非对称权重,然后通过建立新的损失函数作为优化目标,利用损失函数调节不同查询产生损失之间的权重,最终实现多查询相关排序模型的加权融合。在标准数据集LETOR OHSUMED上的实验结果表明,所提方法在排序性能上有较大提升。  相似文献   

5.
查询扩展作为一门重要的信息检索技术,是以用户查询为基础,通过一定策略在原始查询中加入一些相关的扩展词,从而使得查询能够更加准确地描述用户信息需求。排序学习方法利用机器学习的知识构造排序模型对数据进行排序,是当前机器学习与信息检索交叉领域的研究热点。该文尝试利用伪相关反馈技术,在查询扩展中引入排序学习算法,从文档集合中提取与扩展词相关的特征,训练针对于扩展词的排序模型,并利用排序模型对新查询的扩展词集合进行重新排序,将排序后的扩展词根据排序得分赋予相应的权重,加入到原始查询中进行二次检索,从而提高信息检索的准确率。在TREC数据集合上的实验结果表明,引入排序学习算法有助于提高伪相关反馈的检索性能。  相似文献   

6.
基于Lucene 网页排序算法的改进   总被引:2,自引:1,他引:2  
在分析现有的词频位置加权排序法、Direct Hit算法、PageRank算法和Lucene的网页排序算法后,将这三种著名的算法思想运用到Lucene的网页排序算法中,并设计了一个基于Lucene的糖业专业搜索引擎,重点介绍该搜索引擎的检索功能。最后,通过在所设计好的糖业专业搜索引擎进行实验,验证改进后Lucene的网页排序算法,实验结果表明改进后的排序算法能够提高检索结果的质量,能够更准确地将结果信息反馈给用户。  相似文献   

7.
相关反馈方法作为查询扩展方法中的一种,已有向量空间模型中的Rocchio相关反馈算法、概率模型中的BIM(binary independence model,二值独立模型)、语言模型中的相关性模型(relevance model,RM)等算法模型。为进一步提高查询的准确率,文章提出一种结合主观Bayes方法和相关反馈技术的文档重排序算法,利用语言模型中RM3算法返回的扩展词项结合反馈文档集对文档重排序。实验中使用语言模型为基线方法,使用RM3方法为对比方法,通过与语言模型和RM3方法的比较表明本方法表现良好,在前N篇返回文档的正确率上优于语言模型和RM3方法。  相似文献   

8.
周诗龙  徐俊刚 《软件学报》2013,24(S2):150-161
目前,微博搜索大多应用向量空间模型计算查询词与文档间的相关程度,通常使用TF-IDF(termfrequency-inverse document frequency)统计方法来确定词的权重.然而仅使用词进行微博搜索并不能检测到某条微博的信息含量,而这些往往是查询用户所关注的问题.为此提出了一种基于分析特征与动态步长的微博排序学习算法.首先,定义了一些微博分析特征,经过统计分析获得的这些分析特征可以用来预测用户行为;其次,在此基础上,提出了以词性为单位计算微博相关度的方法,结合信息熵计算方法得到微博词性信息的含量,并用来预测该微博的信息含量;最后,在现有ListNet排序学习算法的基础上,引入了动态步长的概念,对步长进行了动态优化,最终形成了一种基于动态步长的微博排序学习算法——RDLS(ranking based on dynamic learning stepsize)算法.实验结果表明,无论是基于直接特征还是加入分析特征,在相同迭代轮数情况下,相比ListNet算法,RDLS 算法可以训练出更优的模型,在微博排序方面有更好的表现.  相似文献   

9.
针对传统网页排序算法Okapi BM25通常会出现网页与查询关键词领域无关的领域漂移现象,以及改进算法需要人工建立领域向量的问题,提出了一种基于BM25和Softmax回归分类模型的网页搜索排序算法。该方法首先对网页文本进行数据预处理并利用词袋模型进行网页文本的向量表示,之后通过少量的网页数据来训练Softmax回归分类模型,来预测测试网页数据的类别分数,并与BM25信息检索的分数结合在一起,得到最终的网页排序结果。实验结果显示该检索算法无须人工建立领域向量,即可达到很好的网页排序结果。  相似文献   

10.
利用机器学习方法自动构建排序模型,在Pairwise方法上平等化每个查询,扩充训练集加大文档不同相关性等级间的区分度和减少不相关文档的噪声影响,利用交叉熵计算误差函数来提高排序算法的性能.在公开数据集LETOR 4.0上的实验结果显示该方法可以提高排序结果的准确率,证明本方法的有效性.  相似文献   

11.
提出了分页排序的概念和基于Quick Sorting的快速分页排序算法(Quick Page Sorting)以及基于Hinl缓存机制的算法实现技术。实验表明,在数万至数百万数据总量情况下,Quick Pagc Soring的速度比Quick Sorting快10倍左右,大大提高了应用系统的响应速度。  相似文献   

12.
排序算法研究   总被引:1,自引:0,他引:1  
排序在数据处理中占有极重要的位置,排序算法的好坏,直接影响到程序实现的复杂度。本文介绍了常用的基于比较的排序算法及非基于比较的线性排序算法,并详细讨论了各种排序法的实现思想和改进,最后对这些排序算法进行了比较。  相似文献   

13.
Sorting is a classic problem and one to which many others reduce easily. In the streaming model, however, we are allowed only one pass over the input and sublinear memory, so in general we cannot sort. In this paper we show that, to determine the sorted order of a multiset s of size n containing σ?2 distinct elements using one pass and o(nlogσ) bits of memory, it is generally necessary and sufficient that its entropy H=o(logσ). Specifically, if s={s1,…,sn} and si1,…,sin is the stable sort of s, then we can compute i1,…,in in one pass using O((H+1)n) time and O(Hn) bits of memory, with a simple combination of classic techniques. On the other hand, in the worst case it takes that much memory to compute any sorted ordering of s in one pass.  相似文献   

14.
一种节省空间的排序算法   总被引:2,自引:0,他引:2  
目前报道的一些排序算法,空间复杂度都比较大.提出了一种改进其空间复杂度的方法,其特点是算法简单、稳定,时间复杂度为O(n^2),空间复杂度为2n,达到下界.与传统的排序算法用变量与变量比较的思路不同,本文提出的是一种用变量与其分布区间进行比较的新思路.本算法特别适合那些范围确定且分布基本均匀的待排数据,也适合一般数据对象的排序.  相似文献   

15.
Sorting on STAR     
This paper gives timing comparisons for three sorting algorithms written for the CDC STAR computer. One algorithm is Hoare's Quicksort, which is the fastest or nearly the fastest sorting algorithm for most computers. A second algorithm is a vector version of Quicksort that takes advantage of the STAR's vector operations. The third algorithm is an adaptation of Batcher's sorting algorithm, which makes especially good use of vector operations but has a complexity of N (log N)2 as compared to a complexity of N log N for the Quicksort algorithms. In spite of its worse complexity, Batcher's sorting algorithm is competitive with the serial version of Quicksort for vectors up to the largest that can be treated by STAR. Vector Quicksort outperforms the other two algorithms and is generally preferred. These results indicate that unusual instruction sets can introduce biases in program execution time that counter results predicted by worst-case asymptotic complexity analysis.  相似文献   

16.
17.
一种B-快速排序算法   总被引:4,自引:2,他引:2  
陈清华  朱红  杨静宇 《计算机工程》2002,28(2):96-98,108
提出一种新的B-快速排序算法,当数集较大时其排序的速度比快速排序算法快且稳定性好,并对其排序结果与理论下界作了比较。  相似文献   

18.
19.
We consider the problem of sorting n integers when the elements are drawn from the restricted domain [1...n]. A new deterministic parallel algorithm for sorting n integers is obtained. Its running time is O(lognlog(n/logn)) using n/logn processors on EREW (exclusive read exclusive write) PRAM (parallel random access machine). Also, our algorithm was modified to become optimal when we use processors. This algorithm belongs to class EP (Efficient, Polynomial fast).  相似文献   

20.
最佳基数排序   总被引:3,自引:0,他引:3  
  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号