首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
通过对网页用户角色的分析发现,传统的基于PageRank算法的搜索引擎结果排序欠佳,是因为其没有兼顾所有角色对网页重要性的评价。为此,提出一种结合了所有角色评价的综合网页排序算法——ComPageRank(CPR)算法和一种基于点击量分析的Click- throughRank(CTR)算法。实验结果表明,相比PageRank为代表的网页排序算法,CPR算法更全面、合理。  相似文献   

2.
智能信息搜索系统中对搜索结果的排序策略   总被引:4,自引:0,他引:4  
在搜索引擎系统中,如何对搜索结果进行排序在很大程度上影响了用户所得到的搜索结果,科学、合理地对搜索结果进行排序对一个搜索引擎的成功与否非常重要。文中对链接评价、词频统计规则的原理和实现进行了分析,并提出了一种基于个性化搜索的排序规则,最后对这三种规则进行了综合,提出综合的排序策略。  相似文献   

3.
一种改进的搜索引擎网页排序算法   总被引:1,自引:0,他引:1  
本文在分析目前流行的基于链接分析的搜索引擎网页排序算法的基础上,指出基于链接分析网页排序算法未充分考虑网站性能因素.针对这一缺点,本文提出了一种改进的网页排序算法,它考虑了网站的性能等因素,对提高搜索引擎的服务质量有很好的参考价值.  相似文献   

4.
基于Lucene 网页排序算法的改进   总被引:2,自引:1,他引:2  
在分析现有的词频位置加权排序法、Direct Hit算法、PageRank算法和Lucene的网页排序算法后,将这三种著名的算法思想运用到Lucene的网页排序算法中,并设计了一个基于Lucene的糖业专业搜索引擎,重点介绍该搜索引擎的检索功能。最后,通过在所设计好的糖业专业搜索引擎进行实验,验证改进后Lucene的网页排序算法,实验结果表明改进后的排序算法能够提高检索结果的质量,能够更准确地将结果信息反馈给用户。  相似文献   

5.
林欣  温传林  韩立新 《微机发展》2013,(2):41-43,48
元搜索引擎并行地向各个成员搜索引擎发出请求,合并及处理所有成员引擎的返回结果。相对于传统搜索引擎,元搜索引擎具有更好的查全率但在结果相关度排序及查准率方面仍需要改善。就相关度排序及查准率方面的问题元搜索成员引擎对于各个不同主题具有不同的检索质量并就此提出一种基于主题偏好的排序方法。利用Beeferman聚类方法对检索主题划分,通过Borda排序算法对元搜索引擎获得条目进行基于主题的分类排序,以此来提高元搜索查询质量和改善用户体验。  相似文献   

6.
SHITS:一种基于超链接和内容的网页排序方法   总被引:2,自引:0,他引:2  
回顾了当前应用于大型搜索引擎的主流网页排序算法,对其中的ARC算法进行了改进,提出了一种基于超链接和内容的网页排序算法--SHITS(Similarity—HITS)算法.SHITS算法用超链接所引用的网页内容代替了ARC算法中所采用的锚文本来评估该超链接的重要性,这一改进不仅提高了算法区分链接重要性的能力,也避免了对大量锚文本内容的分析.通过与相关算法的对比实验,结果表明:SHITS算法网页排序的准确率明显优于其它算法.此外,SHITS算法也具有较好的效率:计算代价小于ARC算法,与HITS算法相当.  相似文献   

7.
通用搜索引擎在检索过程中会出现查询结果与关键词所属领域无关的主题漂移现象.本文提出了面向特定领域的网页重排序算法-TSRR(Topic Sensitive Re-Ranking)算法,从一个新的视角对主题漂移问题加以解决. TSRR算法设计一种独立于网页排序的模型,用来表示领域,然后建立网页信息模型,在用户检索过程中结合领域向量模型和网页信息模型对网页搜索结果进行重排序.在爬取的特定领域的数据集上,以用户满意度和准确率为标准进行评估,实验结果表明,本文中提出的TSRR算法性能优异,比经典的基于Lucene的排序算法在用户满意度上平均提高17.3%,在准确率上平均提高41.9%.  相似文献   

8.
针对传统网页排序算法Okapi BM25通常会出现网页与查询关键词领域无关的领域漂移现象,以及改进算法需要人工建立领域向量的问题,提出了一种基于BM25和Softmax回归分类模型的网页搜索排序算法。该方法首先对网页文本进行数据预处理并利用词袋模型进行网页文本的向量表示,之后通过少量的网页数据来训练Softmax回归分类模型,来预测测试网页数据的类别分数,并与BM25信息检索的分数结合在一起,得到最终的网页排序结果。实验结果显示该检索算法无须人工建立领域向量,即可达到很好的网页排序结果。  相似文献   

9.
介绍大型搜索引擎应用的主流网页排序算法,改进其中的HITSS算法,提出一种基于网页分块技术的BHITS算法。BHITS算法通过对分好的页面板块进行主题标定,根据待采集信息的主题为不同主题的板块设定不同的权值实现相关度判定,在保持算法高效率的前提下,提高了算法区分链接重要性的能力。与相关算法的对比实验结果表明,BHITS算法网页排序的准确率明显优于其他算法。  相似文献   

10.
该文基于传统的PageRank链接分析原理,分析了PageRank在页面主题内容分析方面的不足之处,结合传统的基于内容的VSM文本分析模型.提出了一种基于向量空间模型的主题算法,并通过实验对改算法的性能进行分析。  相似文献   

11.
搜索引擎结果中Web文档的排序研究   总被引:1,自引:0,他引:1  
信息检索结果中,如何对检索结果进行排序在很大程度上影响了用户所得到的检索结果。对现存典型的词频统计排序技术和超链分析排序技术进行了分析,并借助向量空间模型,提出了一种基于概念语义的查询词-文档相似度排序方法。  相似文献   

12.
现有的搜索引擎查询结果聚类算法大多针对用户查询生成的网页摘要进行聚类,由于网页摘要篇幅较短,质量良莠不齐,聚类效果难以有较大的提高(比如后缀树算法,Lingo算法);而传统的基于全文的聚类算法运算复杂度较高,且难以生成高质量的类别标签,无法满足在线聚类的需求(比如KMeans算法)。该文提出一种基于全文最大频繁项集的网页在线聚类算法MFIC (Maximal Frequent Itemset Clustering)。算法首先基于全文挖掘最大频繁项集,然后依据网页集合之间最大频繁项集的共享关系进行聚类,最后依据类别包含的频繁项生成类别标签。实验结果表明MFIC算法降低了基于网页全文聚类的时间,聚类精度提高15%左右,且能生成可读性较好的类别标签。  相似文献   

13.
以Web 2.0中用户行为作为研究对象,通过发掘用户反馈方式,提出用户反馈分值的概念,对用户反馈影响搜索结果排名的具体方法以及相应实现进行研究,提出了一种基于神经网络的网页排序算法。该算法引入BP神经网络模型,根据用户反馈分值选择样本训练神经网络。将传统搜索结果输入到经过训练的神经网络进行计算,根据计算出的结果所表示的网页相关性强弱判断后进行二次排序。该算法利用了神经网络具有的模式识别能力,有效地将用户反馈和搜索引擎结合起来,使得搜索结果更加符合用户的搜索要求。  相似文献   

14.
展开了对互联网搜索引擎结果集的智能排序研究,提出了一种基于扩展网页质量和VIPS分块算法的智能网页排序算法,并对结果进行净化处理以及查询优化。实验结果表明研究提出的新算法提高了推荐精度。  相似文献   

15.
王非  吴庆波  杨沙洲 《计算机工程》2009,35(21):247-249
网页排序技术是搜索引擎的核心技术之一。描述Web2.0社区构建语义搜索的必要性,分析影响网页排序的因素,将搜索引擎的排序算法借鉴到基于Web2.0社区的搜索模块中,以改进的TF/IDF和PageRank算法为基础,在一个Web2.0开源社区开发平台上实现基于语义排序的搜索模块。测试结果表明,该排序算法具有内容定位精确、有效结果靠前的特点。  相似文献   

16.
针对XML文档集的关键词检索结果排序   总被引:1,自引:0,他引:1       下载免费PDF全文
探讨了针对XML文档集中只与内容相关的关键词检索结果的排序问题,针对XML文档特征提出了一种新的排序模型,它不同于面向Web的XML网页的搜索结果的排序。设计了满足这种排序模型的倒排列表索引结构和搜索引擎的体系结构。  相似文献   

17.
孔德镛  张建军 《计算机工程》2010,36(19):203-204,207
针对元搜索引擎的查准率等问题,分析专业元搜索引擎返回结果的专业相关度问题,提出一种基于遗传算法的网页排序算法,讨论算法的原理及实现过程。在独立搜索引擎返回结果中,挖掘除位置信息以外的其他信息,利用遗传算法建立专业网页相关度模型,对网页的专业相关度进行计算。实验结果表明该算法效果较好。  相似文献   

18.
提出一种新的网页排序方法-ClusterRank方法。该方法先对检索结果进行文本挖掘,然后利用Web网页的链接信息以及用户点击率对网页重要性的影响对挖掘结果进行排序。该算法可以引导用户进一步明确其检索需求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号