首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 47 毫秒
1.
基于Lucene 网页排序算法的改进   总被引:3,自引:1,他引:2  
在分析现有的词频位置加权排序法、Direct Hit算法、PageRank算法和Lucene的网页排序算法后,将这三种著名的算法思想运用到Lucene的网页排序算法中,并设计了一个基于Lucene的糖业专业搜索引擎,重点介绍该搜索引擎的检索功能。最后,通过在所设计好的糖业专业搜索引擎进行实验,验证改进后Lucene的网页排序算法,实验结果表明改进后的排序算法能够提高检索结果的质量,能够更准确地将结果信息反馈给用户。  相似文献   

2.
通用搜索引擎在检索过程中会出现查询结果与关键词所属领域无关的主题漂移现象.本文提出了面向特定领域的网页重排序算法-TSRR(Topic Sensitive Re-Ranking)算法,从一个新的视角对主题漂移问题加以解决. TSRR算法设计一种独立于网页排序的模型,用来表示领域,然后建立网页信息模型,在用户检索过程中结合领域向量模型和网页信息模型对网页搜索结果进行重排序.在爬取的特定领域的数据集上,以用户满意度和准确率为标准进行评估,实验结果表明,本文中提出的TSRR算法性能优异,比经典的基于Lucene的排序算法在用户满意度上平均提高17.3%,在准确率上平均提高41.9%.  相似文献   

3.
随着Internet的迅猛发展,网络信息呈爆炸式增长。Web信息检索是一个从Web海量数据中检索用户感兴趣信息的综合技术,它从一定程度上满足了用户对信息的需求,但返回页面的数量依然十分巨大。如何对搜索结果进行排序已成为影响搜索质量的一个重要问题。本文介绍了两种页面排序算法PageRank和HITS,并对网页排序算法的若干改进进行了讨论。  相似文献   

4.
PageRank算法对页面评价太过客观,对不同重要程度的网页被授予相同的权重,并且在排序时,一些旧的页面经常出现在Web检索结果的前面,而新加入的高质量页面用户很难找到.针对Pagerank算法存在的这些缺陷,引入时间维加权概念,开发出TimedWPR算法,同时保证了两种页面的排序优化.该算法采用服务器反馈回来的网页修改时间表示网页年龄,并在此基础上对网络的组织结构和链接质量以及时间序列进行挖掘,从而克服现有Web超链接分析中的不足.  相似文献   

5.
搜索结果的可靠性是影响广大网民使用搜索引擎的一项重要指标。在开源 OPIC 算法的基础上,提出了TS 算法,该算法通过基于索引属性的改进,加入网页的创建时间和网页深度两个属性,使得网页的评分不仅仅局限于网页的链接,实现了网页评分因素的多元化。而网页最后的排序分值在原有OPIC算法的基础上与网页创建时间成正比,与网页深度成反比,有效改善了OPIC算法偏重历史网页的缺点,使搜索结果更加合理。最后,对TS算法进行效果演化,经过与传统搜索结果的分析对比,显示本算法返回的结果具有更高的可靠性。  相似文献   

6.
针对传统网页排序算法Okapi BM25通常会出现网页与查询关键词领域无关的领域漂移现象,以及改进算法需要人工建立领域向量的问题,提出了一种基于BM25和Softmax回归分类模型的网页搜索排序算法。该方法首先对网页文本进行数据预处理并利用词袋模型进行网页文本的向量表示,之后通过少量的网页数据来训练Softmax回归分类模型,来预测测试网页数据的类别分数,并与BM25信息检索的分数结合在一起,得到最终的网页排序结果。实验结果显示该检索算法无须人工建立领域向量,即可达到很好的网页排序结果。  相似文献   

7.
针对Google PageRank算法中存在的“平均分配原则”及网络链接结构所造成的“旧网页问题”、“主题漂移问题”,提出一种改进的网页排序算法N-PageRank.该算法通过对搜索日志进行数据挖掘,捕捉用户与搜索引擎之间的交互过程,发现隐藏在用户搜索行为背后的用户兴趣和搜索规律,利用用户行为反馈模型,分析网络日志里用户的各项行为特点,改善了排序结果的准确率,保证了搜索引擎的返回结果正是用户所希望看到的网页.实验证明该算法有效地降低了网页排序时的客观因素的影响,充分考虑了用户对于网页质量的评价,所得到的排序结果更加能够满足用户的需求.  相似文献   

8.
工程数据大量存在于现代生产制造企业。传统工程数据上沿用的关键字查询方法具有难以处理各种异构文档、无法识别关键字在工程领域的语义等缺陷。针对此,提出一种新的工程数据关键字检索方法。该方法先通过建立代表工程数据的本体,对各种异构的工程文档用适合的工具提取文本信息,建立XML快照。XML快照为索引关键字标注了相对应的本体概念。检索框架首先将用户的查询关键字匹配到本体的概念上,在匹配的过程中,提出一种算法消减关键字的语义混淆。在此基础上,提出一种排序模型,该模型对符合查询的XML快照进行打分排序,打分着重考虑了快照在语义上满足关键字查询的程度。检索框架最后排序并返回快照对应的原始文档给用户,使异构的工程数据文档能被统一处理和查询。该方法在工程数据上的检索结果查全率、查准率高,检索结果排序合理,能适用于实际企业中的大量工程数据文档,解决了传统工程数据检索的不足。实验使用了实际数据集,验证说明了该方法的实际有效性和性能上的高效性。  相似文献   

9.
基于网站影响力的网页排序算法   总被引:1,自引:0,他引:1  
张芳  郭常盈 《计算机应用》2012,32(6):1666-1669
传统的排序算法主要是根据网页之间的链接关系进行排序,没有考虑到网站与网页之间互相增强的关系和用户对网页的重要性的评价。为此提出了一种基于更新时间、网页权威性和用户对网页的反映的相关排序算法。该算法以网站为节点计算每个网站权威值,在为网页分配权威值时考虑了网页在网站内的位置和用户对其的反映,并通过网站与网页之间相互影响的关系来相互反馈。实验结果表明,与传统的PageRank、HITS等排序算法相比,该算法在检索性能上有明显提高。  相似文献   

10.
为了提高网页排序算法的效率,提高搜索引擎的检索质量,提出了融合反馈信息与内容相关度的PageRank改进算法。利用向量空间模型计算网页之间的主题相关性,得到网页的主题相关度权值。通过对网页被点击次数进行统计分析,得到网页点击量的增量权值。将这两个权值结合共同影响网页的PR(PageRank)值分配。通过仿真实验得到运用该算法后的实验结果,与其它算法的实验结果进行了比较,验证了该算法优于其它算法。  相似文献   

11.
一种基因与蚁群的融合算法研究   总被引:1,自引:0,他引:1  
林振荣 《微计算机信息》2007,23(36):176-177,200
蚁群算法具有分布式并行搜索能力,通过信息素的积累和更新收敛于最优路径上,但初期信息素匮乏,收敛较慢。提出一种基因算法与蚁群算法融合的算法,将基因算法加入蚁群算法的每一次迭代中,利用基因算法快速收敛的优点,来加快蚁群系统的收敛速度;且基因算法中的变异机制,有利于提高蚁群算法跳出局部最优的能力。优势互补,实验结果表明该基因蚁群融合算法在寻优能力和收敛速度上都比基因算法和蚁群算法有较大的提高。  相似文献   

12.
花授粉算法是一种新的启发式算法,由于存在易陷入局部最优且演化后期收敛速度慢等缺陷,导致算法的寻优能力受到限制。针对该算法存在的不足,在局部授粉过程中引入自适应的变异因子,并对花授粉算法中的转换概率进行自适应调整后,将其与萤火虫算法相结合,提出了一种基于萤火虫算法的改进花授粉算法;最后,通过经典的标准测试函数对新提出的算法与DE-FPA、PSO-FPA做比较实验。实验结果表明,改进后的算法比基本花授粉算法具有更高的收敛精度和稳定性。  相似文献   

13.
一种改进的遗传算法:GA-EO算法   总被引:1,自引:1,他引:0  
针对基本遗传算法(GA)有局部搜索能力差、计算量大、对较大搜索空间适应能力差和易收敛于局部极小值等问题,采用将极值优化(EO)算法与传统遗传算法相结合的方式,对基本遗传算法进行改进,提出了一种新的算法:GA-EO算法,并用实验证明了新算法的有效性。  相似文献   

14.
从优化算法应该具有的共性出发,提出一种全新的算法——学习算法(LA)。该算法记录历史最优解和当前最优解这两组关键历史信息,然后让当前解向这两种最优解聚集(即学习的过程);同时为了不放弃其他区域的搜索,让当前解的一部分完全随机地被重置。该算法原理简单,可调参数少且各参数对算法效能的影响易于掌控。在多最优函数以及复杂函数的最小化测试中,通过与GA、PSO的比较,发现LA确实是一种有效的优化算法,其优化效率并不低于现有算法。数值实验还表明,LA在多最优解问题的寻优中相对GA和PSO具有非常明显的优势。  相似文献   

15.
基于Apriori算法的改进算法   总被引:2,自引:0,他引:2  
关联规则挖掘是数据挖掘研究的一项重要内容.为了快速挖掘关联规则,分析了挖掘关联规则的Apriori算法,并在此基础上给出了一种改进的算法:NApriori算法,利用频繁1项集重新组织事务数据库来挖掘关联规则,此方法仅需扫描数据库2次,且避免了Apriori算法繁琐的连接和删除步骤,实验结果表明此方法比Apriori算法有更好的性能.  相似文献   

16.
基于文化算法和改进差分进化算法的混合算法   总被引:1,自引:0,他引:1  
黄福令  高慧敏 《计算机应用》2009,29(5):1264-1269
改进差分进化算法不能有效利用进化过程中的知识,传统文化算法进化后期收敛速度较慢。针对这些问题提出一种基于文化算法和改进差分进化算法的混合算法,并将这一算法应用于约束求解问题。对基准函数和丁烯烷化生产调度问题进行仿真,结果表明该混合算法具有较好的实用性和稳健性,在寻优效率和优化结果方面都优于与之比较的算法,并降低了计算量。  相似文献   

17.
根据蚁群算法与模拟退火算法的特性,提出了求解旅行商问题的混合算法.由模拟退火算法生成信息素分布,然后由蚁群算法根据累计更新的信息素找出若干组解,再经过模拟退火算法在邻域内找另外一个解的操作,得到更有效的解.与模拟退火算法、标准遗传算法、蚁群算法和随机初始化的蚁群算法进行比较,4种混合算法效果都比较好,策略D的混合算法效果最好.  相似文献   

18.
提出了一种融合蚁群系统、免疫算法和遗传算法的混合算法。将免疫算法和遗传算法引入到每次蚁群迭代的过程中,利用免疫算法的局部优化能力和遗传算法的全局搜索能力,来提高蚁群系统的收敛速度。该算法通过遗传算法的选择、交叉、变异操作和免疫算法的自适应疫苗接种操作,有效地解决了蚁群系统的易陷入局部最优和易退化的缺点。通过对旅行商问题的仿真实验表明该算法具有非常好的收敛速度和全局最优解的搜索能力。  相似文献   

19.
基于遗传蚁群算法的QoS路由算法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
利用遗传算法的快速全局搜索能力和蚁群算法的正反馈收敛机制,引入遗传蚁群算法(Genetic Algorithm Ant Colony algorithm)GAAC来解决QoS路由问题。算法设计的基本思想是首先由遗传算法产生较优解,较优的路径留下信息素,其他路径不改变,然后在有一定初始信息素分布的情况下,用蚁群算法求精解。仿真表明算法比单一采用遗传算法和蚁群算法进行路由选择具有更好的性能,且更适合于动态网络环境下的QoS路由选择。  相似文献   

20.
融入遗传算法的混合蚁群算法   总被引:2,自引:0,他引:2  
为了提高基本蚁群算法的收敛性能和全局求解能力,对基本蚁群算法进行了改进,提出了一类融入遗传算法的混合蚁群算法.在每代进化中保留最优解和次优解的公共解集后引入遗传操中的交叉算子和变异算子进行运算.对优秀解公共解集的保留加快了算法收敛速度,引入交叉和变异扩大了解的搜索空间,提高了解的全局性.通过对TSP问题的仿真运算表明,融入遗传算法的蚁群算法在收敛速度和解的全局性上都有较大的改善.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号