首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 10 毫秒
1.
林业主题搜索引擎研究   总被引:5,自引:0,他引:5  
曹红  袁津生 《计算机应用》2004,24(Z2):321-323
Web信息的急剧增长使搜索引擎专用化成为发展趋势.重点论述了主题搜索引擎的信息采集策略,并给出了一种比较理想的林业主题搜索引擎设计方案.  相似文献   

2.
为了解决传统主题爬虫效率偏低的问题,传统主题爬虫会选择最有价值的链接进行访问,仅简单地计算链接的相关性,却忽视待分析URL之间的相关性关系,致使主题爬虫爬取效率较低。提出一种基于链接模型的相关性判别算法,综合利用有标种子URL和无标的待判别URL实现对无标URL的相关性判别,并推导出迭代初值选取对结果的不敏感性。实验结果表明,与传统的网络爬虫算法相关性判别方法相比,提出的方法效率更高。  相似文献   

3.
针对元搜索引擎在个性化处理上的不足,提出了主题树的方法,把用户的查询映射到主题树上并返回相关查询,比较准确地表达了不同用户的检索需求。根据用户的浏览行为提出了准确度偏差,用户满意度的评价公式,以用户为中心反映排序是否符合用户的需要。结果排序时不仅考虑了页面的标题、摘要和用户查询的相关性,也考虑了各成员搜索引擎的原来的排序信息以及关键词出现的个数和位置。实验结果表明,该方法有效地提高了元搜索引擎的结果排序能力和个性化处理能力,结果的显示顺序基本符合用户的需要。  相似文献   

4.
计算机网络技术的飞速发展,对于搜索引擎技术也提出了更高的要求.文章主要以垂直搜索引擎的主题网页抓取策略为研究内容,从提高主题网页抓取的准确度和效率出发,引入隐马尔科夫模型,并重点讨论了该模型具体应用策略和过程,该模型的应用方法不仪分析了网页内容,还考虑网页上下文链接距离结构,在一定程度上提高了主题页面抓取的精度.  相似文献   

5.
孙长宾  柴松 《福建电脑》2011,27(3):35-37
Web信息的急剧增长使搜索引擎专用化成为发展趋势。本文重点论述了主题搜索引擎的信息采集策略,并给出了一种比较理想的军事主题搜索引擎设计方案。  相似文献   

6.
主题搜索引擎的研究   总被引:1,自引:0,他引:1  
介绍了将开源的全文检索工具包Lucene嵌入到自己的搜索引擎中来满足开发主题搜索引擎的需求.并基于Lucene中文分词的不足设计了一个比较完善的中文分词器,然后将其引入具体应用中,并且与传统搜索引擎在性能上进行了比较.  相似文献   

7.
介绍了搜索引擎个性化服务的主要技术,结合离散事件驱动模型的思想、DWR和现有搜索引擎的基本架构,设计了基于事件驱动模型的搜索引擎的系统结构,提出了一种新的搜索引擎算法,算法中,基于用户停留时间来分析用户对打开页面主题的关注程度,并结合HTML文档特点和中文写作习惯等特征,对算法中的关键词权重计算公式进行了改进,从而进一...  相似文献   

8.
基于遗传算法的主题信息搜索研究   总被引:1,自引:0,他引:1  
主题信息搜索的关键是对于主题相关信息的检索。本文提出了基于遗传算法的主题信息搜索策略,即利用通用搜索引擎获取网页URL,再根据网页间的链接关系得到初始种子集合;通过交叉操作,对父代个体进行变换,产生出大量新的个体,再从中选取主题相关度高的个体;通过变异操作,引入新种子集合,扩大URL集;通过选择操作,选出适应度高的个体作为新一代的种子进入新一轮的遗传。  相似文献   

9.
以一个自行开发的搜索引擎系统为背景研究主题提取算法.通过对几种经典主题提取算法的分析、融合,提出了一个新的主题提取算法.用该搜索引擎证明了新提出算法比经典的HITS算法在性能上有很大的提高.  相似文献   

10.
基于遗传算法的专业元搜索引擎   总被引:1,自引:0,他引:1  
赵大明  鱼滨 《计算机工程》2009,35(21):192-194
元搜索引擎返回的查询结果来自独立搜索引擎,要评价此类结果的专业相关性,必须挖掘其位置信息以外的其他信息。研究并实现面向培训领域的元搜索引擎,在充分挖掘网页文本信息的基础上,提取专业网页样本特征,结合遗传算法给出网页专业相关度算法。实验结果表明,该引擎具有较高的专业信息筛选和排序能力。  相似文献   

11.
刘博卿 《福建电脑》2011,27(9):57-58
随着互联网竞争日趋激烈,主题搜索引擎技术日渐发展。本文从基于军事角度出发,对主题搜索引擎进行系统研究,主要基于heritrix,lucene研究了军事主题搜索引擎的系统架构、搜索模块、索引和检索模块的建立。最后通过实验验证了该主题搜索引擎的优劣。  相似文献   

12.
主题网络蜘蛛的搜索策略是主题搜索引擎的核心部分,是近年来主题搜索引擎研究中的热点问题之一。深入研究了主题网络蜘蛛的关键技术,阐述了多线程网络蜘蛛的实现过程,并对传统的VSM算法和PageRank算法进行了改进,提高了主题网络蜘蛛采集信息的有效性和准确性。  相似文献   

13.
主题搜索引擎中网络爬虫的搜索策略研究   总被引:2,自引:0,他引:2       下载免费PDF全文
本文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上提出了一个面向主题搜索的网络蜘蛛模型,对模型的组织结构进行了详细阐述。作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是网络蜘蛛能够围绕设定主题进行聚焦检索的关键。在URL的主题相关性判别过程中引入了链接文本及相关链接属性分析,提出了一种新颖的URL主题相关性算法--EPR算法。  相似文献   

14.
一种基于特征符号的网页主题信息抽取方法   总被引:1,自引:0,他引:1  
王舒  朱敏  张明  牛颢  赵瑜 《计算机应用研究》2009,26(12):4539-4541
随着Internet网络的日益普及,Web上的海量数据给文本挖掘尤其是网页主题提取带来了更多的挑战,现有的文本提取方法在保证高准确率的同时无法满足Web挖掘方法的通用性。通过对Web网页结构进行研究,对网页生成树模型进行了改进,找到网页结构的通用规则,提出一种基于特征符号的提取方法CECS(content extraction characteristic symbols),结合相关度对网页主题内容进行提取。实验证明,所提算法具有很高的准确性和通用性。  相似文献   

15.
随着网络信息海量爆炸性增长,通用搜索引擎面临着索引规模、更新速度、个性化需求等多方面的挑战。面对这些挑战,适应特定主题和个性化搜索的主题爬虫应用产生。在这里它介绍了基于主题爬虫的个性化搜索引擎的体系结构、搜索策略、相关度等知识。详细的介绍了基于链接结构的搜索算法及改进策略。  相似文献   

16.
XML在网络上越来越广泛的应用,必然要求传统的搜索引擎技术作出相应的改进。本文在对XML文档结构特性分析的基础上,主要在索引词相关度计算方法方面进行了改进。  相似文献   

17.
互联网上的海量信息,至今还在快速发展,面向主题的信息检索已成为当前的研究热点之一.在提高信息检索的精度方面,一般认为本体技术是解决方法之一.在对领域本体技术和传统的基于主题的信息采集技术的基础上,设计了-个基于领域本体的信息采集模型,给出了模型的体系结构,提出了一种关键词加权的词性相关性计算方法以及利用领域本体及对应的词典判定主题相关度的算法.通过实验验证了所提出的方法在提高检索的准确率方面具有明显的优势.  相似文献   

18.
主题爬虫的设计与实现   总被引:11,自引:2,他引:11  
汪涛  樊孝忠 《计算机应用》2004,24(Z1):270-272
文章以主题相关度为核心研究了设计主题爬虫的相关技术,通过实验给出了具体实现.实验结果充分论证了其可行性与实用性,为进行主题搜索引擎设计和主题信息采集奠定了良好的基础.  相似文献   

19.
详细阐述了主题网络爬虫实现的关键技术, 将传统的空间向量模型进行改进形成自适应的空间向量模型, 结合网页内容和链接两个方面进行网页相关度计算, 设计并实现了一个面向主题的网络爬虫系统. 针对主题网络爬虫爬行中出现的页面捕捉不全问题还提出了一种改进的手动与遗传因子相结合的网页搜索策略. 最后给出实验结果, 证明该系统的可行性及优越性.  相似文献   

20.
随着互联网的迅速发展,网页数量越来越多。人们对于网络信息专业化的需求导致了主题搜索引擎的诞生,而网络爬行器效率的高低以及算法的优劣将直接影响搜索引擎的很多性能指标,该文以高校为主题,探讨了设计主题爬行器的几个关键性问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号