首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 957 毫秒
1.
Nutch是一个优秀的基于Java的开放源码搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代商业搜索引擎工作原理一样:文本搜集、建立索引和查询。Nutch0.9较好地处理了英文分词,但对中文分词处理还不够完善。文章介绍了在Nutch0.9中实现索引及检索的二分法,提出了改进中文分词的方法。  相似文献   

2.
基于Nutch的中文搜索引擎的研究与实现   总被引:1,自引:0,他引:1  
重点讨论了搜索引擎原理及基于Nutch的搜索引擎的实现架构,同时对网页抓取过程作了深入的研究和分析。最后,给出了基于Nutch的中文搜索引擎的解决方案。  相似文献   

3.
中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎NutchEnhanced。它可用作评测各类中文分词算法对搜索引擎的影响的实验平台。对NutchEnhanced的搜索质量与Nutch、Google、百度进行了对比评测。结果表明它远优于Nutch,其查全率达到了0.74,前30个搜索结果的查准率达到了0.86,总体上具有与Google,百度接近的中文搜索质量。  相似文献   

4.
张敏 《福建电脑》2010,26(6):102-102,122
本文通过对垂直搜索引擎的工作原理与主要技术进行分析,给出了一种基于开源Nutch上实现中文垂直搜索引擎的方案。  相似文献   

5.
潘涛  梁正友 《计算机工程》2010,36(13):42-44
Nutch是一个Java实现的开源搜索引擎。针对目前Nutch对中文进行单字切分且没有实现PageRank计算的缺点,改进PageRank算法,设计并实现基于MapReduce的PageRank计算方法,对Nutch中文分词进行改进,加入JE中文分词器。实验结果表明,改进后的Nutch具有更高的查询结果准确率和中文网页排序效果。  相似文献   

6.
Nutch是一个开源的搜索引擎,它在中文分词的效率和准确度上不能满足实际需要。本文对Nutch中的原分词方法进行修改,提高了信息检索的效率,并与其他两种Nutch中文分词方法进行比较,可以直观看地出分词效果有显著的改善。  相似文献   

7.
Nutch搜索引擎的页面排序修改方法研究   总被引:1,自引:1,他引:0  
Nutch是一个优秀的开放源代码的Web搜索引擎.虽然 Nutch的页面排序方法比较合理,但是很多情况下仍然不能满足需要.分析开源搜索引擎N岫代码,研究了Nutch的页面排序方法.在Nutch原有的结构基础上提出了3种修改Nutch排序的方法,对每种方法的实现进行了阐述,最后对这些方法的特点进行了比较.  相似文献   

8.
Nutch作为一个优秀的开源搜索引擎,其内核代码大量采用了MapReduce的编程模式,被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品.作为优秀的搜索引擎,其重要的前提是如何尽可能多地抓取到网页数据来建立索引.介绍了Nutch基于Hadoop下的分布式网络爬虫工作机制,指出其不足之处,并提出了改进方案,...  相似文献   

9.
垂直搜索引擎是搜索引擎领域的行业化分工,根据地学信息领域的行业特征、整体需求及其工作流程,在Nutch开源搜索引擎平台上添加了"庖丁解牛"中文分词算法、主题相关度评分算法、"主题词管理"选项等技术,建立了基于网络蜘蛛模型的面向地学信息领域的垂直搜索引擎。经过测试及结果比较,该系统相对于通用搜索引擎有明显的优势,使地学信息的定位和查找更加准确。该系统具有良好的扩展性和通用性,对垂直搜索引擎的研究和开发具有一定的借鉴作用。  相似文献   

10.
主要讨论Nutch中存在的各种各样的中文处理问题,修改并实现Nutch的中文分词、中文文档处理、FTP中文搜索等功能,解决了Nutch在搜索时Web显示中文乱码的问题.  相似文献   

11.
中文分词是搜索引擎面临的主要挑战之一。本文通过分析Nutch文档的评分机制,针对Nutch中文分词模块的分词不符合汉语习惯的情况,提出采用以词典分词法为基础的庖丁解牛分词模块对Nutch要采集的数据进行切分,描述在Nutch上实现庖丁解牛分词模块的方法,并对该分词模块进行测试。实验表明,庖丁解牛分词模块的分词结果更符合汉语习惯,并且在词项对文档的覆盖方面更加均衡,另外索引文件所占的存储空间节省20%~65%。  相似文献   

12.
海量信息在网络上的出现,使搜索网站应运而生,越来越多的搜索工具受到关注.Nutch是一个开源Java实现的搜索引擎,扩展性较好,是人们研究的热点.现今出现的Nutch-0.8.1较好地处理了英文分词,但没有对中文分词进行处理.文章介绍了在Nutch-0.8.1中实现索引及检索的二分法,指出在中文分词上它比原Nutch-0.8.1有了明显的改善.  相似文献   

13.
提出了一个基于Nutch开源搜索引擎扩展和改进的解决方案。在Nutch+Lucene+Tomcat+Sqlsever架构框架下用户进行个性化资源采集配置从而获得一个定向数据采集的搜索引擎。  相似文献   

14.
设计了一种在中英文环境下、能够对Nutch的搜索结果进行聚类处理的搜索结果聚类系统,该系统基于k-means算法和后缀树聚类算法,是一个由Nutch搜索引擎、文本分词、TF-IDF权重计算以及文本聚类等模块构成的搜索引擎结果文档聚类系统,并通过实验对k-means算法和后缀树算法进行了对比。  相似文献   

15.
当前,搜索引擎是互联网的一个重要组成部分.其网页摘要采用的是静态网页额摘要,用户不能快速从网页 摘要中获取网页内容的主题思想.本文在开源搜索引擎Nutch中运用自动文摘技术生成网页摘要,加快用户确认搜索准确 度的速度.  相似文献   

16.
为了提高搜索引擎的主题倾向性和准确率,在Nutch平台上实现了带有中文分词插件的垂直搜索引擎,给出了改进后引擎的系统功能和体系结构,并从用例角度分析了系统的功能,介绍了基于该体系结构实现的港口物流信息垂直搜索引擎以及和一般引擎运行情况的比较。实验结果表明,这些改进提高了主题判别的准确度和效率,使信息的定位和查找更加精确,减少了不相关信息的干扰,并提高了系统对于互联网复杂环境的处理能力。  相似文献   

17.
针对目前Nutch搜索引擎中没有实现PageRank计算的缺憾,在分析和研究经典PageRank算法的基础上,通过设置控制站外与站内链接的比重因子a对该算法进行了改进.利用MapReduce处理大数据集的优势,在Nutch机群系统上设计并实现了基于MapReduce的PageRank分布式并行算法.实验结果表明,处理的数据量越大,机群中的节点越多,计算PageRank的效率越高;另外,该分布式并行算法具有较好的可扩展性.  相似文献   

18.
文章针对垂直搜索引擎技术进行了介绍,介绍了通用信息检索技术、信息抽取技术和信息抓取技术,例如Nutch和GATE。并利用当前流行的技术构建了一个垂直搜索引擎,最后描述了系统的架构和实现过程。  相似文献   

19.
搜索引擎的索引库内容更新存在一定周期,目前在提供Web页面搜索服务时,搜索结果的排序没有考虑其索引资源的实时质量特征,难以满足用户搜索的多层次要求。提出了用户搜索体验质量模型,并把该模型应用于开源搜索引擎Nutch中。在提供搜索服务时,Nutch结合影响搜索体验质量的因素实现搜索结果的排序。实验给出了用户搜索体验质量变化情况,反应了这些因素对于搜索结果排序及用户搜索体验质量的重要性。该实验为下一步提升用户搜索体验质量,减少搜索引擎及网络传输能耗,进而实现搜索服务整体优化工作奠定了基础。  相似文献   

20.
针对当前网络中城市交通信息以几何形式递增的趋势,研究面向城市交通信息垂直搜索引擎的设计与实现技术,提出改进的基于Nutch搜索引擎技术与Google地图服务相结合的方法,设计主题信息抓取、中文分词、主题相关性判断、构建索引等检索功能模块,以Web地图服务为平台,完成主题交通的搜索与分析服务。实验结果表明,相对于其他通用搜索引擎面向城市交通信息的垂直搜索引擎更具有主题优势,在交通特征领域爬行深度和覆盖范围都得到加强,改进的算法能够有效提取高质量的网页文档,同时,在交通信息定位和主题排序方面也更为精确。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号