首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到12条相似文献,搜索用时 78 毫秒
1.
针对当前网络中城市交通信息以几何形式递增的趋势,研究面向城市交通信息垂直搜索引擎的设计与实现技术,提出改进的基于Nutch搜索引擎技术与Google地图服务相结合的方法,设计主题信息抓取、中文分词、主题相关性判断、构建索引等检索功能模块,以Web地图服务为平台,完成主题交通的搜索与分析服务。实验结果表明,相对于其他通用搜索引擎面向城市交通信息的垂直搜索引擎更具有主题优势,在交通特征领域爬行深度和覆盖范围都得到加强,改进的算法能够有效提取高质量的网页文档,同时,在交通信息定位和主题排序方面也更为精确。  相似文献   

2.
传统的基于网页方式的搜索引擎服务不能很好地满足用户个性化的需求,搜索引擎Web API概念的提出较好地解决了这一问题.文中讨论了非商业网站如何使用搜索引擎Web APIs实现网站搜索服务.为避免搜索引擎Web APIs在搜索次数上的限制, 给出一种不使用Search APIs而直接通过模拟请求方式得到搜索结果的新方法.  相似文献   

3.
本文首先分析了互联网搜索引擎的现状,而后对垂直搜索引擎进行了系统设计,并阐述了系统实现的要点,最后对垂直搜索引擎的应用和特点做了总结,对读者了解垂直搜索引擎的概念和实现原理有一定现实意义。  相似文献   

4.
汲业  陈燕  杨健  慕蓉 《计算机工程》2010,36(24):24-26
根据生活服务领域网页信息的特点,提出一种面向生活服务领域的垂直搜索引擎模型,给出该模型在信息采集、信息抽取、索引建立和信息检索4个功能模块的具体算法及实现方式。实际应用表明,该模型搜索效果良好,提供HTML和WML 2种方式的用户界面,已经成功覆盖全国近40个城市的餐饮、娱乐和黄页信息。  相似文献   

5.
一种新型网络信息采集器的研究   总被引:2,自引:0,他引:2  
为了克服内容评价搜索策略算法"近视"和链接分析算法"主体偏移"的缺点,提出了一种使用内容评价搜索策略和链接分析策略结合的算法.使用的方法开发网络信息采集器能够极大地提高用户的检索速度,并能有效地限制检索领域,大大减小检索结果的信息冗余度,使用户能够快速获取其真正需要的信息.研究表明使用内容评价搜索策略和链接分析策略结合的算法开发网络信息采集器能够提高垂直搜索引擎快、精、准等方面的性能.  相似文献   

6.
基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现   总被引:1,自引:0,他引:1  
垂直搜索引擎是针对某一领域的搜索引擎,它可以帮助用户在海量数据面前进行快速、专业、精准的检索。文章研究了垂直搜索引擎的特点,对Lucene与Heritrix的架构与主要模块功能进行了分析,设计并开发了图书垂直搜索引擎系统,为用户提供快捷、专业的图书信息检索服务。  相似文献   

7.
面向垂直搜索引擎的主题提取算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对HITS算法对所有链接分配相等权重导致产生主题漂移的问题,提出基于计算链接价值度及Web页面语义主题相似度对链接分配合理权重的HITS改进算法,突出链接重要度的差异。实验表明,该算法的主题相关度提高了13%~42%,且较好地避免了主题漂移问题,增强了采集信息的准确性,对垂直搜索引擎的研究有重要的理论和实际应用价值。  相似文献   

8.
针对目前精品课程网站视频信息多、分布散的特点,通过lucene与heritrix,设计了专门针对视频信息的垂直搜索引擎,使用BKDRHash算法,实现了对视频信息的针对性搜索. 搜索时将网页抓取、内容筛选和建立索引的过程结合在一起,大大减少了系统的开销,改变了以往传统搜索引擎网页全文收录的做法,筛选了无用信息,对页面信息的提取,以及播放链接的提取过程具有一定的创新性.  相似文献   

9.
面向垂直搜索引擎的Web站点划分方案   总被引:2,自引:1,他引:1       下载免费PDF全文
分析传统搜索引擎分配任务的方式及存在的问题,根据垂直搜索引擎的特点,提出一种比传统方法粒度更细的任务分配方式——网站划分。该分配方式将较大规模的网站切分为若干较小规模的子集,并将子集交给若干爬虫节点并行抓取,以加快爬虫系统的整体获取速率,作为对传统方法的有效优化。将网站划分算法应用于样本数据集,验证其有效性。  相似文献   

10.
主要介绍了垂直搜索引擎和网络爬虫的基本概念,以及Heritrix系统的体系结构,分析了Heritrix工作流程,并通过扩展Heritrix实现了对网易手机频道信息的多线程抓取,为建立面向手机信息的垂直搜索引擎提供了信息源。  相似文献   

11.
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。该文结合使用Heritrix与Lucene对学校新闻网站网页进行抓取并建立索引,建立相对应的新闻垂直搜索引擎系统。  相似文献   

12.
邹嵩  赵诗阳  周新志 《微机发展》2012,(2):131-133,137
为了提高垂直搜索引擎的检索效率,介绍了垂直搜索引擎中的分词技术。文中主要通过研究最大长度匹配算法,提出了改进后的最大长度匹配算法以提高检索效率。改进后的算法显示,分词效果得到了一定的提升,体现了相对于普通最大长度匹配算法的优势。且通过将改进后的方法与普通最大长度匹配算法相比较可知,改进后的算法提高了搜索的正确率,提升了检索的效率,是一种对最大长度匹配算法的有效改进,由此也体现了搜索引擎中算法合理设计可以提升搜索性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号