首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
由于高校行政管理体制分割以及高校的保护主义,各高校信息网的就业信息基本是分立甚至是隔绝的,鲜有院校相互合作、共享就业信息。为把这些存储高校毕业生就业信息的信息孤岛连接在一起,给广大毕业生和用人单位搭建一个畅通的无障碍的沟通桥梁,笔者研究并实现了一个高校毕业生就业信息搜索引擎系统,阐述了就业信息采集器的算法及原理,利用多线程技术实现了就业信息采集器;建立了中文分词、索引算法,对命中的词语进行了高亮显示。  相似文献   

2.
介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。  相似文献   

3.
介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。  相似文献   

4.
针对目前学习平台中信息简单罗列、组织层次不清晰的问题,利用.net平台上的ASP.Net、Silver Light技术设计实现了一个B/S架构的知识网络系统。分析了树形结构的特点,提出了递归寻路径法,将知识信息层次清晰地展现给用户,并实现节点间路径的获取。通过对Lucene.Net全文检索技术的研究,将其与SQL Server数据库的索引技术相结合,实现了一个高效的检索引擎。  相似文献   

5.
在研究垂直搜索引擎原理和开源工具Lucene等技术基础上,实现了对网络数据的抓取、分析、建立索引和检索。阐述了基于Lucene技术的索引和检索的实现方法。实验结果表明,该系统具有较高的检索效率和准确率。  相似文献   

6.
通过对垂直搜索引擎的原理和关键技术的研究,运用Lucene等JAVA开源工具设计并实现了一个手机信息检索系统。对于构建垂直搜索引擎必须要面对和解决的一些关键问题进行了分析,并给出了解决方案,如防止重复爬取网页和专业词库的扩展等,具有较强的实用性。  相似文献   

7.
田晓辉 《福建电脑》2014,(11):29-30
本文主要阐述在搜索引擎的工作原理及索引机制下,通过网络蜘蛛程序等技术手段来得到一系列数据库数据和Lucene索引。针对互朕网的庞大数据量做有效的提取和分类,利用Spring和DWR的WEB架构设计技术来构建一个基于WEB的垂直搜索引擎。  相似文献   

8.
通用搜索引擎在广泛使用的同时,也出现了搜索范围太宽泛、搜索结果中冗杂信息过多、搜索不够精确等问题。在对搜索引擎的工作原理进行深入学习之后,提出基于Lucene的企业信息垂直搜索系统,并调用百度地图API,采用Java语言编程实现该系统。  相似文献   

9.
在移动学习项目的开发过程中,结合我国教育资源利用率低的问题,通过扩展Heritrix和Lucene,整合教育资源,设计并实现了面向教育视频资源的垂直搜索引擎。针对Heritrix与Lucene串行组合方案难以实现信息抓取、分析过程与索引过程同时进行的问题,提出一种紧耦合的流程优化组合方案,使网页抓取、网页内容分析筛选和建立索引同时进行,降低了系统IO开销和磁盘空间的占用率。实验测试表明,在Heritrix运行过程中嵌入索引建立操作,对系统的运行效率影响较小,满足实际应用的需要。  相似文献   

10.
张俊  李鲁群  周熔 《微机发展》2013,(6):230-232
互联网搜索的精确性一直是衡量搜索引擎性能的重要标志。针对普通搜索引擎的固有缺陷,文中提出了一种应用于新闻检索的搜索引擎。该引擎是利用开源的网络爬虫工具将互联网信息抓取到本地,并利用Lucene开放的API,对特定的信息进行索引和搜索。Lucene是基于Java开发的源代码开放的全文检索工具包,具有高性能、可扩展等特性,是实现搜索引擎的核心组件。通过对Lucene的API进行分析,并在此基础上,构建了索引和搜索的模块,并对网上新闻内容进行实时地搜索。通过与普通搜索引擎对比,该新闻搜索引擎提高了搜索的精确性。  相似文献   

11.
针对目前精品课程网站视频信息多、分布散的特点,通过lucene与heritrix,设计了专门针对视频信息的垂直搜索引擎,使用BKDRHash算法,实现了对视频信息的针对性搜索. 搜索时将网页抓取、内容筛选和建立索引的过程结合在一起,大大减少了系统的开销,改变了以往传统搜索引擎网页全文收录的做法,筛选了无用信息,对页面信息的提取,以及播放链接的提取过程具有一定的创新性.  相似文献   

12.
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。该文结合使用Heritrix与Lucene对学校新闻网站网页进行抓取并建立索引,建立相对应的新闻垂直搜索引擎系统。  相似文献   

13.
本文首先分析了互联网搜索引擎的现状,而后对垂直搜索引擎进行了系统设计,并阐述了系统实现的要点,最后对垂直搜索引擎的应用和特点做了总结,对读者了解垂直搜索引擎的概念和实现原理有一定现实意义。  相似文献   

14.
主要介绍了垂直搜索引擎和网络爬虫的基本概念,以及Heritrix系统的体系结构,分析了Heritrix工作流程,并通过扩展Heritrix实现了对网易手机频道信息的多线程抓取,为建立面向手机信息的垂直搜索引擎提供了信息源。  相似文献   

15.
文章结合影响股票价格的技术指标、股票理论、预测股价变量等因素,运用Lucene、Heritrix技术实现股票搜索引擎,重点讨论了Flex数据交互、Spring与Flex整合、Lucene索引建立、网络爬虫抓取信息遵守的规则,给出了对信息源不能直接抓取的解决办法。  相似文献   

16.
网络爬虫采集互联网信息并提供搜索服务。该设计基于Lucene.NET平台开发网络爬虫,可以对特定的网页进行抓取和分析,提取网页中有用信息,并对抓取的数据进行索引,存储到服务器硬盘,同时过滤掉无用信息。系统界面友好,准确高效。  相似文献   

17.
垂直搜索引擎可以实现行业主题的精准搜索,建设纺织品垂直搜索引擎,显然可以促进电子商务发展。该文论述了基于lucene的开源平台Nutch的特性和应用方法,分析了聚焦爬虫、分布检索等建立该引擎的关键技术。  相似文献   

18.
搜索引擎的混合索引技术   总被引:5,自引:0,他引:5  
倒排文件是搜索引擎检索系统普遍采用的索引技术。针对中文搜索引擎中采用自动分词的全文检索因分词词典规模小导致的检索效率下降与词典规模扩大导致检索效果下降的矛盾,论文在天网搜索引擎的实践基础上,提出了一种基于倒排文件实现的混合索引的方法,它可以有效提高搜索引擎下短语查询的检索效率,同时不影响系统检索效果。  相似文献   

19.
面向垂直搜索引擎的主题提取算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对HITS算法对所有链接分配相等权重导致产生主题漂移的问题,提出基于计算链接价值度及Web页面语义主题相似度对链接分配合理权重的HITS改进算法,突出链接重要度的差异。实验表明,该算法的主题相关度提高了13%~42%,且较好地避免了主题漂移问题,增强了采集信息的准确性,对垂直搜索引擎的研究有重要的理论和实际应用价值。  相似文献   

20.
汲业  陈燕  杨健  慕蓉 《计算机工程》2010,36(24):24-26
根据生活服务领域网页信息的特点,提出一种面向生活服务领域的垂直搜索引擎模型,给出该模型在信息采集、信息抽取、索引建立和信息检索4个功能模块的具体算法及实现方式。实际应用表明,该模型搜索效果良好,提供HTML和WML 2种方式的用户界面,已经成功覆盖全国近40个城市的餐饮、娱乐和黄页信息。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号