首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
2.
智能Web中文主题信息收集系统IRobot的设计   总被引:4,自引:0,他引:4  
本文介绍了智能Web中文主题信息收集系统IRobot的设计思想和方法。针对Web主题信息收集所具有的许多新特性, 系统采用了对待收集URL进行相关度预测为主, 对已收集页面进行相关度评价结合的收集机制。尤其在URL的相关度预测中, 深入考虑了Web主题信息结构和组织特性的多种因素, 综合提高了系统的性能。相比已有的研究, 系统的精度和收集效率更高, 且更为稳定, 并能够自动获得主题领域内重要资源的列表。  相似文献   

3.
Infolite中文检索系统   总被引:9,自引:1,他引:8  
随着电子文本的大量涌现,人们对信息检索工具也提出了更高的 一个基于向量空间模型的中文信息检索系统的设计与实现,该系统既是我们用于中文信息检索研究的基础平台,也是开发实际应用系统的构件。  相似文献   

4.
详细描述了利用Lucene全文索引工具包设计与实现的一个Web全文信息检索系统,给出了系统的设计框架和各个组成模块的实现技术,介绍了系统实现中的检索策略和算法。为了提高系统的检索性能。本文提出并实现了利用链入锚文本和链接分析对检索结果进行重新排序,有效提高了检索的准确率。  相似文献   

5.
通过对农业信息分类技术的研究,依据农业信息分类标准,设计农业信息知识库;在农业信息知识库基础上,对倒排索引技术进行研究,利用lucene构建倒排索引,开发设计农业科技知识检索系统,为坐席人员提供信息检索支持。坐席人员通过该检索系统,解答农牧民生产过程中遇到的实际问题,充分发挥农业科技知识对农牧民生产的指导作用。  相似文献   

6.
基于Intranet图书馆Web检索系统的开发   总被引:1,自引:0,他引:1  
主要分析了浏览器,Web服务器与外部应用程序的两种接口方式CGI和ISAPI以及ISAPI的工作流程,在此基础上介绍了作者开发的本单位Intranet网上的图书馆Web信息检索系统。  相似文献   

7.
基于Web的全文搜索引擎的设计与实现   总被引:5,自引:0,他引:5  
介绍了一个基于Web的全文搜索引擎的设计及其实现,并对该搜索引擎的基本框架设计和主要功能模块的实现作了详细介绍,最后给出了相应的试验结果。  相似文献   

8.
一种改善的基于语言模型的中文检索系统研究   总被引:2,自引:1,他引:2  
最近几年提出的语言模型检索系统将语音识别领域的语言模型技术引入信息检索领域并改善了检索系统的性能,但是其隐含的词汇间相互独立的假设并不符合实际情况。尽管统计翻译模型考虑了词汇间的同义词因素,但是由于它没有考虑词汇上下文信息,所以对于解决多义词词义的区分并无帮助。我们提出了触发语言模型检索方法来改善这一状况,通过训练语料得到词汇在一定上下文中的相关比率,同时利用查询条件所含词汇计算触发词汇集合来区别查询条件词汇的具体含义并将相关参数引入文档语言模型形成触发语言模型。实验结果表明我们提出的这个方法显著改善了检索系统的性能,与经典语言模型方法相比,触发语言模型方法的平均查准率提高了约12%,召回率提高了10.8%。  相似文献   

9.
基于Web的网络爬虫的设计与实现   总被引:2,自引:0,他引:2  
无论是站内信息检索还是特定的Web信息搜集,都离不开全文搜索引擎系统的核心模块--网络爬虫,本文详细介绍了一种设计及实现方案,包括页面搜集器和页面索引器的基本工作流程、数据存储结构、核心算法及主要的技术难点.该系统经实际运行,效果良好,最后给出了有待进一步改进的地方.  相似文献   

10.
针对企业内网信息分散、检索困难、信息有效利用率低等问题,设计并实现了企业内网内容检索系统.系统充分利用Scrapy爬虫框架收集内网各个站点信息,存入数据库,并利用Flask创建Web应用,提供全文信息检索服务.不仅提高了工作人员的查询准确率,也提高了站内数据和信息的有效利用率.  相似文献   

11.
Probability-Based Chinese Text Processing and Retrieval   总被引:1,自引:0,他引:1  
We discuss the use of probability-based natural language processing for Chinese text retrieval. We focus on comparing different text extraction methods and probabilistic weighting methods. Several document processing methods and probabilistic weighting functions are presented. A number of experiments have been conducted on large standard text collections. We present the experimental results that compare a word-based text processing method with a character-based method. The experimental results also compare a number of term-weighting functions including both single-unit weighting and compound-unit weighting functions.  相似文献   

12.
大规模搜索引擎检索系统框架与实现要点   总被引:12,自引:0,他引:12       下载免费PDF全文
随着Web规模的不断扩大,搜索引擎正成为因特网上最常用的应用之一。本文以天网搜索为实例,分析了大规模通用型中文搜索引擎检索系统的设计与实现技术。围绕检索效率和检索效果两个方面,本文介绍天网检索系统的集成框架结构和分布式架构,并分析了索引创建和索引检索中的相关实现技术。  相似文献   

13.
该文针对传统蒙古文与西里尔蒙古文设计开发了一个功能完备的信息检索系统。在网页抓取方面,采用MD5算法对爬虫进行了改进,提升了爬虫的速度。在预处理阶段,对蒙古文文档进行了编码转换、词缀切分转换等操作。在检索方面,使用向量空间模型实现了对蒙古文文档的检索。在该文系统中加入了西里尔蒙古文到传统蒙古文转换和更新统计等模块,最终搭建了一个可以达到应用要求的蒙古文信息检索系统。  相似文献   

14.
互联网中文信息获取研究   总被引:1,自引:0,他引:1  
提出了一种以智能化、主动搜索为标志的互联网中文信息获取方法,实现了一种互联网中文信息智能获取工具,该工具采用智能Agent的体系结构,通过学习用户日常的文档和用户的交互意见推测出用户需求,建立个性化的用户模型。并使用元搜索引擎从互联网上主动获取信息。最后通过本地智能处理技术,剔除合并重复及相似性大的信息,将处理后的结果以显明易懂的方式提交给用户。  相似文献   

15.
搜索引擎检索系统质量评估   总被引:6,自引:0,他引:6  
搜索引擎检索系统的质量评估对传统信息检索系统评估带来了新的研究问题.利用Tiangwang搜索引擎查询日志,按类别构造评估查询集,用人工判别相关性的方法对3个搜索引擎进行了检索质量评估.实验用InfoMall系统提供的历史网页服务消除不同搜索引擎搜集系统收集网页集合的差异,得到如下结论:①评测员之间的差异很大,但评估实验结果保持稳定;②使用连续型的相关度评分以及对应的评估指标比二元相关度评分及指标具有更好的区分能力;③使用50左右规模的查询集合和DCG这样的连续型评估指标可以有效进行评估实验.  相似文献   

16.
该文介绍了一个应用于结构化文本的检索系统的设计和实现。根据结构化文本的自身特点,提出了文本层次划分的思想,通过层次划分,文本被切分成有结构信息和有独立思想内容的文本单元。在此基础上,对检索词实现结构化索引,同时采用层次匹配嵌套查询的方法来实现用户自然语言的提问查询。用户查询处理中还综合运用了查询结果优化、相似查询、二次查询及反馈评分的技术。  相似文献   

17.
一个中文全文检索系统的设计与实现   总被引:3,自引:0,他引:3  
本文主要分析了中文全文检索技术中有关内容,并根据此内容设计实现了一个中文全文检索系统。在此系统中,提出了相应的数据采集方案、数据存储格式、数据压缩和信息检索机制。  相似文献   

18.
查询词之间的距离较为接近的文档,相关的可能性更大,将这种距离信息用于信息检索模型的构造可有效提高检索的性能。然而直接估计查询词在文档中的距离需要大量的训练文本,且计算复杂度高。该文提出了一种结合句子级别检索的信息检索模型,将文档分为若干个窗口,通过计算句子和查询的相关度考察查询词在给定窗口中的共现性,该方法可增大那些查询词彼此靠近的文档的相关度,从而使得检索模型可返回更为相关的文档。标准数据集上的实验结果表明所提出的模型可以取得较好的性能。  相似文献   

19.
一种基于关键词的中文文档图像检索方法   总被引:1,自引:0,他引:1  
本文提出了一种基于关键词的中文文档图像检索方法,能在不经OCR(Optical Character Recognition)识别的情况下,直接利用中文字符的图像特征进行关键词检索。首先将文档图像分割成单个中文字符图像,接着对字符图像进行汉字笔画的特征数据提取,然后在特征数据间进行基于WMHD(Weighted Modified Hausdorff Distance)的相似性测量。该方法不受字号的影响,也有一定的抗字体能力,实验证明其具有较高的检索效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号