排序方式: 共有172条查询结果,搜索用时 15 毫秒
1.
随着互联网的发展,数据的增加越来越快,从海量的信息中快速地提取出用户需求的信息成为新的挑战。传统的方式已经不能完全满足现在的需求,而NoSQL却能够有效地解决这一问题。本文首先分析Lucene的特点以及不足,并利用NoSQL来构建全文检索系统,最后通过实验来检验此架构的性能。 相似文献
2.
针对高校网络舆情监测工作的不足,结合高校舆情信息的传播特点,提出了在校园网范围内基于Nutch搜索引擎技术进行信息检索,在互联网上采用元搜索引擎技术获取相关信息的舆情监测系统构建方案。采用关键词特征库匹配方式自动进行网络舆情监测,及时准确地发现网络舆情信息;探讨了高校对于网络舆情的监测、分析、引导和反馈等环节的处理方法,从而形成完善的应对机制。 相似文献
3.
本文设计的法律咨询系统,结合法律行业的现状,以中文问答系统为原型,结合了开源数据检索项目Lucene.net,扩展了数据的存储类型. 本文借助中科院研发的中文分词系统,集成到Lucene.Net平台上,弥补了其分词不足. 并使用互信息技术,使同义的法律相关词语优先进行检索. 在中文问答系统的答案提取时,经常出现答案的“漏取”和“错取”的情况,本文提出了一种基于潜在语义分析(LSA)的问题和答案句子相似度计算方法,利用空间向量模型作为表示方法,借助潜在语义分析理论,通过奇异值分解的降维方法构建了一个低维的语义空间,并在语义空间上实现了问题与答案句子相似度计算. 经试验证明,本系统具有较精准的查询正确率以及较少的运行计算时间. 相似文献
4.
介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。 相似文献
5.
对改进后的Lucene网页排序算法中考虑的几个因素,用模糊层次分析法的方法对这些因素的权重进行确定,并运用算例对其过程进行说明,使权重向量的确定更有说服力。 相似文献
6.
Lucene应用中Pdf文档文本数据提取方法研究 总被引:1,自引:0,他引:1
基于Lucene的搜索已在各种应用系统中已经得到广泛应用,但是Lucene仅仅提供了全文文本搜索的函数库。本文研究了Pdf文档文本数据的提取方法,其优点在于能快速对Pdf文档文本数据进行提取,得到站内Pdf文档文本数据。 相似文献
7.
基于Lucene/Heritrix的垂直搜索引擎的研究与应用 总被引:2,自引:0,他引:2
Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用.Heritrix是一个由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源.探讨了Lucene和Heritrix在构建垂直搜索引擎中的应用. 相似文献
8.
9.
Lucene是一个纯Java实现的高性能、可扩展的全文信息检索工具库,可以很方便地把它融入到应用程序中来增加索引和搜索功能。该文分析了Lucene的索引机制,探讨了Heritrix的结构框架,最后结合实际实例对基于Lucene的全文检索的应用进行深入研究。 相似文献
10.