首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在文本检索过程中,排序算法一定程度上影响到搜索引擎的质量。论文首先分析了Lucene组织结构,包括建立索引,检索索引文件以及结果集排序的工作过程和原理,着重剖析了Lucene基于向量模型的排序算法,并在原有排序算法基础上,采用基于关键词加权方式改进了全文检索的排序结果。实验结果证明,改进后的排序算法提高了系统的结果精确度,满足了项目的实际需求。  相似文献   

2.
利用Lucene开源全文本搜索技术框架建立全文检索系统,在Lucene原有的快速索引访问,多用户访问支持,跨平台使用等优点的基础上,对其中的中文分词及结果排序算法等关键技术加以改进.改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息.  相似文献   

3.
Lucene是一个纯Java实现的高性能、可扩展的全文信息检索工具库,可以很方便地把它融入到应用程序中来增加索引和搜索功能.分析了Lucene的索引文件结构和搜索排序算法,探讨了Lucene中计算文档与查询项相关度的向量空间模型(VSM).最后,通过实验验证了索引过程的建立以及如何提高索引性能.  相似文献   

4.
Lucene是一个纯Java实现的高性能、可扩展的全文信息检索工具库,可以很方便地把它融入到应用程序中来增加索引和搜索功能.分析了Lucene的索引文件结构和搜索排序算法,探讨了Lucene中计算文档与查询项相关度的向量空间模型(VSM).最后,通过实验验证了索引过程的建立以及如何提高索引性能.  相似文献   

5.
基于全文检索工具包Lucene的排序技术   总被引:2,自引:0,他引:2  
为了深入理解Lucene使用的排序技术和实际应用,需要研究矢量信息检索模型和td-idf加权策略.根据影响排序的因素,提出了Lucene的文档得分算法,分析了各因素对排序结果的影响.结合实例对基于Lucene排序的相关API进行应用,以提升Lucene排序的性能.  相似文献   

6.
针对通用搜索引擎在专业检索方面查准率低的问题,设计了基于Lucene和Nutch组件的服装专业搜索引擎.该系统结合专业词库对抓取的网页进行分词和专业相关度计算并进行网页过滤,依据改进的网页排序算法对结果进行排序.  相似文献   

7.
根据RSS/XML文本格式的博客信息特点,进行了文本解析、中文分词和索引建立,以及基于PageRank算法的搜索排序等研究工作,利用Heritrix爬虫、Lucene全文索引检索工具包开发了RSS博客搜索引擎,并将系统实际应用于Android系统的手机终端。实验证明,该系统能实时、高效的在手机终端进行博客搜索,使用户获得优于传统博客检索的体验。  相似文献   

8.
基于Lucene全文检索引擎的应用与改进   总被引:2,自引:0,他引:2  
Lucene全文检索技术以其开放源代码的良好特性、优异的索引结构、有效的系统架构获得了广泛的应用.分析了Lucene的系统组织结构与核心类,同时指出其检索算法中的不足.给出了一个基于Lucence全文检索技术的信息导航系统中的设计.最后特别针对检索算法中的不足,设计和实现了利用PageRank算法的检索器.  相似文献   

9.
为了改进传统的文本检索技术存在检索文件格式种类单一,索引大数据量文件速度慢,甚至造成内存溢出等问题,基于Lucene系统及相关技术,研究了基于合并因子的多种格式文件索引技术,并在此基础上构建了中文文本信息检索系统.实验分析表明,本系统有效地实现了多种格式文件检索功能,通过合并因子的设定有效提高了索引速度,系统可靠性高.  相似文献   

10.
大数据时代的到来,数据格式呈现多样化,对Web数据的处理不仅仅局限在网页链接上,还需要处理无链接结构的文档。如何从海量的文档中获取所需的信息是搜索引擎亟待解决的问题,目前传统的根据索引分析并不能满足这一需求。为了从数百万个结果中选取价值最高的文档子集,提出了新的DocumentRank算法,通过构建衡量文档重要性矩阵来计算查询相关度得分对文档进行排序。最后通过对互联网文档数据集搜索的实验说明,DocumentRank 算法相比Lucene索引技术提高了文档检索的精确度和综合相关度。  相似文献   

11.
设计并实现了一个基于相似聚类算法的垂直搜索引擎。利用网络爬虫NWebCrawler,通过定制正则表达式,高效爬取所需的URL;通过解析爬取的URL信息,提取结构化数据;利用正向最大匹配算法,对搜索关键字分词;利用向量空间模型,根据相似度值对搜索结果聚类;基于Lucene建立索引,检索所需信息。实验结果表明,基于相似聚类算法的垂直搜索引擎,比通用搜索引擎的准确率和召回率高,与普通的垂直搜索引擎相比,具备了相似产品查询功能。  相似文献   

12.
针对子图同构中索引构建方法效率低、内存占用大而影响查询效率的问题,本文提出基于2次排序查找等价顶点的数据图索引构建算法。该算法采用不同邻接链表表示类别不同的语法等价顶点的邻居集合,并依此设计2次排序的方法快速查找数据图中两两互连和两两互不相连的等价顶点,然后依据语法等价和语法包含关系为数据图构建索引来提高子图同构查询的效率。最后,基于不同规模的数据集,通过实验验证了本文提出索引构建算法的高效性和可扩展性。  相似文献   

13.
提出一种新的数据排序算法,将数学极值的求解原理与数据排序结合,把极小值的概念扩展到记录的序列中,并按数据的排列规律,建立了极小记录索引,通过索引快速搜索待排序列中的记录,对待排序列快速的排序。该算法的最大时间复杂度T(n)为O(nlogn)和空间复杂度O(n),在提高排序效率的同时,保证了排序结果中的相同大小记录之间相对位置的稳定。  相似文献   

14.
复杂网络中对节点重要性排序算法的研究具有重要的现实意义。传统的K-shell算法排序结果分辨率不高,根据节点信息熵的排序算法时间复杂度又过高。针对这一问题,提出基于迭代K-shell和改进信息熵的节点重要性排序算法。首先,通过分析K-shell分解过程中的迭代信息得到节点在网络中的全局信息;其次,提出改进的节点信息熵来得到节点的局部信息;最后,综合节点的全局和局部信息对节点重要性进行排序。通过将该算法在4个真实数据集上与其他6个算法进行实验,该算法与现有方法相比排序结果的分辨率更高、节点信息传播能力更强且时间复杂较低,更适用于大规模网络。  相似文献   

15.
在分析基于卷积码的快速相关攻击算法时,提出了快速排序匹配索引算法,用以寻找重量较小的一致校验方程。实验结果表明,攻击中利用该算法可以达到很好的效果。  相似文献   

16.
为解决现有语义模糊可搜索加密方案无法取得排序可验证的问题,提出一种支持语义模糊搜索并能对搜索结果的排序进行验证的方案。首先引入相关度分数和域加权得分,构造精确度更高的倒排索引结构。通过非线性保序加密,云服务器可以对搜索结果进行高效排序,减少了用户的计算开销和网络资源浪费。接着基于WordNet词典集对查询关键词进行语义拓展。在构造出语义拓展树后,只选取最相关的语义拓展词进行查询。通过引入语义相似度,设计双因子排序算法对搜索结果进行精确排序。然后为创建验证信息,将关键词集合插入布隆过滤器中,并计算布隆过滤器、安全索引、密文文档的消息认证码。在搜索阶段,通过布隆过滤器可以验证索引中是否存在查询关键词,并使用消息认证码对索引、文档的完整性和正确性进行验证。通过引入索引树结构进一步提高方案的搜索效率。最后,将本方案与相关方案在功能、存储开销、搜索开销等方面进行比较,并对创建索引、创建验证信息、语义拓展、加密查询、查询、验证等方面的开销进行仿真实验。方案对比分析显示本方案在语义搜索、排序、验证等功能上具有优势。实验结果表明,本方案不仅实现了语义模糊搜索与结果排序,而且实现了排序结果可验证功能。  相似文献   

17.
针对有色冶金信息化服务平台文献资源检索功能的开发,综合运用Lucene.net、盘古分词等系列开源工具包,并结合中文分析器,对存储于数据库中的文档信息建立索引;根据用户提交的关键字信息,实现文献资源高效检索的功能.文章针对普通串行方式对大数据创建索引的低下效率,提出了一种能够适应现代多核计算机架构来提升建立索引性能的算法.通过该算法在获得性能提升的同时,也提高了程序的可扩展性.  相似文献   

18.
提出一种基于最小生成树的切片数据点排序算法,该算法建立散乱点云空间索引结构,基于该结构快速获取切片邻域数据,依据邻域数据与切片的位置关系将其划分为正负2个区域,通过正负邻域配对点连线与切片求交获取切片数据点,构造切片数据点的无向完全连通图,求解该图最小生成树,并将最小生成树的各分枝首尾相连,实现切片数据点的排序,实例证明该算法可对逆向工程中各种复杂型面切片数据点排序,排序结果准确,算法运行效率高。  相似文献   

19.
基于全球地理信息中海量属性数据,提出了利用已有数据构建索引和批量插入索引数据的改进算法。使用自底向上构建索引算法建立索引树,提高了空间利用率和建库速度;采用缓冲页法批量插入数据,提高了插入效率,减少了节点分裂次数。该算法不但适用于建立索引库,而且适用于更新索引库。  相似文献   

20.
在模块化多电平换流器的传统子模块电容电压排序均衡方法中,算法排序在子模块数目较多的情况下存在运算量大、开关动作频繁等缺陷。因此,为了减少子模块排序运算量,降低开关频率,该文提出了基于改进归并排序的 MMC电容电压均衡法。首先,对引入的归并排序算法均衡工作机理展开了简要叙述,在此基础上,针对算法单次排序比较次数高对算法进行优化处理,进而减少了单次排序运算过程中算法所需的比较次数;并立足于简化后的归并排序算法,引入子模块之间的最大电压偏差比例值,实现降低排序频率与开关损耗,从而形成了具有优越性能的改进归并排序均压控制方法。最后,运用 Matlab/Simulink仿真平台搭建了模块化多电平换流器的直流侧电容电压均压控制模型验证所提改进归并排序均压方法的可行性与有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号