排序方式: 共有17条查询结果,搜索用时 15 毫秒
1.
针对目前用户在使用搜索引擎过程中,检索结果冗余、效率低下等问题,本文在对文献垂直搜索系统中Lucene.Net的索引算法研究基础上,结合用户实际专业检索需求,改变其算法中的激励因子,实验结果证明该方法确能提高搜索结果的相关度. 相似文献
2.
为实现可以为单独的网站提供站内全文检索系统,采用独立于专门商业搜索引擎的lucene索引结构,在网站所有的文档基础上,首先使用xml转换技术建立文档的xml索引格式,抽取文档主题内容写入xml链表,索引过程基于伪xml的存储布局。该方法在检索效率和准确性上都有很明显的提高,并且扩展性好,在原来解析链的结构下可以直接增加新的解析模块。 相似文献
3.
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。该文结合使用Heritrix与Lucene对学校新闻网站网页进行抓取并建立索引,建立相对应的新闻垂直搜索引擎系统。 相似文献
4.
加密数据是保护用户隐私的一个方法,特别在开放系统中的数据处理需求更为迫切,但要解决如何在密文上进行检索的问题。针对SSE-1密文检索方案的一些性能缺陷,采用不同的加密策略,在lucene倒排索引的基础上,设计了密文倒排索引Crypt-Lucene,同时结合云计算特点,设计了并行构建Crypt-Lucene方案,理论分析了方案的性能,并通过实验证明了方法的有效性。实验结果表明,Crypt-Lucene与SSE-1相比,索引构建时间减少了约为60%,同时具有较好的空间性能,对于大文档集合,利用MapReduce在4结点构成的Hadoop集群上并行构建8个Crypt-Lucene索引能减少83.4%的时间。 相似文献
5.
针对目前精品课程网站视频信息多、分布散的特点,通过lucene与heritrix,设计了专门针对视频信息的垂直搜索引擎,使用BKDRHash算法,实现了对视频信息的针对性搜索. 搜索时将网页抓取、内容筛选和建立索引的过程结合在一起,大大减少了系统的开销,改变了以往传统搜索引擎网页全文收录的做法,筛选了无用信息,对页面信息的提取,以及播放链接的提取过程具有一定的创新性. 相似文献
6.
全文检索作为现代信息检索技术的一个重要分支,不仅是处理非结构化数据的重要工具,也是搜索引擎的主流技术之一。本文首先从全文搜索引擎模型入手,对其基本工作原理和流程进行深入研究,并结合这些知识研究开源检索引擎包Lucene的架构原理及其开发应用方法。然后介绍中文分词和基本算法及Lucene的相关技术。 相似文献
7.
目前CMS(内容管理系统)大量应用于电子商务和企业信息化建设中。将XML与基于lucene的全文检索技术应用于CMS数据归档过程中,实现了各种结构化、非结构化及半结构化数据的存储、检索和利用,从而解决现有CMS系统存在的内容繁杂、管理效率低下等问题。 相似文献
8.
9.
1ucene是一个开源的搜索引擎工具包,提供高效的API来给文本创建索引,同时也给出方便的接口来进行扩展。Ajax是一种新的Web开发技术,具有良好的可扩展性、可移植性和组件的可复用性,在交互多、频繁读数据的Web中有很好的应用。将Lucene和Ajax结合起来,探讨基于Lucene的搜索引擎在Ajax中的应用。 相似文献
10.
针对通用搜索引擎的信息量大、查询不准确、深度不够等问题,给出了面向主题的垂直搜索引擎的体系结构,设计了垂直搜索引擎系统的爬行策略,对系统核心信息采集模块运用了多线程技术及基于VSM的主题相关度判断算法进行主题网页爬行,并通过Lucene.Net的索引与检索技术建立系统的检索算法,实现了一个面向特定主题的垂直搜索引擎应用系统.实验测试结果表明,该系统具有较高的提取效率,其检索的准确率、召回率均大大高于通用搜索引擎,具有较好的实用价值和商业应用前景. 相似文献