首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
胡博  蒋宗礼 《计算机科学》2016,43(9):247-249, 273
文档检索结果的排序和文本分类技术是解决垂直搜索、个性化信息检索、信息过滤等相关问题的核心技术。为了提高检索系统的性能,针对Lucene的基础排序算法,提出了一种融合位置相关和概率排序的改进方法。考虑到查询词在文档中出现的位置信息和概率排序对文档相关性的影响,利用位置相关的查询词权值和基于朴素贝叶斯分类算法的文档相关性概率值,对Lucene基础排序算法的评分公式进行改进。实验表明,该改进方法能够有效提高垂直搜索的准确率,使用户拥有更好的垂直搜索体验。  相似文献   

2.
本文将知识库与数据相结合进行了客服知识库系统结构设计。在基于Lucene搜索的同时结合数据库查询的实时搜索方式,实现了针对不同格式文档的正文抽取,能够对知识信息进行多域索引与搜索。  相似文献   

3.
基于全文检索引擎的信息检索技术的应用研究   总被引:3,自引:0,他引:3  
利用基于JAVA的全文检索引擎Lucene软件包实现了一个电子文档全文检索,并对文本建立索引的4种不同的分词方式进行了讨论及适当地改进.为了提高搜索结果的准确度,在原有文档相关度排序算法的基础上,采用了基于用户行为的二次检索方式.在提高用户体验度方面,采用了Ajax异步通信技术,在用户输入查询条件时,实时地从数据库中提取相关关键词,给与用户提示,供用户选择.  相似文献   

4.
针对中文检索的Lucene改进策略   总被引:4,自引:0,他引:4  
为了提高基于Lucene中文检索系统的检索精度和效率,通过分析Lucene的结构,在系统中加入了中文分词模块和索引文档预处理模块。给出了具体的实验方法和实验过程,对改进原理和实验数据进行了分析,表明了加入中文分词模块和在索引预处理模块中采用提取特定数量的特征词来替代文档的方法能够有效提高Lucene检索系统的效率和精度,增强Lucene检索系统中文的性能。  相似文献   

5.
Lucene是一款优秀的开源全文本搜索技术框架。首先介绍高性能的全文检索工具Lucene,详细分析Lucene的系统结构、程序运行逻辑和各个模块功能,以及在Lucene上的扩展;然后针对Lucene在不同类型文档解析方面的不足,提出一种通用的文档解析器框架,并给出具体的应用实例。  相似文献   

6.
基于Lucene的中文全文检索系统的研究与设计   总被引:4,自引:0,他引:4  
提出了一种基于Lucene的中文全文检索系统模型.通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度.在检索结果的处理上,采用文本聚类的办法,使检索结果分类显示,提高了用户的查找的效率.实验数据表明,该系统在检索中文网页时,在效率,精度和结果处理等方面性能明显提高.  相似文献   

7.
从Word文档二进制文件数据中,过滤掉Word文档中的各种格式控制等数据,提取Word文档中用户需要的文本。这是一款非常实用的从Word文档中提取文本工具软件。  相似文献   

8.
一种好的智能搜索算法对智能Web应用是非常重要的。为了在智能Web应用中实现快速智能搜索且能有效地去除垃圾信息,首先介绍了Lucene开源系统,详细分析了Lucene的系统结构以及PageRank算法。按照Lucene的框架规范,将Lucene很好地嵌入到自己的搜索引擎中,利用爬虫从互联网上收集数据,使用目前流行的Lucene和PageRank搜索技术在收集的数据上进行了实例研究。研究表明若在Lucene搜索中添加PageRank分数,进行混合搜索排序时,相关性高的网页就会排到前面,从而有效提高在智能Web中搜索的准确率及效率。  相似文献   

9.
一种基于中心文档的KNN中文文本分类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
在浩瀚的数据资源中,为了实现对特定主题的搜索或提取,文本自动分类技术已经成为目前研究的热点。KNN是一种重要的文本自动分类方法,KNN能够处理大规模数据,且具有较高的稳定性,但面临分类速度较慢的问题。以KNN方法为基础,引入特征项间的语义关系,并根据语义关系进行聚类生成中心文档,减少了KNN要搜索的文档数,提高了分类速度。仿真实验表明,该算法在不损失分类精度的情况下,显著提高了分类的速度。  相似文献   

10.
一种好的智能搜索算法对智能Web应用是非常重要的。为了在智能Web应用中实现快速智能搜索且能有效地去除垃圾信息,首先介绍了Lucene开源系统,详细分析了Lucene的系统结构以及PageRank算法。按照Lucene的框架规范,将Lucene很好地嵌入到自己的搜索引擎中,利用爬虫从互联网上收集数据,使用目前流行的Lucene和PageRank搜索技术在收集的数据上进行了实例研究。研究表明若在Lucene搜索中添加了PageRank分数,进行混合搜索排序时,相关性高的网页就会排到前面,从而有效提高在智能Web中搜索的准确率及效率。  相似文献   

11.
Lucene在数据库全文检索中的性能研究   总被引:2,自引:0,他引:2  
通过Lucene API实现对MYSQL数据库的全文检索,并将Lucene全文检索的性能和查全率同数据库全文检索和Like子句检索作对比.通过对比发现Lucene全文检索在性能上接近数据库全文检索,检索耗时约为Like子句检索的1/5.在对中文检索方面能达到77.2%的查全率,大大高于数据库全文检索.因此对于数据量较大的MYSQL数据库,Lucene全文检索将是一个很好的选择.  相似文献   

12.
Knowledge retrieval is a decisive part of the performance of a knowledge management system. In order to enhance retrieval accuracy, an effective performance evaluation mechanism is necessary. Nowadays, there is not a standard evaluation framework for knowledge retrieval evaluation, because the evaluation set up is still technology-dependent, focusing on specific elements of the search context. The laboratory-based evaluation is not suitable to evaluate the knowledge retrieval process, since knowledge is dynamic, constantly changing and evolving. Besides, ambiguous query is also an important factor for the performance of knowledge retrieval systems. In order to improve the performance of knowledge retrieval, this paper proposes an evaluation mechanism using Six Sigma methodology to help developers continuously control the knowledge retrieval process. Specifically, this study involves the following tasks: (i) proposes a general knowledge retrieval framework based on the analysis result of knowledge retrieval, (ii) designs the knowledge retrieval evaluation framework using Six Sigma's Define-Measure-Analyze-Improve-Control (DMAIC) process and (iii) develops the related technologies to implement the knowledge retrieval evaluation mechanism. The knowledge retrieval evaluation mechanism allows system developers to maintain the knowledge retrieval system with ease and meanwhile enhance the accuracy.  相似文献   

13.
基于期望与K次方差的信息检索质量评估模型的研究   总被引:1,自引:0,他引:1  
查全率和查准率是评估信息检索系统检索质量的两个基本标准,长期以来,基于这两个标准,存在着多种评价方法,但是,这些方法基本上是对查全率和查准率做简单的处理,仅反映检索的平均, 对检索稳定性没有分析,并且缺乏一套科学的,系统的评估体系,针对这种情况,借鉴概率学中的期望和方差的思想,用数学语言严格定义了查全期望,查准期望,K次查全方差和K次查准方差等概念,在这些概念的基础上,给出了信息检索质量评估准则,与其它模型相比,该模型能从检索的平均质量和检索的稳定性两方面反映检索系统的性能,因此,对检索质量的评估更加完善和全面。  相似文献   

14.
本文旨在解决数据资产管理系统中信息检索效率低、检索结果准确率低下的痛点,基于排序学习算法构建智能检索系统,提升检索结果和用户请求的相关性。对排序学习算法理论进行研究,对常用的排序学习算法进行相关优化,将分类问题扩展到文本排序问题之上,定义相关的目标函数及损失函数,使用机器学习的方法来提升检索结果的准确度。基于垂直分布式搜索引擎技术及排序学习算法构建智能检索系统,通过相关性工程提升检索请求转化的效率。实验表明本系统可以在优化检索速率的基础之上,提升检索语句与返回结果之间的相关性和检索的准确度。  相似文献   

15.
针对传统软件技术设计的植物图像检索系统中存在无法实现智能检索、植物图像数量增长慢、检索系统难以扩容,以及当植物图像数量达到百万级以上时检索效率低和检索请求高并发时植物图像加载慢等问题,提出利用百度AI技术、ImageSharp图像分割技术和CV2颜色识别技术实现植物图像的智能检索。利用FastDFS技术实现检索系统的动态扩容、负载均衡和植物图像的快速加载,利用Solr搜索引擎技术提高海量植物图像的检索效率,利用Python爬虫技术不断丰富检索系统的植物图像从而实现检索系统的可持续化发展。实验结果表明,通过上述技术能够构建一个面向海量植物图像的智能检索系统。  相似文献   

16.
曲哲 《现代计算机》2013,(10):27-32
图像检索是信息检索的重要内容。为了提高基于内容的图像检索效率.在主色调较明显的图像检索中,提出多分块策略算法;多分块及分块匹配便于控制检索的粒度.以及定位表现内容的主题画面。在此基础上加入分块的权值反馈进行多次检索可捕获用户意图.提高检索精度。在分析分块策略、颜色空间选取、矢量量化改进,权值矩阵更新等技术基础上,实现检索系统原型并进行对比实验。在“媒体眼中的广州”主题新闻数据库中的检索应用表明.多分块主色结合相关反馈相比全局检索和简单的分块直方图累加检索方法.提高图像检索的查准率.  相似文献   

17.
基于内容的多媒体信息检索在图像检索中意义重大,其检索的依据主要是多媒体的特征向量值,因此多媒体信息特别是图像的特征向量的组织直接影响到数据检索的效率.对基于内容的多媒体检索技术进行了研究,同时借鉴基于关键字的检索技术,引进了二叉排序树来组织图像的特征向量,利用成熟的二叉排序树算法进行特征向量值的检索,提高了图像检索的效率.  相似文献   

18.
张刚  郭岩  张凯 《计算机工程》2007,33(2):158-159
集合选择是分布式信息检索中的重要问题,将集合选择问题转化为文档检索问题,尝试了多种文档检索方法来解决集合选择问题,并将各种方法的文档检索结果与集合选择结果进行了对比,通过与经典的集合选择算法CORI相比较,实验发现语言模型的集合选择方法能够取得令人满意的结果。  相似文献   

19.
目的 服装检索方法是计算机视觉与自然语言处理领域的研究热点,其包含基于内容与基于文本的两种查询模态。然而传统检索方法通常存在检索效率低的问题,且很少研究关注服装在风格上的相似性。为解决这些问题,本文提出深度多模态融合的服装风格检索方法。方法 提出分层深度哈希检索模型,基于预训练的残差网络ResNet(residual network)进行迁移学习,并把分类层改造成哈希编码层,利用哈希特征进行粗检索,再用图像深层特征进行细检索。设计文本分类语义检索模型,基于LSTM(long short-term memory)设计文本分类网络以提前分类缩小检索范围,再以基于doc2vec提取的文本嵌入语义特征进行检索。同时提出相似风格上下文检索模型,其参考单词相似性来衡量服装风格相似性。最后采用概率驱动的方法量化风格相似性,并以最大化该相似性的结果融合方法作为本文检索方法的最终反馈。结果 在Polyvore数据集上,与原始ResNet模型相比,分层深度哈希检索模型的top5平均检索精度提高11.6%,检索速度提高2.57 s/次。与传统文本分类嵌入模型相比,本文分类语义检索模型的top5查准率提高29.96%,检索速度提高16.53 s/次。结论 提出的深度多模态融合的服装风格检索方法获得检索精度与检索速度的提升,同时进行了相似风格服装的检索使结果更具有多样性。  相似文献   

20.
Information retrieval models are reviewed from the viewpoint of retrieval needs that cause different types of retrieval tasks. A generalized iterative query-response scheme of the retrieval process is presented. The characteristics of the system of retrieval mechanism models aimed at the support of retrieval tasks of different types, as well as at the development of the retrieval process using internal and external feedback, are stated. The use of models of multidimensional quantitative analysis based on coordinate indexing to perform external feedback is proposed.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号