共查询到20条相似文献,搜索用时 15 毫秒
1.
元搜索引擎的查询结果合成是元搜索引擎研究的关键环节.提出了一种基于0WA算子的查询结果合成方法.在充分考虑搜索结果文档位置信息的基础上,引入0WA算子整合得到文档在搜索结果中的排列位置综合分值,然后结合用户兴趣类,计算用户查询与查询结果的相似度,最后对两项结果进行加权求和,实现搜索结果的一致性排序.实验结果表明,采用该查询结果合成方法提高了用户检索的准确率和质量. 相似文献
2.
信息检索中的聚类分析技术 总被引:1,自引:0,他引:1
信息检索/搜索引擎技术的快速发展使得信息的查全率有较大提高,而查准率以及人们获取信息的效率改善却不明显。文本聚类和多文档关键词的自动生成技术将有助于解决这一问题。其基本思想是对检索到的部分文档进行聚类处理,并对每类文档自动生成关键词,从而帮助用户判断各个类别的文档和检索需求是否相关。该文提出文档相关度和类别相关度的概念,并利用词频信息以及知网(HOWNET)中词的概念计算模型计算类别相关度,将其作为聚类合并的依据。信息获取的仿真实验表明文档检索效率有较大提高。 相似文献
3.
<正>本文对于企业中常见多域文档库[1](知识库)在检索使用方面的问题进行了分析,发掘出目前多域文档库的不足与弊端,梳理出日常工作中对于搜索引擎的需求,提出了基于开源软件构建企业级搜索引擎实现跨域问题检索解决多业务域检索问题的实现方案,并在传统的搜索引擎功能上,引入自然语言处理(Natural Language Processing,NLP)技术,建立Word2vec词向量模型,加强查询关键词在索引,查询时候泛化能力,实现更加智能的检索和结果排序,整体项目使用基于Spring Boot框架的MAVEN项目构建,引入Solr提供检索功能,引入Deeplearning4j使用实现词向量化,相关词词库生成,文本相似度计算,分词器采用Han LP分词器1.8.2版本,并基于垂直领域的语料进行重新训练,提高分词的准确性,爬虫引擎使用开源的Crawler4轻量级引擎,实现跨域文本的高效、并行的爬取,项目落地实施后,实现了最初的设计目的,解决了企业的检索问题,实现了准确、智能的检索功能。本文还根据人工智能项目的实施特点,总结了人工智能项目实施中的经验教训,指导类似项... 相似文献
4.
文中研究如何从HTML文档中提取图片相关信息,保证高效和准确的实现图片检索。在对图像搜索引擎检索模式分析的基础上,提出了若干关键技术,设计并实现了一个基于文本的Web图片搜索引擎,给出了系统的总体结构图.并对获取网页、提取信息、图片抓取、建立索引和提供查询进行了详细的描述,分析了图像搜索引擎的检索模式。 相似文献
5.
6.
元搜索引擎与基本成员搜索引擎之间的信息交换,是元搜索引擎技术实现的难题,针对这一问题,选择Google和Baidu基本搜索引擎,实现了对这两个基本搜索引擎的检索、结果采集、生成搜索记录的过程,并对采集、处理后的检索结果进行排序,供用户进行二次检索。 相似文献
7.
8.
基于加权复杂网络的中文文档关键短语抽取 总被引:1,自引:1,他引:0
提出了基于加权复杂网络的中文文档关键短语抽取方法.在识别完整短语后,将单个文档构建成一个语义复杂网络,同时加以共现信息对网络予以权重.之后进行网络分离,计算主体网络节点的加权点度中心度,同时提出基于边界节点的介数,解决了介数计算量大的问题.最后结合加权点度中心度和基于边界节点的介数抽取出关键短语,表现出良好的抽取效果,对利用复杂网络抽取关键短语有很好的指导作用. 相似文献
9.
Indri是开源的检索工具,我们基于其官方网站上提供的文档,论文以及源代码,并对其进行研究,采用学习该项目中检索模型及索引建立的原理和方法,得到了collection文件夹的组成形式,提出了mainfest文件是一个xml文件存储了配置信息,storage文件存储了集合中文档的压缩版本以及用来高亮显示查询结果时需要的term bounding信息,lookup文件用B-tree的结构存储了文档ID和偏移量的映射关系,用来支持随机快速访问的动态索引机制. 相似文献
10.
Indri是开源的检索工具,我们基于其官方网站上提供的文档,论文以及源代码,并对其进行研究,采用学习该项目中检索模型及索引建立的原理和方法,得到了collection文件夹的组成形式,提出了mainfest文件是一个xml文件存储了配置信息,storage文件存储了集合中文档的压缩版本以及用来高亮显示查询结果时需要的term bounding信息,lookup文件用B-tree的结构存储了文档ID和偏移量的映射关系,用来支持随机快速访问的动态索引机制。 相似文献
11.
文章构想了一个对网络信息体系中存在的态势信息进行处理的系统。该系统可实时地从各种专用网络中接收异构的态势信息,将接收到的态势信息转化为系统内部格式统一的态势数据,实时构建统一的态势图;利用云存储和云计算技术对全局态势数据进行存储和分析利用边缘存储和边缘计算技术完成局部态势数据的存储、态势实时显示与回放、三维态势重建以及相关的实时分析。并对与系统相关的若干问题进行了思考。 相似文献
12.
贝叶斯网络是一种不确定性知识表达和推理工具,是解决信息检索等相关领域问题的有效手段。考虑到货源信息和贝叶斯网络的特点,设计一种基于贝叶斯网络的货源信息检索模型。该模型利用一组货源信息样本文献来描述查询要求和待检测文献,通过计算它们之间的相似度,对通用搜索引擎的返回结果进行排序,从而检索到用户所需的货源信息。实验数据结果表明,贝叶斯网络模型比信任度网络模型和推理网络模型的检索效果更好。所以,在进行大规模的电子商务货源信息搜集时,基于贝叶斯网络的货源信息检索模型是行之有效的。 相似文献
13.
14.
在分布式检索中,基于主题的语言模型集合选择方法首先引入Relevance Model计算用户查询和信息集合中文档的相似度,在此基础上通过文本聚类得到集合中文档的主题信息,加入语言模型计算得到各个信息集合的查询相关度排名,以此完成集合选择.实验表明,与ODRI、CRCS和基于传统语言模型的集合选择算法相比,该方法的检索效果得到了显著提高. 相似文献
15.
16.
针对传统搜索引擎在用户个性化需求方面存在的不足,提出了一种个性化的搜索引擎。利用个性化信息采集系统收集和提取用户的个性化信息,为用户提供个性化和人性化的信息搜索服务。同时在分析现有技术优劣的基础上,设计实现了一套具有高度系统灵活性和扩展性的网络信息自动搜索系统,同时实现了个性化搜索信息的自动保存。 相似文献
17.
基于后缀树词序列核挖掘Web文档 总被引:1,自引:1,他引:0
通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核.首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用支持向量机对文档进行分类.理论分析表明后缀树词序列核的计算只与比较文档的长度成线性关系,大大减少了序列核的计算时间.在reuters21578文档集上将后缀树词序列核与词序列核、多项式核进行比较,实验结果表明在改善速度的同时,后缀树词序列核可达到与词序列核相当的性能,优于多项式核,更适于Web文档挖掘等应用. 相似文献
18.
网络多媒体体育教学资源库中的信息量庞大,加大了信息模糊检索的难度,导致检索匹配度低、耗时长的问题出现,因此提出网络多媒体体育教学资源库信息模糊检索方法。分析网络多媒体体育教学资源库信息模糊检索关键词与文档之间的相关性,以此构建初始检索模型。为进一步优化检索模型的性能,对检索子查询分区进行扩展处理,结合模糊逻辑检索规则实现初始检索模型的优化,利用优化后的模型实现信息模糊检索。实验结果表明,所提方法初始查询与索引文档的匹配度较高,检索耗时较短,具有较高的实际应用价值。 相似文献
19.
随着网络信息技术的发展,信息数据量越来越庞大,传统的搜索引擎虽然也能检索出有价值的信息,但是存在的弊端是显而易见的。Web数据挖掘技术是web服务技术和数据挖掘技术相结合的新兴的综合技术,为搜索引擎的个性化提供了强大的技术,本文将对此做详细的阐述。 相似文献
20.
元搜索引擎综合了多个搜索引擎的搜索结果,提高了搜索的覆盖率,但是它们返回的结果往往数目庞大,并且很多结果与用户查询并不相关。为了提高元搜索引擎的查询精度,文章提出了一种基于用户兴趣的元搜索引擎检索结果合成技术。该技术先对检索结果进行去重、消除死链接.然后根据基于用户兴趣的检索结果优劣比排序算法对结果进行排序,为用户提供贴切的查询结果。该技术能提高用户的检索效率和查询质量。 相似文献