首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 46 毫秒
1.
传统的信息检索系统都是按照结果与用户查询的相关性大小进行排序,返回结果之间相互孤立缺乏整体性,冗余性很大.为了使用户获得完整的相关信息,采用一种基于子主题提取的文档集合生成算法聚类相关检索结果,引入一个新概念"并集度",最后利用相关度、并集度和新颖度对结果集重新排序.实验结果表明在进行算法改进后,整体相关度有所上升,同时排在前面的文档集合的并集度和新颖度也较大,包含的信息更加完整,冗余性更小,可以更好地满足用户的查询需求.  相似文献   

2.
由于目前的图像检索技术没有考虑壁画的构图学特征,缺乏对复杂语义的处理能力,难以满足古代壁画研究工作对检索全面性和准确性的要求.为提高古代壁画图像语义检索的质量,提出基于构图分析的相关度模型,通过引入基于绘画构图学的理论和分析方法,从壁画内容的布局、主题和语义三方面用量化方法描述检索语义与壁画内容的相关度,较好地解决了用户的真实检索意图与壁画内容间的“语义鸿沟”问题.该相关度评价模型可嵌入基于语义查询扩展的框架中,以提高Top N结果的准确率,同时维持了较高的查全率.敦煌壁画资料检索的实际应用表明:以反映前n个结果准确率的R-Precision为评测指标,基于构图分析的相关度评价方法可比未采用相关度评价的基线方法平均高出36%.  相似文献   

3.
提出一种基于上下文多元信息实现文档相似度计算的方法,该方法首先抽取文档的特征词,对具有相同(或相近)意义特征词的文档,分别获得特征词在上下文中同现词的词性、语义信息、位置关系、平均同现概率等多元信息,以量化形式描述成一个相似函数;然后分别从两两文档的相似函数中得到文档的相似度评价值,作为衡量文档相似程度的重要依据.利用该评价方法,使用NTCIR-3中的跨语言信息检索数据集中的中文文档,对初始检索文档的顺序重新排列,实验结果表明,该方法分别将前10个最佳召回文档和前100个最佳召回文档的平均精确度提高了15.45%~18.49%和11.96%~15.35%在另一组有关相同网页信息的实验中,几组不同类别文档相似度F1-measure平均值均在95%以上.  相似文献   

4.
信息检索是从文档集合或互联网中找出用户所需信息的过程,细化为召回和排序两个阶段。针对排序阶段中相关文档的重排序,提出一种称为融合排序学习与预训练模型的检索排序方法(Pair-Wise FineTuned Bidirectional Encoder Representation from Transformers,PWFTBERT)。通过对候选论文数据集使用BM25等算法召回出与查询相关的小范围文档后,可应用PWFT-BERT对召回得到的文档集合进行排序。为构造pair-wise形式的训练数据,提出一种伪负例生成算法生成训练数据,并使用排序学习方法微调预训练模型使其适配排序任务。对比IT-IDF和BM25基线方法,PWFT-BERT在WSDM-DiggSci 2020数据集上的检索结果提升了240%和74%,证明了所提方法的有效性。  相似文献   

5.
设计并实现了一个基于相似聚类算法的垂直搜索引擎。利用网络爬虫NWebCrawler,通过定制正则表达式,高效爬取所需的URL;通过解析爬取的URL信息,提取结构化数据;利用正向最大匹配算法,对搜索关键字分词;利用向量空间模型,根据相似度值对搜索结果聚类;基于Lucene建立索引,检索所需信息。实验结果表明,基于相似聚类算法的垂直搜索引擎,比通用搜索引擎的准确率和召回率高,与普通的垂直搜索引擎相比,具备了相似产品查询功能。  相似文献   

6.
基于潜在语义索引技术提出一种大容量文本的快速检索算法.首先,利用奇异值分解方法对向量空间模型进行改进,充分考虑词项之间的相关性,在低维空间中表示待检索文本的各个段落与查询文本;其次,利用随机分块查询算法,以查询文本和待检索文本各段落之间的余弦相似度作为适应度函数进行检索,输出相似度超过阈值的候选段落;最后,通过仿真实验验证了该方法的有效性.实验结果表明,该算法可以根据段落的语义进行文档的搜索,可以为查询大容量文档提供有效的手段.  相似文献   

7.
《南昌水专学报》2016,(1):56-60
提出一种歧义字段与其所在句子语义联系为依据的中文分词交叉歧义处理方法。该方法模拟人浏览句子按照语义和词语相关度寻找消歧证据的经验,通过比较计算歧义字段与整个句子的语义相似度和语义相关度,提出基于语义扩展度的中文分词交叉歧义处理算法,进而提高分词准确率,与经典的ICTCLAS分词系统相比,切分准确率和召回率均有很大提高。  相似文献   

8.
提出了基于语义和语法的服务检索方法. 采用语义相似度的方法对服务进行管理,以达到提高检索效率的目的;采用语法结构的方式,利用命题库模式对服务建模并提出检索算法,以提高服务检索的精确率. 以响应时间、召回率、精确率、综合评价指标为衡量指标,通过实验说明了结合语义和语法的检索方法的有效性.  相似文献   

9.
一种基于内容的文档图像检索方法   总被引:1,自引:0,他引:1  
使用一个图像作为查询检索输入,根据该图像的版面分析特征、统计特征、纹理特征与数据库中图像的相似程度检索图像.该检索方法首先利用数学形态学对文档图像进行段落分割和行分割,作为文档图像的版面结构特征;然后根据图像的统计特征包括字符数、统计数特征、纹理特征给出文档图像抽取算法;最后给出检索算法模型.实验结果表明,本算法具有较好的查准率和查全率,在基于内容的文档图像检索中具有应用价值.  相似文献   

10.
元搜索引擎结果合成算法研究   总被引:1,自引:0,他引:1  
提出了一种基于文本/位置分析和群决策的查询结果合成算法.在充分考虑搜索结果文本信息的基础之上,提出查询匹配度的概念,并对搜索结果的标题和短文摘进行相关度分析,通过将文本分析与规范化的搜索结果排序值相结合来计算文档的相关分值.在估计非相关文档的相关分值时,针对不同假设条件分别进行了讨论,并提出改进的影子文档算法.然后,采用基于群决策的合成方法对相关分值进行合并,实现搜索结果的一致性排序.实验结果表明采用该算法,搜索结果的相关性明显优于Round-robin、CombSum和CombMNZ 3种合成算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号