首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
信息检索是从文档集合或互联网中找出用户所需信息的过程,细化为召回和排序两个阶段。针对排序阶段中相关文档的重排序,提出一种称为融合排序学习与预训练模型的检索排序方法(Pair-Wise FineTuned Bidirectional Encoder Representation from Transformers,PWFTBERT)。通过对候选论文数据集使用BM25等算法召回出与查询相关的小范围文档后,可应用PWFT-BERT对召回得到的文档集合进行排序。为构造pair-wise形式的训练数据,提出一种伪负例生成算法生成训练数据,并使用排序学习方法微调预训练模型使其适配排序任务。对比IT-IDF和BM25基线方法,PWFT-BERT在WSDM-DiggSci 2020数据集上的检索结果提升了240%和74%,证明了所提方法的有效性。  相似文献   

2.
提出了一种基于信息检索技术的程序源代码与中文文档关联信息的自动提取方法.假设程序员在编写代码时使用了有意义的类、函数和变量名,利用信息检索方法得到对应的包含有这些意义的文档.通过提取文档中的词汇建立文档的语言概率模型,在此基础上采用由代码信息组成的检索项来检索文档集,由此得到代码和文档的相关性列表和关联矩阵.通过三个软件系统对此方法进行测试,结果表明,当提取项大于5时可获得95%以上的关联.  相似文献   

3.
结合本体论和统计方法的跨语言信息检索模型   总被引:1,自引:0,他引:1  
为了更有效地提高跨语言信息检索的性能,结合本体论和统计方法的特性,提出一种混合的跨语言信息检索模型.在该语言模型的结构上,提出一种本体描述框架,构造了一个形式化的语言本体知识表示,通过典型语料学习,融合了语法、语义、句法等多元信息,建立了源语言本体知识库.在跨语言信息检索的实际应用中,利用本体表示,获得初始的检索文档集,再基于源语言本体知识库,对全部候选文档重新排序,以提高TopN排列的精确度.利用NTCIR-3Workshop中的中英文跨语言信息检索数据集对该语言模型进行了评价,相关实验结果表明,该方法取得了较满意的实验效果.  相似文献   

4.
元搜索引擎结果合成算法研究   总被引:1,自引:0,他引:1  
提出了一种基于文本/位置分析和群决策的查询结果合成算法.在充分考虑搜索结果文本信息的基础之上,提出查询匹配度的概念,并对搜索结果的标题和短文摘进行相关度分析,通过将文本分析与规范化的搜索结果排序值相结合来计算文档的相关分值.在估计非相关文档的相关分值时,针对不同假设条件分别进行了讨论,并提出改进的影子文档算法.然后,采用基于群决策的合成方法对相关分值进行合并,实现搜索结果的一致性排序.实验结果表明采用该算法,搜索结果的相关性明显优于Round-robin、CombSum和CombMNZ 3种合成算法.  相似文献   

5.
《南昌水专学报》2015,(3):33-37
在基于图像信息的疾病临床诊断中,医生通常将患者的采集图像与标准照片对比,通过比较图像中的视觉特征信息来判断患者疾病的严重程度。然而,这种诊断方法比较主观且可重复性不高,因此提出一种新颖的基于图像信息和排序学习技术的计算机辅助诊断疾病方法,并通过白内障疾病诊断的临床实验来验证方法的有效性。该方法利用排序函数对记录了患者白内障疾病的裂隙灯图像进行排序,而该排序函数则是基于一类新提出的近似排序标准并通过梯度法优化而求解的。在实验中,以1 000名具备白内障疾病患者的裂隙灯图像来组建实验用数据库,用提出的新方法和现有的其他基于模式识别技术的诊断方法分别对这1 000个案例进行了疾病诊断预测,预测结果采用统计学方法进行了比较和分析,新提出的方法可行性和优越性均得到了验证。  相似文献   

6.
基于FVSM和自组织映射网络的Web文本自动分类方法   总被引:1,自引:0,他引:1  
针对Web信息挖掘中的文本自动分类问题,提出了一种基于模糊特征向量(FVSM)和自组织特征映射网络的分类方法.网络由输入层和竞争层组成.输入层节点与竞争层节点实行全互连接.输入层完成分类样本的输入,竞争层提取输入样本所隐含的模式特征,并对其进行自组织,在竞争层将分类结果表现出来.分无监督和有监督两个阶段完成对网络的分类训练.该方法在特征提取时充分考虑了特征项在文档中的Web位置信息,构造出模糊特征向量,使自动分类原则更接近手工分类方法.以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性.  相似文献   

7.
针对多输入样本的网络训练,提出了相似性保持实例检索方法。首先,经深度网络除卷积结构提取输入图像的特征并加以池化操作。然后,依照基准排序,修正低相关性图像与查询图像的相似度关系,获得低相关性图像的对比损失系数,保留损失基准值内的损失值,进行基于相似性保持的对比损失训练。最后,使用训练后网络提取图像特征,用于进行实例级图像检索。实验结果表明:基于相似性保持的损失对比函数具有可行性,该方法显著提高了实例级图像的检索精确度。  相似文献   

8.
目的研究遗传算法在偏心结构中非线性黏滞阻尼器位置优化的应用问题,通过与穷举法结果比较,验证了该优化方法的可行性.方法分别采用了二进制的对称分组和自由分组两种编码方式,基于改进的遗传算法(MGA)和有限元分析软件SAP2000API开发了一种面向偏心结构中阻尼器快速优化布置的平台.推导了基于拟合标准反应谱生成的人工地震动记录的方法,提出了两种为抑制偏心结构扭转效应而设计的评价函数,然后引入两个性能评价指标,进行了大量逐步积分数值分析.与穷举法比较验证了该优化平台对于偏心结构中,给定数目黏滞阻尼器位置优化结果的可靠性和高效性.结果评价函数的设计和编码方法的选择对阻尼器优化影响较大,场地地震动输入会影响阻尼器的位置优化与编码方法的选择相关;力学参数的改变不影响阻尼器的位置分布,但非黏滞阻尼器阻尼系数和阻尼指数取值适中,可以兼顾层间位移角最大楼层和结构总体反应两个方面的减震效果.结论遗传算法与有限元方法的结合,可以方便快捷地解决偏心结构中阻尼器的位置优化的问题.但评价函数、编码方法以及地震动输入的选择要结合实际工程的需要.  相似文献   

9.
为使k-部排序学习算法对所有结构的本体图都有效,提出一种半监督k-部排序学习算法.将训练样本集分成带标记和不带标记两类,通过推进的方法优化指数亏损模型,得到组合权值;并通过贪心的方法得到排序特征,由此得到排序函数.从而将本体图(或多本体结构图)中每个顶点映射成一个实数,由本体顶点对应实数间的差值判断概念间的相似程度.通过两个实验说明了新算法对于本体相似度计算和在不同本体间建立映射是有效的.  相似文献   

10.
传统的信息检索系统都是按照结果与用户查询的相关性大小进行排序,返回结果之间相互孤立缺乏整体性,冗余性很大.为了使用户获得完整的相关信息,采用一种基于子主题提取的文档集合生成算法聚类相关检索结果,引入一个新概念"并集度",最后利用相关度、并集度和新颖度对结果集重新排序.实验结果表明在进行算法改进后,整体相关度有所上升,同时排在前面的文档集合的并集度和新颖度也较大,包含的信息更加完整,冗余性更小,可以更好地满足用户的查询需求.  相似文献   

11.
本文讨论了概率模型的新闻资料全文检索及排序算法。作者提出了全文检索最佳排序原则。根据Neyman-Pearson决策规则导出了最优检索规则,并据此提出了BI概率模型和相应的最优查询。根据用户对被检索文献作出的相关判断,对构造BI模型的最优查询所需参数进行了估计。最后,提出了基于概率模型的全文检索排序算法。  相似文献   

12.
由于目前的图像检索技术没有考虑壁画的构图学特征,缺乏对复杂语义的处理能力,难以满足古代壁画研究工作对检索全面性和准确性的要求.为提高古代壁画图像语义检索的质量,提出基于构图分析的相关度模型,通过引入基于绘画构图学的理论和分析方法,从壁画内容的布局、主题和语义三方面用量化方法描述检索语义与壁画内容的相关度,较好地解决了用户的真实检索意图与壁画内容间的“语义鸿沟”问题.该相关度评价模型可嵌入基于语义查询扩展的框架中,以提高Top N结果的准确率,同时维持了较高的查全率.敦煌壁画资料检索的实际应用表明:以反映前n个结果准确率的R-Precision为评测指标,基于构图分析的相关度评价方法可比未采用相关度评价的基线方法平均高出36%.  相似文献   

13.
A new method to evaluate fuzzily user's relevance on the basis of cloud models has been proposed. All factors of personalized information retrieval system are taken into account in this method. So using this method for personalized information retrieval (PIR) system can efficiently judge multi-value relevance, such as quite relevant, comparatively relevant, commonly relevant, basically relevant and completely non-relevant, and realize a kind of transform of qualitative concepts and quantity and improve accuracy of relevance judgements in PIR system. Experimental data showed that the method is practical and valid. Evaluation results are more accurate and approach to the fact better.  相似文献   

14.
Information retrieval (IR) is to find by usingrelevant technology a set of relevant documents to us-er’s queries froma large number of documents . Thisset includes a certain number of documents , whichinclude non-relevant documents asless as possible .Inother words ,the major taskinIRistorealize the rel-evance judgements to query. Relevance is one of thekey concepts in IR.User’s relevanceis some kind of applicabilityforone document to a special user . Documents take onrandomicity and unce…  相似文献   

15.
Lucene是一个纯Java实现的高性能、可扩展的全文信息检索工具库,可以很方便地把它融入到应用程序中来增加索引和搜索功能.分析了Lucene的索引文件结构和搜索排序算法,探讨了Lucene中计算文档与查询项相关度的向量空间模型(VSM).最后,通过实验验证了索引过程的建立以及如何提高索引性能.  相似文献   

16.
针对传统挖掘模型对图书信息检索中读者兴趣偏好数据进行挖掘时,存在的挖掘效率低、耗时长等问题,提出基于聚类分析的读者兴趣偏好挖掘模型.采用分类索引分布树法对图书相似度与读者兴趣距离进行计算,通过兴趣因子对兴趣偏好度进行度量,并以此为基础,采用相关反馈模型Rocchio算法对读者兴趣图书检索进行扩展,引入聚类分析法建立图书信息检索中读者兴趣偏好挖掘模型.实验仿真结果表明,采用改进模型时,其挖掘效率、时间及误差均优于传统模型.  相似文献   

17.
为了解决微博检索面临的"用户查询"和"相关文档"都是极端短文本的情况,及由此造成的检索性能欠佳的难题,研究并实现了一种微博检索结果的二次重排算法,基于微博内容相似关系构建关系图模型,利用PageRank算法对微博检索结果进行二次排序.比较了基于余弦相似度、戴斯系数、单向戴斯系数等文本内容相似度计算方法.实验结果表明:二次排序算法能够有效提升微博检索性能,同时图模型迭代性能与相关主题比例存在依存关系.有鉴于此,讨论通过决策树重排算法去除非相关主题对微博排序的影响.  相似文献   

18.
全文检索作为现代信息检索技术的一个重要分支,不仅是处理非结构化数据的重要工具,也是搜索引擎的主流技术之一。本文首先从全文搜索引擎模型入手,对其基本工作原理和流程进行深入研究,并结合这些知识研究开源检索引擎包Lucene的架构原理及其开发应用方法。然后介绍中文分词和基本算法及Lucene的相关技术。  相似文献   

19.
为解决现有语义模糊可搜索加密方案无法取得排序可验证的问题,提出一种支持语义模糊搜索并能对搜索结果的排序进行验证的方案。首先引入相关度分数和域加权得分,构造精确度更高的倒排索引结构。通过非线性保序加密,云服务器可以对搜索结果进行高效排序,减少了用户的计算开销和网络资源浪费。接着基于WordNet词典集对查询关键词进行语义拓展。在构造出语义拓展树后,只选取最相关的语义拓展词进行查询。通过引入语义相似度,设计双因子排序算法对搜索结果进行精确排序。然后为创建验证信息,将关键词集合插入布隆过滤器中,并计算布隆过滤器、安全索引、密文文档的消息认证码。在搜索阶段,通过布隆过滤器可以验证索引中是否存在查询关键词,并使用消息认证码对索引、文档的完整性和正确性进行验证。通过引入索引树结构进一步提高方案的搜索效率。最后,将本方案与相关方案在功能、存储开销、搜索开销等方面进行比较,并对创建索引、创建验证信息、语义拓展、加密查询、查询、验证等方面的开销进行仿真实验。方案对比分析显示本方案在语义搜索、排序、验证等功能上具有优势。实验结果表明,本方案不仅实现了语义模糊搜索与结果排序,而且实现了排序结果可验证功能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号