首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 546 毫秒
1.
详细描述了利用Lucene全文索引工具包设计与实现的一个Web全文信息检索系统,给出了系统的设计框架和各个组成模块的实现技术,介绍了系统实现中的检索策略和算法。为了提高系统的检索性能。本文提出并实现了利用链入锚文本和链接分析对检索结果进行重新排序,有效提高了检索的准确率。  相似文献   

2.
本文旨在解决数据资产管理系统中信息检索效率低、检索结果准确率低下的痛点,基于排序学习算法构建智能检索系统,提升检索结果和用户请求的相关性。对排序学习算法理论进行研究,对常用的排序学习算法进行相关优化,将分类问题扩展到文本排序问题之上,定义相关的目标函数及损失函数,使用机器学习的方法来提升检索结果的准确度。基于垂直分布式搜索引擎技术及排序学习算法构建智能检索系统,通过相关性工程提升检索请求转化的效率。实验表明本系统可以在优化检索速率的基础之上,提升检索语句与返回结果之间的相关性和检索的准确度。  相似文献   

3.
近年来,关系数据库的关键词检索研究再度成为热点问题。本文首先对关键词检索的一些基础知识进行阐述,接下来再对检索处理的相关技术和方法比如关系数据库模式与模式图的相关定义、检索处理、查询语言、评分与排序、提交查询结果这几个方面进行完整的分析。  相似文献   

4.
李勇  相中启 《计算机应用》2019,39(1):245-250
针对云计算环境下已有的密文检索方案不支持检索关键词语义扩展、精确度不够、检索结果不支持排序的问题,提出一种支持检索关键词语义扩展的可排序密文检索方案。首先,使用词频逆文档频率(TF-IDF)方法计算文档中关键词与文档之间的相关度评分,并对文档不同域中的关键词设置不同的位置权重,使用域加权评分方法计算位置权重评分,将相关度评分与位置权重评分的乘积设置为关键词在文档索引向量上相应位置的取值;其次,根据WordNet语义网对授权用户输入的检索关键词进行语义扩展,得到语义扩展检索关键词集合,使用编辑距离公式计算语义扩展检索关键词集合中关键词之间的相似度,并将相似度值设置为检索关键词在文档检索向量上相应位置的取值;最后,加密产生安全索引和文档检索陷门,在向量空间模型(VSM)下进行内积运算,以内积运算的结果为密文检索文档的排序依据。理论分析和实验仿真表明,所提方案在已知密文模型和已知背景知识模型下是安全的,且具备对检索结果的排序能力;与多关键字密文检索结果排序(MRSE)方案相比,所提方案支持关键词语义扩展,查询准确率比MRSE方案更加准确可靠,而检索时间则与MRSE方案相差不大。  相似文献   

5.
李珍  姚寒冰  穆逸诚 《计算机应用》2019,39(9):2623-2628
针对密文检索中存在的计算量大、检索效率不高的问题,提出一种基于Simhash的安全密文排序检索方案。该方案基于Simhash的降维思想构建安全多关键词密文排序检索索引(SMRI),将文档处理成指纹和向量,利用分段指纹和加密向量构建B+树,并采用"过滤-精化"策略进行检索和排序,首先通过分段指纹的匹配进行快速检索,得到候选结果集;然后通过计算候选结果集与查询陷门的汉明距离和向量内积进行排序,带密钥的Simhash算法和安全k近邻(SkNN)算法保证了检索过程的安全性。实验结果表明,与基于向量空间模型(VSM)的方案相比,基于SMRI的排序检索方案计算量小,能节约时间和空间成本,检索效率高,适用于海量加密数据的快速安全检索。  相似文献   

6.
现有的数据资源智能检索方法的检索排序质量较低,检索结果文档排名顺序和文档之间的相关性较低,为此提出基于自然语言处理的社区人口数据公共信息智能检索方法。对物联网检索问题进行分析,引入自然语言处理方式对社区人口数据公共信息进行映射处理,以信息在公共语义空间环境的分布位置为基础提取特征,将与社区人口数据公共信息检索请求特征拟合度最高的信息作为检索输出结果,实现社区人口数据公共信息智能检索。在测试结果中,所设计检索方法的NDCG值未受到并行检索请求数量的影响,NDCG值处于较高水平,表示检索结果的排序质量较高,文档排名顺序和文档之间的相关性较高,说明设计方法能够有效地对检索结果进行排序,具有较高的性能。  相似文献   

7.
一种对语义网上本体进行检索和排序新方法   总被引:2,自引:0,他引:2  
提出了一种对语义网上的本体进行检索和排序的新方法ARRO(an Approach for Retrieval and Ranking for the On-tology),其核心思想是通过对本体进行解析产生逻辑三元组.再在三元组的基础上进行逻辑推理,形成概念的逻辑视图,然后通过排序公式对相关本体进行检索和排序.这种通过逻辑视图和三元组对本体进行检索和排序的方法可以有效的进行逻辑推理,并提高检索效率,从而解决在传统的基于关键字的信息检索中只能从句法上对关键字进行分析,无法将推理和检索相互结合,互相促进的问题.本文对ARRO进行了测试,结果验证了其实用性和有效性.  相似文献   

8.
随着Internet的迅猛发展,网络信息呈爆炸式增长。Web信息检索是一个从Web海量数据中检索用户感兴趣信息的综合技术,它从一定程度上满足了用户对信息的需求,但返回页面的数量依然十分巨大。如何对搜索结果进行排序已成为影响搜索质量的一个重要问题。本文介绍了两种页面排序算法PageRank和HITS,并对网页排序算法的若干改进进行了讨论。  相似文献   

9.
在传统的元搜索引擎中采用了Borda排序算法,即根据成员引擎检索结果的相关位置赋予一定分值,求和后按总分递减排序。这对各个成员引擎检索结果重叠度较高的检索排序非常有效,但对独立的搜索结果效果不好,速度较慢。另有根据检索字符串和检索结果的标题、摘要等相似度进行排序,这种排序快速,实现简单,但返回的信息简单,可能导致摘要信息多的排在前面,而不是内容相关的高的排在前面。针对这两种算法的不足,提出了一种改进的综合Borda排序算法,计算检索字符串和结果标题、摘要的相似度,再把相似度作为相关分值进行排序,它综合了两种算法。实验结果表明,他的查准率优于传统的Borda算法。  相似文献   

10.
李勇  相中启 《计算机应用》2018,38(9):2554-2559
云计算环境下密文检索困难,已有的可搜索加密方案存在时间效率低、文件检索索引不支持更新、检索结果不能实现按精确度排序等问题。首先基于计数型布隆过滤器构建文件检索索引,将文件集中的关键词哈希映射到计数型布隆过滤器索引向量,实现了按关键词进行密文检索,同时,支持密文检索索引的动态更新。其次,由于计数型布隆过滤器本身不具备语义功能,不能实现按相关度对检索结果排序,引入关键词频率矩阵和词频逆文本频率(TF-IDF)模型计算关键词的相关度分值,以实现按相关度分值对检索结果排序。最后,理论和实验性能分析证明了该方法的安全性、可更新能力、可排序能力和高效性。  相似文献   

11.
The applications of quantitative structure activity relationships (QSAR) are used to establish a correlation between structure and biological response. Similarity searching is one of QSAR major phases. Innovating new strategies for similarity searching is an urgent task in cheminformatics research for three reasons: (i) the increasing size of chemical search space of compound databases; (ii) the importance of similarity measurements to (2D) and (3D) QSAR models; and (iii) similarity searching is a time consuming process in drug discovery. In this study, we introduce theoretical similarity searching strategy based on membrane computing. It solves time consumption problem. We adopt a ranking sorting algorithm with P System to rank probabilities of similarity according to a predefined similarity threshold. That bio-inspired model, simulating biological living cell, presents a high performance parallel processing system, we called it PQSAR. It relies on a set of rules to apply ranking algorithm on probabilities of similarity. The simulated experiments show how the effectiveness of PQSAR method enhanced the performance of similarity searching significantly; and introduced a standard ranking algorithm for similarity searching.  相似文献   

12.
分析了当前Web信息检索的技术现状,指出检索效率不高的根本原因在于搜索引擎所采用的排序函数和标引词加权技术。介绍了传统的信息检索排序函数和标引词加权技术。分析了Web文档的特点,指出其主要形式HTML文档是一种结构化文档,结构由标签显式地定义,不同文档结构对检索性能的贡献不同。对本领域国内外学者的成果作了对比研究。最后探讨了Web信息检索排序函数及标引词加权技术的发展方向。  相似文献   

13.
研究了基于语义网的本体构建和Jena搜索技术.首先介绍了基于语义网的本体构建方法和评估原则,然后介绍SPARQL语言,提出术语关联搜索机制和术语的相关度排序方法,其次介绍航天产品开发领域术语库构建过程,最后应用到原型系统,以验证了该方法的有效性.  相似文献   

14.
基于术语相似度的贝叶斯网络检索模型扩展   总被引:2,自引:0,他引:2       下载免费PDF全文
徐建民  白彦霞  吴树芳 《计算机工程》2007,33(16):175-177,180
利用术语相似度将同义词间的相似程度数量化,以此量化关系对用于信息检索的简单贝叶斯网络进行改进,并进行有效的概率推理。实验结果表明新模型不仅具有良好的检索效果,而且相关文档的排序更加合理。  相似文献   

15.
曹艳蓉  章韵  李涛  李华康 《计算机科学》2018,45(10):150-154
随着移动互联网技术和医疗社区平台的普及,越来越多的市民在去医院就诊前会上医疗社区平台进行症状查询或者寻医咨询。医疗社区平台上的商业导向、广告植入乃至无良偏方很容易诱导患者采用不恰当的治疗手段。针对这些信息给综合检索平台的通用医疗信息检索带来了巨大噪声的问题,提出一种基于医疗社区平台信息提供方的可信评价机制。该方法通过分析医疗咨询信息提供者的专业等级、关注领域、信息认可度等社区平台公开数据对一个医疗社区问答集中的多个回答进行排序筛选,解决了医疗社区问答系统中“一问多答”现象给检索系统带来的干扰;同时将新的医疗咨询检索内容进行科室分类,并与信息提供方的关注领域进行匹配,从而有效提高了检索系统对医疗社区平台问答数据的检索命中率。  相似文献   

16.
该文探究手术操作术语归一化方法的构建。首先,分析手术操作术语归一化数据集的特点;其次,调研术语归一化的相关方法;最后,结合调研知悉的技术理论方法和数据集特征,建立手术操作术语归一化模型。该文融合文本相似度排序+BERT模型匹配开展建模,在2019年中文健康信息处理会议(CHIP2019)手术操作术语归一化学术评测中,验证集准确率为88.35%,测试集准确率为88.51%,在所有参赛队伍中排名第5。  相似文献   

17.
Keyword search enables web users to easily access XML data without understanding the complex data schemas. However, the native ambiguity of keyword search makes it arduous to select qualified relevant results matching keywords. To solve this problem, researchers have made much effort on establishing ranking models distinguishing relevant and irrelevant passages, such as the highly cited TF*IDF and BM25. However, these statistic based ranking methods mostly consider term frequency, inverse document frequency and length as ranking factors, ignoring the distribution and connection information between different keywords. Hence, these widely used ranking methods are powerless on recognizing irrelevant results when they are with high term frequency, indicating a performance limitation. In this paper, a new searching system XDist is accordingly proposed to attack the problems aforementioned. In XDist, we firstly use the semantic query model maximal lowest common ancestor (MAXLCA) to recognize the returned results of a given query, and then these candidate results are ranked by BM25. Especially, XDist re-ranks the top several results by a combined distribution measurement (CDM) which considers four measure criterions: term proximity, intersection of keyword classes, degree of integration among keywords and quantity variance of keywords. The weights of the four measures in CDM are trained by a listwise learning to optimize method. The experimental results on the evaluation platform of INEX show that the re-ranking method CDM can effectively improve the performance of the baseline BM25 by 22% under iP[0.01] and 18% under MAiP. Also the semantic model MAXLCA and the search engine XDist perform the best in their respective related fields.  相似文献   

18.
The radial basis function (RBF) centers play different roles in determining the classification capa- bility of a Gaussian radial basis function neural network (GRBFNN) and should hold different width values. However, it is very hard and time-consuming to optimize the centers and widths at the same time. In this paper, we introduce a new insight into this problem. We explore the impact of the definition of widths on the selection of the centers, propose an optimization algorithm of the RBF widths in order to select proper centers from the center candidate pool, and improve the classification performance of the GRBFNN. The design of the objective function of the optimization algorithm is based on the local mapping capability of each Gaussian RBF. Further, in the design of the objective function, we also handle the imbalanced problem which may occur even when different local regions have the same number of examples. Finally, the recursive orthogonal least square (ROLS) and genetic algorithm (GA), which are usually adopted to optimize the RBF centers, are separately used to select the centers from the center candidates with the initialized widths, in order to testify the validity of our proposed width initialization strategy on the selection of centers. Our experimental results show that, compared with the heuristic width setting method, the width optimization strategy makes the selected cen- ters more appropriate, and improves the classification performance of the GRBFNN. Moreover, the GRBFNN constructed by our method can attain better classification performance than the RBF LS-SVM, which is a state-of-the-art classifier.  相似文献   

19.
临床术语标准化即对于医生书写的任一术语,给出其在标准术语集合内对应的标准词。标准词数量多且相似度高,存在Zero-shot和Few-shot等问题,给术语标准化带来了巨大的挑战。该文基于“中国健康信息处理大会”CHIP 2019评测1中提供的数据集,设计并实现了基于BERT蕴含分数排序的临床术语标准化系统。该系统由数据预处理、BERT蕴含打分、BERT数量预测、基于逻辑回归的重排序四个模块组成。用精确率(Accuracy)作为评价指标,最终结果为0.948 25,取得了评测1第一名的成绩。  相似文献   

20.
Duplicate designs consume a large amount of enterprise resources during product development. Automatic search for similar parts is an effective solution for design reuse. Previous studies have only concerned similarity assessment based on complete 3D models, which may produce unsatisfactory result in practice. This paper proposes a novel scheme which incorporates the concept of LOD (levels of detail) into 3D part search. The scheme allows searching with different LOD variants created from the negative feature tree (NFT) of a solid model. A back-propagation artificial neural network is established to combine the D2-based similarity evaluation at each level of NFT. A human cognition model (HCM) is obtained by training the network with a set of data generated from a human experiment of similarity ranking. Search examples based on HCM show that the proposed scheme provides a practical tool for retrieval of similar part models.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号