首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 209 毫秒
1.
针对现有工程信息检索中文档语义理解和关联不足的问题,根据工程环境下信息检索的特点,提出一个异质工程文档的检索方法,包括内容分析、语义建模、多维关联、语义推理与扩展以及查询处理等过程.采用基于本体的理解标注多源异质工程文档,获取工程语义信息,建立语义标注库,实现异质文档内容的统一表达.采用以文档为中心的多维关联机制,在文档内容语义理解的基础上,将基于本体的内在关联扩展为融合文档及内容的多重关联.结果表明,多维关联机制能够启发式地关联产品生命周期中的文档,增强查询的导航能力,为语义推理和检索扩展提供服务.  相似文献   

2.
XML检索中基于聚类的查询词扩展   总被引:1,自引:0,他引:1  
XML文档是一种半结构化的数据,它包含的结构信息可有效解决传统文本信息检索中存在的语言二义性等问题.但用户提出的查询质量低并没有得到解决,因此需要通过反馈等手段来解决这一问题.该文提出了一种基于聚类的XML信息检索的查询词扩展方法,利用聚类手段来确定用户查询的对应检索结果的特征,通过提取这些特征来进行查询词扩展,得到更全面的反映用户查询意图的查询条件,提高检索的查全率与查准率.  相似文献   

3.
在信息检索中,文档表示模型的优劣是影响检索性能的重要因素之一.根据全信息理论,认识论信息是语法信息、语义信息和语用信息的三位一体.当前主流的文档表示模型主要利用语法和语义信息,造成语用信息的缺失,成为改善检索性能的瓶颈.该文提出了一种整合用户查询行为与文档内容的文档表示模型,将用户隐性反馈的语用信息和文档自身的语义、语法信息相结合,动态调整索引库关键词权重,从而提高信息检索的查全率和查准率.  相似文献   

4.
对海量的、异构XML文档进行检索时,现有的查询语言如XPath,XQuery已无法胜任,需要将数据挖掘和信息检索两方面相结合进行近似查询.提出一种新的XML文档近似查询方法,首先根据提出的层次路径模型提取文档结构特征,进行向量空间映射.然后通过奇异值分解进行矩阵变换,在去除相关冗余的同时有效地降低了空间维数.目标文档的匹配在变换后的检索空间中进行,同时对返回的查询结果进行相似性排序.采用DBLP数据集进行测试,实验获得良好的查询及排序结果.  相似文献   

5.
结合本体论和统计方法的跨语言信息检索模型   总被引:1,自引:0,他引:1  
为了更有效地提高跨语言信息检索的性能,结合本体论和统计方法的特性,提出一种混合的跨语言信息检索模型.在该语言模型的结构上,提出一种本体描述框架,构造了一个形式化的语言本体知识表示,通过典型语料学习,融合了语法、语义、句法等多元信息,建立了源语言本体知识库.在跨语言信息检索的实际应用中,利用本体表示,获得初始的检索文档集,再基于源语言本体知识库,对全部候选文档重新排序,以提高TopN排列的精确度.利用NTCIR-3Workshop中的中英文跨语言信息检索数据集对该语言模型进行了评价,相关实验结果表明,该方法取得了较满意的实验效果.  相似文献   

6.
大数据下监控网络混合入侵信息检索仿真   总被引:1,自引:0,他引:1  
针对传统的监控入侵信息检索方法存在检索精度低、召回率高、检索耗时长等问题,提出一种大数据下监控网络混合入侵信息检索方法.采用遗传算法对特征集进行优化选择,引入偏F检验对选择最优子集,组成优化特征集,并构建冗余信息消除模型,消除混合入侵信息中的冗余信息.以信息检索理论为依据,引用LDA模型对文档的话题进行建模,构建入侵信息检索模型,完成大数据下监控网络混合入侵信息检索.结果表明,所提方法的检索精度较高,能够有效提高入侵信息检索效率,降低检索耗时,且召回率平均值约为24%,优于其他方法,具有一定可行性.  相似文献   

7.
针对数字图书馆中信息资源检索效率低的问题,提出了一种新的文档图像检索算法.首先,根据文档图像自身的特点,结合人眼的视觉特性,提取文档图像中的边缘信息,在此基础上,构造有意义的纹理特征,利用纹理特征来定义文档图像的特征描述符,以描述符为线索,将文档图像的内容特征有机结合,并采用合适的相似性度量准则用于高效的检索.实验结果表明,该算法不仅具有较高的检索效率,而且也降低了传统文档图像检索算法的复杂度.  相似文献   

8.
通过一个具体的专利信息检索过程说明了关联本体方法的可行性.为了提高专利信息检索的效率和检索结果的完整性,提出一种基于本体的专利检索方法.介绍了本体的基本概念和本体的建模过程,给出了基于本体的专利信息描述和专利信息本体库的建立方法.采用以专利申请号为关联标识,将本体以及本体的实例和现有的专利信息数据库关联起来的关联本体方法,提高了建立本体的速度,减轻了本体的维护和更新工作.为了减少领域本体专家的投入,使得建立的本体更加适合企业的需求,利用一个关联本体库的自组织建立方法,描述了专利关联本体库的自组织进化过程.  相似文献   

9.
针对分布式信息检索时不同信息集对最终检索结果贡献度有差异的现象,提出基于历史点击数据的集合选择方法(PCTD-CS).该方法利用点击数据估计各集合与历史查询的相关度.采用基于关键词和基于检索结果相结合的方法估计查询间的相似度.利用历史查询中的相似查询估计新查询与各集合的相关度,选择相关度最高的M个集合进行检索,给出要获取前k个文档的情况下各集合应当返回的文档数.采用召回率Rm、前n个检索结果的准确率P@n及平均准确率MAP对集合选择方法的性能进行验证.实验结果表明,采用PCTD-CS方法提高了检索结果的召回率和准确率,能够更准确地定位到包含相关文档多的集合.  相似文献   

10.
搜索引擎是对资源的检索机器,是网络工具的代表.要实现对信息资源的智能检索,我们要处理的问题有信息预处理、查询检索、动态知识库的构造.首先要在网络中建立全面的网页文档信息,然后建立索引库,最后当有用户进行查询时,匹配器根据关键字在索引库中进行搜索.在经过了搜索引擎的过程,面对更复杂的对象我们又开发出了智能信息检索系统.可以利用动态知识库来扩展更复多的查询对象.  相似文献   

11.
如何设计有效的相关性排序函数是信息检索研究的一个核心问题,因为排序函数直接影响着搜索结果的质量。排序函数的好坏一般由信息检索评价方法进行评估,对其进行优化的主要困难是这些方法都依赖于结果文档的排序位置,因此对于查询的结果返回列表中相关文档的位置的研究是十分重要的。通过探索相关文档和不相关文档之间的偏序关系构造新的输入样本;该样本是由一个相关文档和一组不相关文档所构成的,它能够更加有效的区分文档的相关性;基于该输入样本,通过定义位置损失函数对排序结果进行优化。在公开数据集Letor30的上的实验结果显示该方法可以将多种排序评价方法的准确率平均提高2%,证明了所提出的方法的有效性。  相似文献   

12.
本文讨论了概率模型的新闻资料全文检索及排序算法。作者提出了全文检索最佳排序原则。根据Neyman-Pearson决策规则导出了最优检索规则,并据此提出了BI概率模型和相应的最优查询。根据用户对被检索文献作出的相关判断,对构造BI模型的最优查询所需参数进行了估计。最后,提出了基于概率模型的全文检索排序算法。  相似文献   

13.
以图文要素构成的word 2003版面存储文档为研究对象,提出了一种利用信息熵评估版面文档复杂度的方法.首先,从图像和文本存储特点出发,提出一种利用文件字节流信息熵度量版面全局复杂度的方案; 其次,将文件视为信源,每个字节视为信源符号,以二进制方式读取文件,然后根据字节相关性,采用N 次扩展信源计算信息熵; 最后,通过实验验证表明,本文方法切实可行,给出的版面全局复杂度定量描述不仅能很好地符合人的视觉直观感受,而且能够为版面数据可压缩性提供依据.  相似文献   

14.
FTP是Internet上常见的软件和文档存取方式,而常见的对FTP上存储的内容进行查询的方式主要被局限在对目录名和文件名的查询上.一方面,有些软件的发行包和软件本身的名称不同,针对软件名的查询可能一无所获;另一方面,有些已有的信息又得不到利用.为了解决以上的这些问题,并进一步探索更好的查询方式,文中提出了一种新的查询方式,即富式查询,并简要给出了其实现.  相似文献   

15.
Lucene是一个纯Java实现的高性能、可扩展的全文信息检索工具库,可以很方便地把它融入到应用程序中来增加索引和搜索功能.分析了Lucene的索引文件结构和搜索排序算法,探讨了Lucene中计算文档与查询项相关度的向量空间模型(VSM).最后,通过实验验证了索引过程的建立以及如何提高索引性能.  相似文献   

16.
摘要:提出了一种对象级搜索中领域无关的对象排序模型.给定对象集合以及对象间的关系,根据用户输入的对象查询,该模型按照对象与查询的相关度输出一个对象的排序表.采用一个多平面的图表示对象级搜索的空间,并基于该图分别提出了对象流行度评估算法、根据查询计算相关度的算法,以及合并多个对象查询的算法.针对ACM数据集上的实验结果表明该算法是有效的,在论文推荐与合并多对象查询方面,均取得了比PaperRank更好的结果.  相似文献   

17.
为提高基于信息检索的程序理解方法的准确性,提出了一种结合信息检索和概率状态机的两阶段程序理解方法.在该方法中使用概率有限自动机(probabilistic finite state automata,PFA)解决了信息检索结果在程序理解中的不确定性,同时采用信息检索构建了多个简单的PFA,而不是单个复杂的PFA,提高了PFA分析的伸缩性.训练阶段先采用隐式语义分析对源代码进行聚类,然后在聚类结果上生成PFA.在识别阶段以词法处理后的程序作为检索项在程序模板库中进行信息检索,取检索结果中的最相关的n项作为候选模板,由候选模板对应得到相应的PFA,通过分析找到最大概率的PFA,完成对源码内容的语义标注.  相似文献   

18.
深入讨论了基于向量空间模型以及基于潜在语义分析的微博搜索排序算法,以新浪微博为例,通过建立实验系统,利用新浪微博公共开放平台提供的API获取实验数据,通过一个实验样例阐述向量空间模型和潜在语义分析的处理过程。新浪微博现有排序方法通常不能提供按照相关性排序的满意结果。利用向量空间模型以及潜在语义分析方法,构建"索引词-博文"矩阵,对博文进行分词和向量化。衡量博文和查询的相关度转化成计算博文向量和查询向量之间的相似度。把对博文和查询的处理简化为向量空间中向量的运算。由实验得知基于潜在语义分析的微博搜索排序算法有效地提高了博文的检索效率。  相似文献   

19.
为了解决在多文档下插入节点或需要修改节点编码时查询效率比较低的问题,提出了一种有效的结构连接算法.在分析现有单文档下的XML结构连接算法基础上,对祖先/后裔与双亲/孩子结构查询进行改进,基于归并思想解决多文档下的结构连接,以适应在面向方面的XML Schema中定义的基于多文档的查询.改进后的结构连接算法可以进一步利用XML数据的特点、索引和织入文档信息减少连接扫描的代价,具有一定的合理性、有效性和实用性.  相似文献   

20.
Several users use metasearch engines directly or indirectly to access and gather data from more than one data sources. The effectiveness of a metasearch engine is majorly determined by the quality of the results and it returns and in response to user queries. The rank aggregation methods which have been proposed until now exploits very limited set of parameters such as total number of used resources and the rankings they achieved from each individual resource. In this work, we use the neural network to merge the score computation module effectively. Initially, we give a query to different search engines and the top n list from each search engine is chosen for further processing our technique. We then merge the top n list based on unique links and we do some parameter calculations such as title based calculation, snippet based calculation, content based calculation, domain calculation, position calculation and co-occurrence calculation. We give the solutions of the calculations with user given ranking of links to the neural network to train the system. The system then rank and merge the links we obtain from different search engines for the query we give. Experimentation results reports a retrieval effectiveness of about 80%, precision of about 79% for user queries and about 72% for benchmark queries. The proposed technique also includes a response time of about 76 ms for 50 links and 144 ms for 100 links.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号