首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
为了提高文本信息检索的查准率和缩短检索时间,提出了一种基于多策略的文档过滤算法.该算法根据潜在词性特征初步生成候选词,采用基于标题的特征词发现扩充候选词,使用改进的TFIDF对候选词的特征进行加权合成,去除不符合条件词,求出用户需求向量和待过滤文档向量的相似度,将相似度大于一定阈值的文档提供给用户.从实验参数确定、策略对结果的影响两方面论证了文档信息过滤算法的可行性.实验结果表明,基于多策略的文档信息过滤算法能够提高信息检索的查准率,改善信息检索的质量.  相似文献   

2.
对基于向量空间模型的检索方法进行改进,提出基于本体语义的信息检索模型。将WordNet词典作为参照本体来计算概念之间的语义相似度,依据查询中标引项之间的相似度,对查询向量中的标引项进行权值调整,并参照Word-Net本体对标引项进行同义和上下位扩展,在此基础上定义查询与文档间的相似度。与传统的基于词形的信息检索方法相比,该方法可以提高语义层面上的检索精度。  相似文献   

3.
为提高网络信息检索系统的查全率和查准率,引入空间向量模型设计网络信息检索系统。首先,基于网络信息检索系统结构基本框架采集和预处理网络信息文档。其次,引入空间向量模型计算文本段与查询式相似度。再次,根据相似度计算公式设置不同网络信息文档的相似度门槛值。最后,基于相似度门槛值过滤网络信息检索,将过滤后的网络信息作为检索结果显示给系统用户。通过对比实验的方式证明,新的检索系统可根据用户输入内容给出查全率和查准率较高的检索结果。  相似文献   

4.
吕刚  郑诚 《计算机工程》2010,36(12):55-57
为提高信息检索的查全率和查准率,提出改进的本体语义相似度计算方法,利用本体中概念语义相似度对检索结果文档的分值进行重新计算,过滤掉与原始查询相关度较小的文档。给出定义查询扩展中的迭代参数,减少进行扩展的次数,提高查询效率。利用开源工具Jena, Lucene进行文本语义检索测试,验证该方法的可行性和有效性。  相似文献   

5.
本体映射的核心在于语义相似度算法,单一的概念相似度计算方法往往不利于提高相似度的精度。本文针对机械零部件领域本体(MPO)提出一种基于本体加权树的语义相似度算法OWSTS,利用MPO提取领域知识文档标题信息中的核心概念,并结合OWSTS算法来确定文档信息与查询式间的语义关联程度。该方法在GB_MPO智能信息检索系统中得到较好的应用。实验表明,该方法与基于TF*IDF的信息检索方法相比,检索性能有较大提高。  相似文献   

6.
针对基于关键字的搜索引擎缺乏语义的问题,提出了一种面向专业领域的语义搜索引擎模型.以领域本体形式化描述为基础,构建本体语义框架,进而给出语义搜索模型.在模型中,以概念、概念-实例以及关键字等3种扩展特征项作为基础,对查询扩展算法和文档语义标注算法进行了研究,并且构建了语义索引,通过引入向量空间模型判定扩展检索词与语义文档的相似度.实验结果表明,该模型较传统模型较大提高了检索的查准率和查全率.  相似文献   

7.
王品  黄广君 《计算机工程》2011,37(12):38-40
为同时提高信息检索的查全率和查准率,提出一种基于语义依存度的句子相似度改进算法。在计算关键词相似度的基础上,研究基于语义依存相似度算法,在判定句子有效搭配对权重时加入语义角色标注信息,对算法进行加权,并用实例证明其可行性。在提高系统查全率的基础上,用改进算法对查询结果进行重排序,从而提高前K个返回结果的查准率。实验数据显示,重排序后的前20篇返回文档的查准率比系统排序前提高了3.6%。结果表明,该算法能有效提高系统查准率。  相似文献   

8.
针对VSM不能揭示文档中特征词间的潜在语义关系,相似度计算准确性较低的问题,结合本体模型的结构特点,从语义重合度、语义距离以及本体结构等因素综合考虑概念间的相似度计算,提出了一种基于领域本体的文档向量空间模型。该模型通过构建概念间的语义相似度矩阵对特征词权值进行调整,建立包含语义关系的标准(学生)答案的向量空间模型,并用"VSM模型+余弦值"算法评估学生答案和标准答案的相似度。实验表明,与传统方法相比,该方法提高了评测效果及准确率。  相似文献   

9.
贝叶斯网络检索模型可以表示术语间的条件概率和概念语义,并依此预测用户查询和文档间的相似度,是解决信息检索的有效手段。通过构造中文测试集合,对简单贝叶斯网络检索模型和扩展的贝叶斯网络检索模型的性能进行详细评估,实验证明扩展模型可以有效地提高检索性能,在一定程度上实现了基于语义的信息检索。  相似文献   

10.
本文提出一种深度学习与关联模式挖掘融合的查询扩展模型.该模型采用基于Copulas函数的支持度-置信度评价框架挖掘初检伪相关反馈文档集中扩展词,构建统计扩展词集,利用深度学习工具对初检文档集进行词向量语义学习训练得到词向量扩展词集,将统计扩展词集和词向量扩展词集融合得到最终扩展词.该模型不仅考虑来自统计分析与挖掘的扩展词与原查询间的关联信息,还考虑扩展词在文档中的上下文语义信息,扩展词质量得到较好地改善.在NTCIR-5 CLIR语料的实验结果表明,本文扩展模型能提高信息检索性能,其MAP和P@5平均增幅高于近年现有同类查询扩展方法.本文扩展模型可用于跨语言检索系统,以提高其性能.  相似文献   

11.
针对传统网页排序算法Okapi BM25通常会出现网页与查询关键词领域无关的领域漂移现象,以及改进算法需要人工建立领域向量的问题,提出了一种基于BM25和Softmax回归分类模型的网页搜索排序算法。该方法首先对网页文本进行数据预处理并利用词袋模型进行网页文本的向量表示,之后通过少量的网页数据来训练Softmax回归分类模型,来预测测试网页数据的类别分数,并与BM25信息检索的分数结合在一起,得到最终的网页排序结果。实验结果显示该检索算法无须人工建立领域向量,即可达到很好的网页排序结果。  相似文献   

12.
针对高效解读和智能处理海量图文资料是一项极具挑战并具有实用价值工作,而自动标注精度 又面临依赖训练样本的难题,提出了一种基于数字图文混排书籍以文标图方法,由混排版式识别预处理、领域 图像语义标签构建和大标签空间以文标图算法 3 部分组成。首先,通过提出的混排版式识别离算法,提取数字 图文混排版式中图像、标题及描述文本等内容。然后,基于数字服饰图像语义标签,建立传统文化领域词库 (PatternNet),最后针对领域词库标签空间特点,提出一种改进大标签空间的以文标图算法,并在服饰类图文混 排书籍上进行仿真实验,通过对比其他数据集,验证了该算法的实效性。  相似文献   

13.
针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法。首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征向量,然后采用向量空间模型计算网页的主题相关度。在此基础上,计算锚文本主题相关度以及链接指向网页的PR值,综合分析链接优先度。另外,为了避免爬虫陷入局部最优,设计了基于ITS的主题爬虫,优化爬行队列。以暴雨灾害和台风灾害为主题,在相同的实验环境下,基于On-ITS的主题爬虫方法比对比算法的爬准率最多高58%,最少高8%,其他评价指标也很好。基于On-ITS的主题爬虫方法能有效提高获取领域信息的准确性,抓取更多与主题相关的网页。  相似文献   

14.
用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用户联系紧密的应用领域,并以汉语词汇为索引单元,适量地采用中文信息处理技术。基于语义的中文网页检索应在以下方面加强研究:语义相关性评价方法、本体构建和实体抽取算法、基于语义的索引、大规模语义标注样本集开发等。  相似文献   

15.
Folksonomy, considered a core component for Web 2.0 user-participation architecture, is a classification system made by user’s tags on the web resources. Recently, various approaches for image retrieval exploiting folksonomy have been proposed to improve the result of image search. However, the characteristics of the tags such as semantic ambiguity and non-controlledness limit the effectiveness of tags on image retrieval. Especially, tags associated with images in a random order do not provide any information about the relevance between a tag and an image. In this paper, we propose a novel image tag ranking system called i-TagRanker which exploits the semantic relationships between tags for re-ordering the tags according to the relevance with an image. The proposed system consists of two phases: 1) tag propagation phase, 2) tag ranking phase. In tag propagation phase, we first collect the most relevant tags from similar images, and then propagate them to an untagged image. In tag ranking phase, tags are ranked according to their semantic relevance to the image. From the experimental results on a Flickr photo collection about over 30,000 images, we show the effectiveness of the proposed system.  相似文献   

16.
基于向量空间模型的文本分类中特征向量是极度稀疏的高维向量,只有降低向量空间维数才能提高分类效率。在利用统计方法选择文本分类特征降低特征空间维数的基础上,采用隐含语义分析技术,挖掘文档特征间的语义信息,利用矩阵奇异值分解理论进一步降低了特征空间维数。实验结果表明分类结果宏平均F1约提高了5%,验证了该方法的有效性。  相似文献   

17.
基于向量空间模型的多主题Web文本分类方法*   总被引:2,自引:0,他引:2  
对给定的网页,提取其特征向量,计算网页特征向量与分类特征向量的相似度,使用K-means聚类方法寻找归属类得到动态阈值,提出了一种基于动态阈值的向量空间模型多主题Web文本分类方法.该方法通过网页与每个类的相似度和动态阈值的比较,实现了将包含多个主题的网页划分到相应的多个类中.实验证明,这种方法具有较好的精确度和召回率.  相似文献   

18.
Collaborative tagging systems, also known as folksonomies, enable a user to annotate various web resources with a free set of tags for sharing and searching purposes. Tags in a folksonomy reflect users’ collaborative cognition about information. Tags play an important role in a folksonomy as a means of indexing information to facilitate search and navigation of resources. However, the semantics of the tags, and therefore the semantics of the resources, are neither known nor explicitly stated. It is therefore difficult for users to find related resources due to the absence of a consistent semantic meaning among tags. The shortage of relevant tags increases data sparseness and decreases the rate of information extraction with respect to user queries. Defining semantic relationships between tags, resources, and users is an important research issue for the retrieval of related information from folksonomies. In this research, a method for finding semantic relationships among tags is proposed. The present study considers not only the pairwise relationships between tags, resources, and users, but also the relationships among all three. Experimental results using real datasets from Flickr and Del.icio.us show that the method proposed here is more effective than previous methods such as LCH, JCN, and LIN in finding semantic relationships among tags in a folksonomy.  相似文献   

19.
HTML tags are designed to support only the display of Web page content, but the study quantifies their feasibility as proxies for semantic content as well. More specifically, the author examined a number of Web pages to try to quantify whether, consciously or otherwise, authors use headings or the highlighted text accompanying a link to indicate the subject matter of the corresponding page. The investigations focused on empirically evaluating the feasibility of using key Web page elements as proxies to indicate page contents. Additionally, the author compared text retrieval by keyword. The author describes the methods he used and summarizes results. The empirical results suggest that text in HTML headings and in anchor texts is useful for indicating Web page content for logic programming  相似文献   

20.
基于本体的Web文本挖掘与信息检索   总被引:1,自引:0,他引:1  
艾伟  孙四明  张峰 《计算机工程》2010,36(22):75-77
针对传统Web文本挖掘技术缺少语义理解能力的不足,提出并实现一种基于本体的Web文本挖掘模型,即利用基于本体概念体系的向量空间模型替代传统的向量空间模型来表示文档,在此基础上进行Web文本挖掘,并给出一种集成语义信息检索的设计。实验结果初步验证了本体模型在Web文本挖掘技术上应用的可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号