共查询到20条相似文献,搜索用时 343 毫秒
1.
为了提高文本信息检索的查准率和缩短检索时间,提出了一种基于多策略的文档过滤算法.该算法根据潜在词性特征初步生成候选词,采用基于标题的特征词发现扩充候选词,使用改进的TFIDF对候选词的特征进行加权合成,去除不符合条件词,求出用户需求向量和待过滤文档向量的相似度,将相似度大于一定阈值的文档提供给用户.从实验参数确定、策略对结果的影响两方面论证了文档信息过滤算法的可行性.实验结果表明,基于多策略的文档信息过滤算法能够提高信息检索的查准率,改善信息检索的质量. 相似文献
2.
纪兆辉 《计算机与数字工程》2010,38(11):118-121
对基于向量空间模型的检索方法进行改进,提出基于本体语义的信息检索模型。将WordNet词典作为参照本体来计算概念之间的语义相似度,依据查询中标引项之间的相似度,对查询向量中的标引项进行权值调整,并参照Word-Net本体对标引项进行同义和上下位扩展,在此基础上定义查询与文档间的相似度。与传统的基于词形的信息检索方法相比,该方法可以提高语义层面上的检索精度。 相似文献
3.
为提高网络信息检索系统的查全率和查准率,引入空间向量模型设计网络信息检索系统。首先,基于网络信息检索系统结构基本框架采集和预处理网络信息文档。其次,引入空间向量模型计算文本段与查询式相似度。再次,根据相似度计算公式设置不同网络信息文档的相似度门槛值。最后,基于相似度门槛值过滤网络信息检索,将过滤后的网络信息作为检索结果显示给系统用户。通过对比实验的方式证明,新的检索系统可根据用户输入内容给出查全率和查准率较高的检索结果。 相似文献
4.
5.
本体映射的核心在于语义相似度算法,单一的概念相似度计算方法往往不利于提高相似度的精度。本文针对机械零部件领域本体(MPO)提出一种基于本体加权树的语义相似度算法OWSTS,利用MPO提取领域知识文档标题信息中的核心概念,并结合OWSTS算法来确定文档信息与查询式间的语义关联程度。该方法在GB_MPO智能信息检索系统中得到较好的应用。实验表明,该方法与基于TF*IDF的信息检索方法相比,检索性能有较大提高。 相似文献
6.
针对基于关键字的搜索引擎缺乏语义的问题,提出了一种面向专业领域的语义搜索引擎模型.以领域本体形式化描述为基础,构建本体语义框架,进而给出语义搜索模型.在模型中,以概念、概念-实例以及关键字等3种扩展特征项作为基础,对查询扩展算法和文档语义标注算法进行了研究,并且构建了语义索引,通过引入向量空间模型判定扩展检索词与语义文档的相似度.实验结果表明,该模型较传统模型较大提高了检索的查准率和查全率. 相似文献
7.
8.
针对VSM不能揭示文档中特征词间的潜在语义关系,相似度计算准确性较低的问题,结合本体模型的结构特点,从语义重合度、语义距离以及本体结构等因素综合考虑概念间的相似度计算,提出了一种基于领域本体的文档向量空间模型。该模型通过构建概念间的语义相似度矩阵对特征词权值进行调整,建立包含语义关系的标准(学生)答案的向量空间模型,并用"VSM模型+余弦值"算法评估学生答案和标准答案的相似度。实验表明,与传统方法相比,该方法提高了评测效果及准确率。 相似文献
9.
贝叶斯网络检索模型可以表示术语间的条件概率和概念语义,并依此预测用户查询和文档间的相似度,是解决信息检索的有效手段。通过构造中文测试集合,对简单贝叶斯网络检索模型和扩展的贝叶斯网络检索模型的性能进行详细评估,实验证明扩展模型可以有效地提高检索性能,在一定程度上实现了基于语义的信息检索。 相似文献
10.
本文提出一种深度学习与关联模式挖掘融合的查询扩展模型.该模型采用基于Copulas函数的支持度-置信度评价框架挖掘初检伪相关反馈文档集中扩展词,构建统计扩展词集,利用深度学习工具对初检文档集进行词向量语义学习训练得到词向量扩展词集,将统计扩展词集和词向量扩展词集融合得到最终扩展词.该模型不仅考虑来自统计分析与挖掘的扩展词与原查询间的关联信息,还考虑扩展词在文档中的上下文语义信息,扩展词质量得到较好地改善.在NTCIR-5 CLIR语料的实验结果表明,本文扩展模型能提高信息检索性能,其MAP和P@5平均增幅高于近年现有同类查询扩展方法.本文扩展模型可用于跨语言检索系统,以提高其性能. 相似文献
11.
12.
针对高效解读和智能处理海量图文资料是一项极具挑战并具有实用价值工作,而自动标注精度
又面临依赖训练样本的难题,提出了一种基于数字图文混排书籍以文标图方法,由混排版式识别预处理、领域
图像语义标签构建和大标签空间以文标图算法 3 部分组成。首先,通过提出的混排版式识别离算法,提取数字
图文混排版式中图像、标题及描述文本等内容。然后,基于数字服饰图像语义标签,建立传统文化领域词库
(PatternNet),最后针对领域词库标签空间特点,提出一种改进大标签空间的以文标图算法,并在服饰类图文混
排书籍上进行仿真实验,通过对比其他数据集,验证了该算法的实效性。 相似文献
13.
针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法。首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征向量,然后采用向量空间模型计算网页的主题相关度。在此基础上,计算锚文本主题相关度以及链接指向网页的PR值,综合分析链接优先度。另外,为了避免爬虫陷入局部最优,设计了基于ITS的主题爬虫,优化爬行队列。以暴雨灾害和台风灾害为主题,在相同的实验环境下,基于On-ITS的主题爬虫方法比对比算法的爬准率最多高58%,最少高8%,其他评价指标也很好。基于On-ITS的主题爬虫方法能有效提高获取领域信息的准确性,抓取更多与主题相关的网页。 相似文献
14.
用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用户联系紧密的应用领域,并以汉语词汇为索引单元,适量地采用中文信息处理技术。基于语义的中文网页检索应在以下方面加强研究:语义相关性评价方法、本体构建和实体抽取算法、基于语义的索引、大规模语义标注样本集开发等。 相似文献
15.
Folksonomy, considered a core component for Web 2.0 user-participation architecture, is a classification system made by user’s tags on the web resources. Recently, various approaches for image retrieval exploiting folksonomy have been proposed to improve the result of image search. However, the characteristics of the tags such as semantic ambiguity and non-controlledness limit the effectiveness of tags on image retrieval. Especially, tags associated with images in a random order do not provide any information about the relevance between a tag and an image. In this paper, we propose a novel image tag ranking system called i-TagRanker which exploits the semantic relationships between tags for re-ordering the tags according to the relevance with an image. The proposed system consists of two phases: 1) tag propagation phase, 2) tag ranking phase. In tag propagation phase, we first collect the most relevant tags from similar images, and then propagate them to an untagged image. In tag ranking phase, tags are ranked according to their semantic relevance to the image. From the experimental results on a Flickr photo collection about over 30,000 images, we show the effectiveness of the proposed system. 相似文献
16.
李新福 《计算机工程与应用》2007,43(24):169-171
基于向量空间模型的文本分类中特征向量是极度稀疏的高维向量,只有降低向量空间维数才能提高分类效率。在利用统计方法选择文本分类特征降低特征空间维数的基础上,采用隐含语义分析技术,挖掘文档特征间的语义信息,利用矩阵奇异值分解理论进一步降低了特征空间维数。实验结果表明分类结果宏平均F1约提高了5%,验证了该方法的有效性。 相似文献
17.
18.
Mohammed Nazim Uddin Trong Hai Duong Ngoc Thanh Nguyen Xin-Min Qi Geun Sik Jo 《Expert systems with applications》2013,40(5):1645-1653
Collaborative tagging systems, also known as folksonomies, enable a user to annotate various web resources with a free set of tags for sharing and searching purposes. Tags in a folksonomy reflect users’ collaborative cognition about information. Tags play an important role in a folksonomy as a means of indexing information to facilitate search and navigation of resources. However, the semantics of the tags, and therefore the semantics of the resources, are neither known nor explicitly stated. It is therefore difficult for users to find related resources due to the absence of a consistent semantic meaning among tags. The shortage of relevant tags increases data sparseness and decreases the rate of information extraction with respect to user queries. Defining semantic relationships between tags, resources, and users is an important research issue for the retrieval of related information from folksonomies. In this research, a method for finding semantic relationships among tags is proposed. The present study considers not only the pairwise relationships between tags, resources, and users, but also the relationships among all three. Experimental results using real datasets from Flickr and Del.icio.us show that the method proposed here is more effective than previous methods such as LCH, JCN, and LIN in finding semantic relationships among tags in a folksonomy. 相似文献
19.
HTML tags are designed to support only the display of Web page content, but the study quantifies their feasibility as proxies for semantic content as well. More specifically, the author examined a number of Web pages to try to quantify whether, consciously or otherwise, authors use headings or the highlighted text accompanying a link to indicate the subject matter of the corresponding page. The investigations focused on empirically evaluating the feasibility of using key Web page elements as proxies to indicate page contents. Additionally, the author compared text retrieval by keyword. The author describes the methods he used and summarizes results. The empirical results suggest that text in HTML headings and in anchor texts is useful for indicating Web page content for logic programming 相似文献