首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
传统文档特征权重模型仅考虑关键词本身,文档内其他相关词汇并没有参与计算,信息检索时无法返回全面和准确的结果。为解决该问题提出了一种基于本体的林业领域文档特征权重模型。该模型计算TF-IDF特征权重;结合林业领域本体,分别获取关键词和林业领域内其他词汇的语义距离、语义重合度和概念的层次差,并计算语义相关度;结合TF-IDF和语义相似度的结果计算特征权重。实验证明该模型可以提高文本检索的查准率和查全率,使检索结果更加满足用户的需求。  相似文献   

2.
李勇  相中启 《计算机应用》2019,39(1):245-250
针对云计算环境下已有的密文检索方案不支持检索关键词语义扩展、精确度不够、检索结果不支持排序的问题,提出一种支持检索关键词语义扩展的可排序密文检索方案。首先,使用词频逆文档频率(TF-IDF)方法计算文档中关键词与文档之间的相关度评分,并对文档不同域中的关键词设置不同的位置权重,使用域加权评分方法计算位置权重评分,将相关度评分与位置权重评分的乘积设置为关键词在文档索引向量上相应位置的取值;其次,根据WordNet语义网对授权用户输入的检索关键词进行语义扩展,得到语义扩展检索关键词集合,使用编辑距离公式计算语义扩展检索关键词集合中关键词之间的相似度,并将相似度值设置为检索关键词在文档检索向量上相应位置的取值;最后,加密产生安全索引和文档检索陷门,在向量空间模型(VSM)下进行内积运算,以内积运算的结果为密文检索文档的排序依据。理论分析和实验仿真表明,所提方案在已知密文模型和已知背景知识模型下是安全的,且具备对检索结果的排序能力;与多关键字密文检索结果排序(MRSE)方案相比,所提方案支持关键词语义扩展,查询准确率比MRSE方案更加准确可靠,而检索时间则与MRSE方案相差不大。  相似文献   

3.
基于联合权重的多文档关键词抽取技术   总被引:2,自引:0,他引:2  
该文提出一种多文档关键词抽取方法,该方法提出ATF×PDF(Average Term Frequency×Proportional Document Frequency)来计算词语权重,并根据候选关键词之间的语义相似度,采用联合权重方法重新计算候选关键词的权重来抽取关键词。该方法综合考虑了词语的频率,词性以及词语之间的语义相似性等信息,实验表明,该方法能有效抽取多个文档的关键词,同基于关键词的聚类标记方法相比,其准确率提高3%,召回率提高7%,F-measure提高4.4%。  相似文献   

4.
文中研究的是文档聚类的方法,即将给定文档集合中的文档进行分类,以达到准确聚类的目的.提出了一种将模糊C均值(FCM)和改进的LSA(Latent Semantic Analysis)相结合进行文档聚类的方法.采用改进的词语特征提取方法构建词-文档矩阵,对该词-文档矩阵进行奇异值分解,从传统的VSM向量空间中提取文本的潜在语义空间,进而将高维的文档向量映射为低维空间的语义向量,文档之间相似度的计算采用文档语义向量的余弦表示.然后采用模糊C均值根据上述计算文档相似度的结果对文档进行聚类.针对校园论坛中的文档数据进行聚类,该方法降低了处理的复杂度同时提高了相似度计算的准确性.实验结果表明该方法对目标文档的聚类有较好的效果,聚类准确性较高.  相似文献   

5.
乔亚男  齐勇  史椸  侯迪  王晓 《计算机科学》2009,36(7):197-201
传统的信息检索模型假设查询中的关键词之间是并列关系,但用户的需求往往应该被抽象为一系列的关键词组,组内的关键词间具有更为紧密的语义关系,这就是定义的临近词检索问题.提出了基于权重矩阵的临近词检索问题解决框架,该框架将文档和查询抽象化为文档的权重矩阵表示和查询权重矩阵,通过计算两个矩阵间的相似度来实现临近词检索.实验结果证明,针对临近词检索问题,传统的信息检索模型只是一种简化问题的解决方案,权重矩阵框架从理论上和形式上更加契合临近词检索问题,查准率得到了显著的提高.  相似文献   

6.
基于改进LSA的文档聚类算法   总被引:1,自引:0,他引:1  
提出一种基于改进潜在语义分析MLSA(Modified Latent Semantic Analysis)的文档聚类算法.采用新的特征提取方法构建词-文档矩阵,利用潜在语义分析对词-文档矩阵进行奇异值分解以达到垃圾信息过滤的目的,同时使得向量空间模型中文本的高维表示变成在潜在语义空间中的低维表示,缩小了问题的规模.然后将共现数据对转换成概率统计模型来计算,提高了聚类质量.实验表明,本文提出的方法是有效的.  相似文献   

7.
陈杰  陈彩  梁毅 《计算机系统应用》2017,26(11):159-164
文档的特征提取和文档的向量表示是文档分类中的关键,本文针对这两个关键点提出一种基于word2vec的文档分类方法.该方法根据DF采集特征词袋,以尽可能的保留文档集中的重要特征词,并且利用word2vec的潜在语义分析特性,将语义相关的特征词用一个主题词乘以合适的系数来代替,有效地浓缩了特征词袋,降低了文档向量的维度;该方法还结合了TF-IDF算法,对特征词进行加权,给每个特征词赋予更合适的权重.本文与另外两种文档分类方法进行了对比实验,实验结果表明,本文提出的基于word2vec的文档分类方法在分类效果上较其他两种方法均有所提高.  相似文献   

8.
针对现有的空间向量模型在进行文档表示时忽略词条之间的语义关系的不足,提出了一种新的基于关联规则的文档向量表示方法。在广义空间向量模型中分析词条的频繁同现关系得到词条同现语义,根据关联规则分析词条之间的关联相关性,挖掘出文档中词条之间的潜在关联语义关系,将词条同现语义和关联语义线性加权对文档进行表示。实验结果表明,与BOW模型和GVSM模型相比,采用关联规则文档向量表示的文档聚类结果更准确。  相似文献   

9.
隐含语义检索系统词条权重的处理   总被引:2,自引:2,他引:0  
隐含语义检索技术是一种基于概念的检索方法,本文介绍了隐含语义检索的原理,并考虑到不同词条对文档内容描述重要程度不同,通过提高特征词、关键词的权重改进了隐含语义检索系统。工作中对检索系统中不同重要程度的词条采用了不同的权重算法计算权重,并以化学学科信息门户中的西文期刊简介页作为测试文档进行了检索测试,分析了权重算法改进前后检索测试的数据,结果表明,改进后的隐含语义检索系统的检索效果有了较大的提高。  相似文献   

10.
基于语义的信息检索模型   总被引:3,自引:0,他引:3       下载免费PDF全文
由于查询与文档中词语的不匹配现象导致一些相关的文档不能被成功地检索出来,在信息检索的研究与实现中,这是影响检索效果的一个很关键的问题。把概念图和知网结合起来,提出对应的相关反馈算法,重新计算词项权重,利用向量空间模型和语义相似度进行语义检索,并给出了语义检索模型。实验结果显示该方法取得了良好的效果。  相似文献   

11.
基于音乐语义标签的音乐相似计算研究是音乐信息检索领域的另一个新的热点。该文提出一种基于标签挖掘的歌曲分类方法,以Last.fm音乐网站上的用户标签为特征进行歌曲相似性研究。文中将文本聚类中常用的潜在语义分析(LSA)方法和改进的K-means聚类方法相结合,应用于音乐语义标签的自动抽取;从音乐网站last.fm上抽取了6大类600首歌曲的8000多个用户标签作为音乐语义特征,并利用LSA进行歌曲向量的降维,形成了一个表示歌曲间相似关系的600×150维向量矩阵。最后利用K均值,根据音乐歌曲间的相似度进行歌曲分类,完成歌曲相似性比较。实验结果同没有LSA降维前及已有的HCC结果比较表明,使用文中提出的基于音乐标签的模型对歌曲进行分类,能得到较好的分类效果。  相似文献   

12.
提出一种英文文本检索算法,从文本中提取奇异值向量作为复特征向量,利用向量间的余弦相似度作为文本检索的相似度度量.实验结果表明,该算法在检索准确率和运算效率上都优于传统的LSA算法.  相似文献   

13.
Feature weighting is an aspect of increasing importance in clustering because data are becoming more and more complex nowadays. In this paper, we propose two new feature weighting methods based on coevolutive algorithms. The first one is inspired by the Lamarck theory (inheritance of acquired characteristics) and uses the distance-based cost function defined in the LKM algorithm as fitness function. The second method uses a fitness function based on a new partitioning quality measure. It does not need a distance-based measure. We compare classical hill-climbing optimization with these new genetic algorithms on three data sets from UCI. Results show that the proposed methods are better than the hill-climbing based algorithms. We also present a process of hyperspectral remotely sensed image classification. The experiments, corroborated by geographers, highlight the benefits of using coevolutionary feature weighting methods to improve knowledge discovery process.  相似文献   

14.
基于文本集密度的特征选择与权重计算方案   总被引:5,自引:1,他引:5  
在信息检索的向量空间模型中,文本被形式化表示为由词语权重组成的向量。因此如何让这种向量尽量准确的有效的表示出文本内容一直是该模型中的基础性问题。在这篇论文中,我们提出了一种基于文本集密度的特征词选择与权重计算方案的方法。它是一种使用词对文本集密度的贡献衡量该词的价值的方法。使用这种方法,我们能找出不损失文本有效信息的最小特征词语集,并且创造出更为合理权重计算方案。在文中还用了一种新的衡量权重好坏的标准——元打分法,来证明提出的方法是有效的。  相似文献   

15.
In this paper, we present the development of a new measure of perceived disorientation that helps to explain experiences with Web-based systems. Two studies, incorporating over 300 participants, provide evidence for the measure's construct validity. The first study is a survey that develops this new measure and distinguishes it from ease of use. The second study, an experiment investigating users performing an information retrieval task on the Web, further distinguishes disorientation from ease of use, and relates it to actions. Moreover, the study compares the effects of Web designs containing simple and global navigation systems; these systems related to perceived disorientation but not to ease of use or actions. Finally, the study examines disorientation's relationship with user performance and demonstrates that perceived disorientation relates more strongly than actions to performance. Our perceived disorientation measure is simple and quick to administer to users, and we conclude by suggesting that designers will find it useful in assessing and comparing Web designs.  相似文献   

16.
In this paper, we propose a 3D non-rigid shape retrieval method based on canonical shape analysis. Our main idea is to transform the problem of non-rigid shape retrieval into a rigid shape retrieval problem via the well-known multidimensional scaling (MDS) approach and random walk on graphs. We first segment the non-rigid shape into local partitions based on its salient features. Then, we calculate a local MDS problem for each partition, where the local commute time distance is used as weighting function in order to preserve local shape details. Finally, we aggregate the set of local MDS problems as a global constrained problem. The constraint is formulated using the biharmonic function between local salient features. In contrast to MDS method, the proposed local MDS is computationally efficient, parameters free and gives isometry-invariant forms with minimum features distortion. Due to these advantageous properties, the proposed method achieved good retrieval accuracy on non-rigid shape benchmark datasets.  相似文献   

17.
拓扑和形状特征相结合的三维模型检索   总被引:1,自引:0,他引:1  
针对整体相似性检索算法在局部细节特征上的表达能力不足,提出了一种将拓扑和形状特征相结合的三维模型相似性比较方法.首先提取三维模型的骨架,获得模型的整体拓扑特征;然后根据骨架节点将模型分解为多个子部分,并利用球面谐波算法提取每一个子部分的形状特征.模型的匹配分为3步进行:整体骨架的拓扑特征相似性比较,相对应的子部分的局部形状特征相似性比较,模型总的相似性是整体骨架相似性与对应子部分局部形状相似性的加权和.实验结果表明:该方法从整体到局部、由粗到精,综合考虑了拓扑和形状特征,较传统的考虑单一拓扑或形状特征的检索算法有较高的检索精度,同时又支持基于局部特征的相似性检索.  相似文献   

18.
协同聚类是对数据矩阵的行和列两个方向同时进行聚类的一类算法。本文将双层加权的思想引入协同聚类,提出了一种双层子空间加权协同聚类算法(TLWCC)。TLWCC对聚类块(co-cluster)加一层权重,对行和列再加一层权重,并且算法在迭代过程中自动计算块、行和列这三组权重。TLWCC考虑不同的块、行和列与相应块、行和列中心的距离,距离越大,认为其噪声越强,就给予小权重;反之噪声越弱,给予大权重。通过给噪声信息小权重,TLWCC能有效地降低噪声信息带来的干扰,提高聚类效果。本文通过四组实验展示TLWCC算法识别噪声信息的能力、参数选取对算法聚类结果的影响程度,算法的聚类性能和时间性能。  相似文献   

19.
20.
用遗传算法挖掘范例库中的特征项权重的方法   总被引:8,自引:1,他引:8  
范例推理的关键步骤在于相似范例的检索,而范例库中的特征项权重起着重要的作用。文章着重讨论了应用于范例库上获取特征项权重的数据挖掘算法,并提出用遗传算法发现范例库上特征项权重的过程与算法,然后进行了实验与讨论。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号