首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于词汇语义计算的文本相似度研究   总被引:7,自引:0,他引:7  
基于《知网》的词汇语义计算方法揭示了词汇间的语义信息。根据文本的向量空间模型描述形式,采用了基于《知网》的词汇语义计算方法来计算两篇文章向量的相关性,并用最大匹配算法来获得这两篇文章的相似度,通过该计算过程达到揭示文本所蕴涵概念的目的,并用实验对该方法的有效性进行了验证,提出了今后的改进方向。  相似文献   

2.
本体映射是语义集成的关键,国内外对本体映射进行了深入的研究。将机器学习的方法引入到组合概念相似度的权值计算中来,提出了基于Widrow-Hoff理论的权值确定算法LMSW。通过梯度下降法来搜索最佳拟合训练样例的权向量,从而计算出组合的概念相似度,最终实现组合多种概念相似度算法的本体映射。实验表明该算法比单独使用概念相似度计算方法在查全率、查准率上均有所提高。  相似文献   

3.
本体映射是实现异构本体间互操作的有效方法,其核心环节是概念相似度的计算。针对传统概念相似度计算方法中存在的不足之处,提出了一种综合的概念相似度计算方法——DISS模型。该算法从概念定义、概念实例、概念结构三个方面计算相似度。实验证明,该算法改善了传统计算方法中存在的片面性和不完善性问题,提高了本体映射的查全率和查准率。  相似文献   

4.
为了能更为准确地计算两个语句之间的语义相似度;提出了一种基于分段语义比较的语句相似度计算方法.将语句分成主干部分和修饰部分,并根据设定的语法规则,对修饰部分进行更为细致的划分;计算语义相似度时,将计算过程分为两部分:主干部分计算、修饰部分计算,并赋以不同权值;能够按照语法和语义结构,更为合理、细致地计算出两个语句之间的语义相似程度.实验结果表明了该方法的能够取得较好的计算结果.  相似文献   

5.
文本聚类是文本挖掘的一种重要方法.基于形式概念分析和概念相似度,给出一种新的多背景文本模糊聚类方法和模型.该方法不仅考虑了多背景关键词之间的语义关系,而且通过非距离计算得到模糊相似矩阵. 可根据不同要求得到相应的聚类结果,具有较好的灵活性.最后通过示例说明了所给算法的可行性.  相似文献   

6.
基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。  相似文献   

7.
研究了一种基于模糊概念相似度的模糊本体构建方法。对目标数据源进行模糊形式概念分析,构建模糊概念格,利用基于模糊概念相似度的概念聚类算法产生模糊概念聚类,并最终映射得到模糊本体。该方法对模糊概念的内涵及外延的相似度进行了全面的度量,并加入权重因子增强模糊聚类的可调节性。最后通过实例验证了该方法的可行性和有效性。  相似文献   

8.
知网的形式概念分析及概念相似度研究   总被引:1,自引:0,他引:1  
将知网的义项、义原及其关系映射到形式化概念分析的语境中,生成一个基于知网的形式概念格.一方面,提供了一种将知网中概念关系转换为概念格的表征方式,从格中任意一个节点出发,可以很方便地访问到与此相关的各种知识,从而为信息检索和知识推理提供很大方便;另一方面,也提出了一种通过对形式概念格进行分析来计算概念相似度的方法.实验证明该方法克服了以往计算方法的若干不足,并能有效地在相关应用领域如协作学习言论分析中加以应用.  相似文献   

9.
一种基于语义内积空间模型的文本聚类算法   总被引:17,自引:0,他引:17  
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的定义建立了针对中文概念、词和文本的相似度度量方法,然后从理论上进行了分析.最后通过一个两阶段处理过程,即向下分裂和向上聚合,完成文本数据的聚类.该方法成功用于中文短文本数据的聚类.实验表明相对于传统方法,文中提供的方法聚类质量更好.  相似文献   

10.
提出一种基于概念和语义相似度的聚类算法TCBCSS(Text Clustering Based on Concept and Semantic Similarity),TCBCSS算法基于WordNet对文档概念进行抽取和归并,形成语义网络,利用小世界理论和网络的几何特性对其进行分析并构建概念列表来表示文档,不仅有效解决了“表达差异”问题也有利于文档相似度的计算。TCBCSS算法利用两个概念列表的语义相似度作为文档间相近程度的度量,以图为基础进行聚类分析,避免了有些聚类算法对聚簇形状的限制,试验证明TCBCSS算法提高了聚类质量。  相似文献   

11.
This paper propsed a novel text representation and matching scheme for Chinese text retrieval.At present,the indexing methods of chinese retrieval systems are either character-based or word-based.The character-based indexing methods,such as bi-gram or tri-gram indexing,have high false drops due to the mismatches between queries and documents.On the other hand,it‘s difficult to efficiently identify all the proper nouns,terminology of different domains,and phrases in the word-based indexing systems.The new indexing method uses both proximity and mutual information of the word paris to represent the text content so as to overcome the high false drop,new word and phrase problems that exist in the character-based and word-based systems.The evaluation results indicate that the average query precision of proximity-based indexing is 5.2% higher than the best results of TREC-5.  相似文献   

12.
为了将传统灰度图像数学形态学扩展到彩色图像,提出一种结合矢量空间模糊相似性的彩色形态学图像处理方法。首先,在RGB彩色空间中利用彩色矢量间的距离和角度定义模糊相似性测度,以刻画与人类视觉感知相一致的彩色相似程度;以上述相似性测度为准则定义彩色空间中任意一组彩色的上确界和下确界;利用中心像素及其结构单元内像素的上确界和下确界构建彩色形态学的基本操作,包括膨胀、腐蚀、开、闭等操作;进一步将提出的彩色形态学操作应用于高分辨率遥感图像,通过实验对比验证其对地物目标的形变和平滑能力,说明其实用性和有效性。  相似文献   

13.
为了避免彩色图像滤波时排序的难题,在探究矢量相似性的基础上提出一种针对彩色图像的多元滤波方法。首先,在RGB彩色空间中,利用彩色矢量间距离和角度定义其相似性测度,以刻画与人类视觉感知相一致的彩色相似性;其次,以上述彩色相似性为准则设计并构建一种彩色多元滤波方法,并就其相关参数对滤波性能的影响进行了深入分析和研究;最后,为了验证提出方法的有效性,将其应用于标准彩色影像和彩色遥感影像滤波。提出的方法不仅有效解决了传统滤波方法的排序难题,而且克服了因滤波使图像模糊、边缘不清等问题;另外,将提出的多元滤波与传统方法进行实验对比,结果表明其不仅能有效滤除多种类型噪声,而且较好地保持了原始图像信息,使图像信息保真清晰,其视觉效果优于传统,客观评价指标也有较大幅度的改善和提升。  相似文献   

14.
针对How Net语义词典对词项收录数量的有限性在一定程度上制约文本相似度运算准确性的问题,提出一种词项语义维度映射的方法。从词项词性的角度出发,按词性对短文本中词项进行切分,按词性特征对短文本之间进行词项归并,构建词性向量,依据词频和 How Net语义词典,词项完成词性向量中权值映射,将短文本之间相似度运算转换为词性向量之间相似度运算。将该算法运用于信箱测试数据集,实验结果表明,该算法提高了文本相似度运算的准确率和相似度平均值。  相似文献   

15.
基于概念的论文相似性检索   总被引:1,自引:0,他引:1       下载免费PDF全文
Web上越来越多的论文给我们提出了一个新的课题:如何检索满足需求的论文。传统的基于查询项匹配检索方法往往无法准确地检索出满足用户需求的论文。这里给出了一种基于概念的论文相似性检索方法,有效地改进了传统的论文检索方法。介绍了一种对论文关键词进行层次聚类的算法,首先把论文关键词聚类为概念,从而生成一个概念树,然后用概念向量表示论文,每篇论文对应一个概念子树。在相似性检索时,采用改进的余弦相似性方法,根据概念向量计算论文的相似性,把与给定论文最相似的论文返回给用户。用这种算法,能很好地对论文进行基于概念的相似性检索。算法克服了基于查询项匹配检索的缺点,实验证明其有较高的查全率和查准率。  相似文献   

16.
句子相似度的计算在自然语言处理的各个领域占有很重要的地位,一些传统的计算方法只考虑句子的词形、句长、词序等表面信息,并没有考虑句子更深层次的语义信息,另一些考虑句子语义的方法在实用性上的表现不太理想。在空间向量模型的基础上提出了一种同时考虑句子结构和语义信息的关系向量模型,这种模型考虑了组成句子的关键词之间的搭配关系和关键词的同义信息,这些信息反应了句子的局部结构成分以及各局部之间的关联关系,因此更能体现句子的结构和语义信息。以关系向量模型为核心,提出了基于关系向量模型的句子相似度计算方法。同时将该算法应用到网络热点新闻自动摘要生成算法中,排除文摘中意思相近的句子从而避免文摘的冗余。实验结果表明,在考虑网络新闻中的句子相似度时,与考虑词序与语义的算法相比,关系向量模型算法不但提高了句子相似度计算的准确率,计算的时间复杂度也得到了降低。  相似文献   

17.
基于启发式规则的本体概念语义相似度匹配   总被引:1,自引:0,他引:1  
杨哲 《计算机应用》2007,27(12):2919-2921
在本体概念模型的层次结构中,概念的语义相似度与概念间的语义距离成反比例关系,同时越靠近底层的概念所描述的信息越具体,因此若概念间最近共同祖先的深度越大,则概念的语义相似度越大。考虑到这两个因素,构造了计算本体概念语义相似度的启发式规则及相应的公式,通过对本体实例的分析,验证了公式的有效性。公式中两个经验参数的选择与本体概念模型的深度有关,根据目前本体概念模型的深度大小,给出了经验参数合理的取值。  相似文献   

18.
基于概率信息内容的FCA概念相似度计算方法依赖于语料库中概念的频次信息,这种方法仅使用出现概率作为信息内容度量指标计算FCA概念相似度,其计算结果的准确率不高.针对上述问题提出一种基于语义信息内容的FCA概念相似度计算方法,该方法利用本体中概念间的上下位语义关系度量信息内容,以进一步提高概念一般/具体程度的度量精度;然后在本体派生的ISA层次结构上计算语义信息内容相似度,从而避免基于概率信息内容的方法对语料库的依赖;最后把语义信息内容相似度作为度量FCA概念相似度的依据,并给出了通过构造带权二部图提高相似度计算效率的方法.实验结果表明使用基于语义信息内容的方法能够在不牺牲时间性能的前提下有效提高FCA概念相似度计算结果的准确率.  相似文献   

19.
基于概念树扩展的中文文本检索研究   总被引:2,自引:0,他引:2       下载免费PDF全文
分析了概念在语义层次上的扩展,将概念树中的父子概念关系用词语的相似度进行量化。提出了检索概念权重计算的两种方法和一种基于检索概念的文本概念权重计算方法,并将这些方法用于中文文本检索,因此,构建了基于概念树扩展的两个文本检索模型。实验显示,这两个检索模型的精确率与关键词检索模型保持基本一致,召回率却得到较大提高。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号