首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
由于进行关联规则挖掘过程中会产生大量规则,给关联规则的后期分析与利用带来了巨大障碍.针对关联规则的特点,提出了一种新的规则相似性度量方法,通过相似性度量方法推出新的规则距离度量方法,运用系统聚类中的类平均法进行聚类.实验结果表明,该距离度量方法考虑了关联规则的整体信息,依据聚类谱系图和规则散点图,确定了类和类的个数,有利于规则的分类处理.  相似文献   

2.
基于概念的文本分类方法是近年来提出的一种新的文本分类方法,弥补了以前基于关键词的文本分类方法的一些不足,对同义词、多义词能进行比较好的处理.但是基于概念的文本分类方法往往对人名、机构名等具有分类特征的词不能很好处理.文中提出了一种将语义词典与一部人名、机构名构成的专有名词词典相结合的新的概念分类方法.并经过实验验证了其有效性.  相似文献   

3.
吴志峰  田学东 《微机发展》2005,15(3):11-13,56
基于概念的文本分类方法是近年来提出的一种新的文本分类方法,弥补了以前基于关键词的文本分类方法的不足,对同义词、多义词能进行比较好的处理。但是基于概念的文本分类方法往往对人名、机构名等具有分类特征的词不能很好处理。文中提出了一种将语义词典与一部人名、机构名构成的专有名词词典相结合的新的概念分类方法。并经实验验证了其有效性。  相似文献   

4.
情感词典有助于情感分析,可以通过词语匹配来进行情感分类。但是,情感词典在词汇覆盖和领域适应方面存在一定的局限性。为此,文中提出了一种基于语义相似性度量和嵌入表示的情感分类方法,该方法计算了待分类文本与情感词典之间的语义相似度,将语义距离和基于嵌入的特征结合起来进行情感分类,有助于解决语义特征利用不足的问题。文中分别采用词向量、情感词典匹配和所提方法提取的特征向量来对情感分类性能进行了评估。实验结果表明,所提方法整体上优于对比方法。在3种电商评论测试语料中,所提方法的F1平均值达到了83.46%,相比对比方法提升了8.26%。其中,利用词嵌入与ECSD(E-Commerce Sentiment Dictionary)相结合提取的语义分类效果最佳,性能提升达到了9%,表明通过结合语义相似度可以丰富提取的情感语义特征,能够有效提升情感分类的性能。  相似文献   

5.
在数据挖掘和机器学习的基于距离的各种技术中,例如基于距离的聚类和基于距离的分类,如何度量数据间的相似性已经成为一项基础任务.对于某一具体问题,采用合适的相似性度量,会使问题得到更有效的解决.越来越多的研究表明,通过对成对约束(正约束和负约束)的充分利用,从而得到与问题相匹配的相似性度量,能够大幅度地提升算法性能.目前基于约束的相似性度量研究主要是基于约束的距离度量学习,通过对约束信息的利用,学习一个距离度量矩阵,然后再进行分类或者聚类.通过对成对约束尤其是负约束的挖掘,提出一种基于成对约束的相似性度量准则,然后将此准则应用于聚类和分类任务中,分别提出聚类和分类算法,最后在大量标准数据集上将这些算法的性能与目前流行的算法进行实验比较,并据此得出了一些经验性的启示.  相似文献   

6.
关键词在文本聚类/分类,自动摘要,信息检索等领域占据着重要地位,然而人工对已有的文章生成关键词的代价巨大,并且大多数已有的自动关键词提取算法都需要建立在人工标注的训练集之上。该文提出一种基于聚类的关键词提取算法,根据词语之间的语义相似性,对网页分词后的词语进行聚类,在分析词语语义联系基础上提取出反映主题的关键词。  相似文献   

7.
张永  杨浩 《计算机应用》2017,37(8):2244-2247
针对视觉词袋(BOV)模型中过大的视觉词典会导致图像分类时间代价过大的问题,提出一种加权最大相关最小相似(W-MR-MS)视觉词典优化准则。首先,提取图像的尺度不变特征转换(SIFT)特征,并用K-Means算法对特征聚类生成原始视觉词典;然后,分别计算视觉单词与图像类别间的相关性,以及各视觉单词间的语义相似性,引入一个加权系数权衡两者对图像分类的重要程度;最后,基于权衡结果,删除视觉词典中与图像类别相关性弱、与视觉单词间语义相似性大的视觉单词,从而达到优化视觉词典的目的。实验结果表明,在视觉词典规模相同的情况下,所提方法的图像分类精度比传统基于K-Means算法的图像分类精度提高了5.30%;当图像分类精度相同的情况下,所提方法的时间代价比传统K-Means算法下的时间代价降低了32.18%,因此,所提方法具有较高的分类效率,适用于图像分类。  相似文献   

8.
一种基于DTW的新型故事时间序列相似性度量方法   总被引:1,自引:0,他引:1  
现有时间序列相似性度量方法在进行股市序列相似性分析时,通常忽略成交量等其他重要因素对股价的影响,从而导致序列聚类、分类不精确。针对这一问题,本文提出了新的股市时间序列相似性度量方法。该方法在动态时间弯曲算法的基础上,通过引进时间衰竭因子,并结合成交量因素,给出了股市序列的最终度量公式。为了证明提出方法的可行性和有效性,本文实验部分通过选取家电等三个行业中的股票数据进行测试。实验结果表明,基于动态时间弯曲(Dynamic time warping,DTW)的新型股市时间序列相似性度量方法能够在保持股票序列形态特征的基础上,较好地解决股市技术分析中量价关系问题,从而更有效地应用于股市技术分析里关于模式发现等领域。  相似文献   

9.
现有的视觉词典构建方法一般是将多个特征构成一个向量并通过聚类形成视觉词典,这种方法在视觉聚类的过程中只考虑了特征的整体相似性而忽略了不同特征对构建视觉词典的影响。本文提出了一种基于Dempster-Shafer(D-S)证据理论的多特征融合的视觉词典构建方法,应用证据理论融合不同特征的视觉相似性,从而构造出更加精确的视觉词典。应用以上视觉词典构造方法并将之应用于分类实验,在支持向量机与朴素贝叶斯分类器上取得的分类实验结果表明,应用本文方法构建的视觉词典能有效提高视觉词典的精确度,分类效果得到了很大的提高。  相似文献   

10.
智能答疑系统中基于聚类的问题分类研究   总被引:3,自引:0,他引:3  
研究了智能答疑系统中的问题分类。针对基于章节目录的分类方式过于依赖特定教材的不足,提出了基于关键词聚类的问题模糊分类方法。此方法基于关键词的语义,采用NERF算法对关键词进行聚类。并利用聚类有效性的方法来弥补此算法过于依赖初始值的不足。最后通过实例进行分析,说明此分类方法的可行性和对基于章节目录的分类方式不足的弥补。  相似文献   

11.
一种基于词汇链的关键词抽取方法   总被引:26,自引:6,他引:26  
关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇链的算法。通过计算词义相似度首先构建词汇链,然后结合词频与区域特征进行关键词选择。该方法考虑了词汇之间的语义信息,能够改善关键词标引的性能。实验结果表明,与单纯的词频、区域方法相比,召回率提高了7.78%,准确率提高了9.33%。  相似文献   

12.
王靖 《计算机应用研究》2020,37(10):2951-2955,2960
针对同类文本中提取的关键词形式多样,且在相似性与相关性上具有模糊关系,提出一种对词语进行分层聚类的文本特征提取方法。该方法在考虑文本间相同词贡献文本相似度的前提下,结合词语相似性与相关性作为语义距离,并根据该语义距离的不同,引入分层聚类并赋予不同聚类权值的方法,最终得到以词和簇共同作为特征单元的带有聚类权值的向量空间模型。引入了word2vec训练词向量得到文本相似度,并根据Skip-Gram+Huffman Softmax模型的算法特点,运用点互信息公式准确获取词语间的相关度。通过文本的分类实验表明,所提出的方法较目前常用的仅使用相似度单层聚类后再统计的方法,能更有效地提高文本特征提取的准确性。  相似文献   

13.
将传统的文本相似度量方法直接移植到短文本时,由于短文本内容简短的特性会导致数据稀疏而造成计算结果出现偏差。该文通过使用复杂网络表征短文本,提出了一种新的短文本相似度量方法。该方法首先对短文本进行预处理,然后对短文本建立复杂网络模型,计算短文本词语的复杂网络特征值,再借助外部工具计算短文本词语之间的语义相似度,然后结合短文本语义相似度定义计算短文本之间的相似度。最后在基准数据集上进行聚类实验,验证本文提出的短文本相似度计算方法在基于F-度量值标准上,优于传统的TF-IDF方法和另一种基于词项语义相似度的计算方法。  相似文献   

14.
Rules are increasingly becoming an important form of knowledge representation on the Semantic Web. There are currently few methods that can ensure that the acquisition and management of rules can scale to the size of the Web. We previously developed methods to help manage large rule bases using syntactical analyses of rules. This approach did not incorporate semantics. As a result, rule categorization based on syntactic features may not be effective. In this paper, we present a novel approach for grouping rules based on whether the rule elements share relationships within a domain ontology. We have developed our method for rules specified in the Semantic Web Rule Language (SWRL), which is based on the Web Ontology Language (OWL) and shares its formal underpinnings. Our method uses vector space modeling of rule atoms and an ontology-based semantic similarity measure. We apply a clustering method to detect rule relatedness, and we use a statistical model selection method to find the optimal number of clusters within a rule base. Using three different SWRL rule bases, we evaluated the results of our semantic clustering method against those of our syntactic approach. We have found that our new approach creates clusters that better match the rule bases’ logical structures. Semantic clustering of rule bases may help users to more rapidly comprehend, acquire, and manage the growing numbers of rules on the Semantic Web.  相似文献   

15.
针对为检索服务的语义知识库存在的内容不全面和不准确的问题,提出一种基于维基百科的软件工程领域概念语义知识库的构建方法;首先,以SWEBOK V3概念为标准,从维基百科提取概念的解释文本,并抽取其关键词表示概念的语义;其次,通过概念在维基百科中的层次关系、概念与其它概念解释文本关键词之间的链接关系、不同概念解释文本关键词之间的链接关系构建概念语义知识库;接着, LDA主题模型分别和TF-IDF算法、TextRank算法相结合的两种方法抽取关键词;最后,对构建好的概念语义知识库用随机游走算法计算概念间的语义相似度;将实验结果与人工标注结果对比发现,本方法构建的语义知识库语义相似度准确率能够达到84%以上;充分验证了所提方法的有效性。  相似文献   

16.
蒋效宇 《计算机工程》2012,38(3):183-186
针对生成文摘内容不完整的问题,利用相邻词的共现频率进行未登录词识别,提出一种通过词汇链的构建进行中文关键词抽取和文摘生成的算法,并给出一种采用《知网》为知识库构建词汇链的方法。通过计算词义相似度构建词汇链,结合词汇所在词汇链的强度、信息熵和出现位置等属性,进行关键词抽取和句子重要度计算。实验结果表明,与已有算法相比,该算法能够提高生成摘要的召回率和准确率。  相似文献   

17.
及时有效地处理负面在线评论能提高企业的声誉和维护消费者对企业的信任,而面对大量的负面在线评论,企业很难在短期内及时有效回复.根据在线评论是短文本的特点,运用基于句子相似度的负面在线评论进行案例推理处理.针对负面在线评论句子相似度计算问题,抽取句子中评价对象词和评价词作为关键词,同时考虑评价词的修饰词和句子语义依存关联对.除提出的关键词、修饰词、语义依存分析关联对三个特征外,再融入句子中的公共词、语义等两个特征,提出一种融合公共词、关键词、修饰词、语义、语义依存分析关联对等五个特征的句子相似度计算方法,检索相似负面评论句子的案例.通过实验验证,融入多特征的句子相似度计算优于常见句子相似度计算方法,其准确率为83.3%,有效地检索案例句子集并自动推荐回复方案.  相似文献   

18.
论文提出一个基于语义的文本间的相似度算法,以文本的特征词相似度为基础,来计算文本间的相似度,利用聚类算法对文本簇进行聚类.实验结果证明基于知网的文本语义相似度方法在对文本相似度计算以及文本聚类方面,能有效提高聚类的效果.  相似文献   

19.
Text categorization is widely characterized as a multi-label classification problem. Robust modeling of the semantic similarity between a query text and training texts is essential to construct an effective and accurate classifier. In this paper, we systematically investigate the Web page/text classification problem via integrating sparse representation with random measurements. In particular, we first adopt a very sparse data-independent random measurement matrix to map the original high dimensional text feature space to a lower dimensional space without loss of key information. We then propose a generic sparse representation method to obtain the sparse solution by decoding the semantic correlations between the query text and entire training samples. Based on the above method, we also design and examine a series of rules by taking advantage of the sparse coefficients to propagate multiple labels for the given query texts. We have conducted extensive experiments using real-world datasets to examine our proposed approach, and the results show the effectiveness of the proposed approach.  相似文献   

20.
基于音乐语义标签的音乐相似计算研究是音乐信息检索领域的另一个新的热点。该文提出一种基于标签挖掘的歌曲分类方法,以Last.fm音乐网站上的用户标签为特征进行歌曲相似性研究。文中将文本聚类中常用的潜在语义分析(LSA)方法和改进的K-means聚类方法相结合,应用于音乐语义标签的自动抽取;从音乐网站last.fm上抽取了6大类600首歌曲的8000多个用户标签作为音乐语义特征,并利用LSA进行歌曲向量的降维,形成了一个表示歌曲间相似关系的600×150维向量矩阵。最后利用K均值,根据音乐歌曲间的相似度进行歌曲分类,完成歌曲相似性比较。实验结果同没有LSA降维前及已有的HCC结果比较表明,使用文中提出的基于音乐标签的模型对歌曲进行分类,能得到较好的分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号