首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
王刚  钟国祥 《计算机科学》2010,37(9):222-224
为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类缺少涉及概念的内涵及概念间的联系,提出了一种基于本体相似度计算的文本聚类算法TCBO(Text Clustering Based on Ontology).该算法把文档用本体来刻画,以便描述概念的内涵及概念间的联系.设计和改进了文本相似度计算算法,应用本体的语义相似度来度量文档间相近程度,设计了具体的根据相似度进行文本聚类的算法.实验证明,该方法从聚类的准确性和聚类的关联度方面改善了聚类质量.  相似文献   

2.
在文本情感分析时,使用无监督的聚类方法,可以有效节省人力和数据资源,但同时也面临聚类精度不高的问题。相似性是文本聚类的主要依据,该文从文本相似度计算的角度,针对情感聚类中文本—特征向量的高维和稀疏问题,以及对评论文本潜在情感因素的表示问题,提出一种基于子空间的文本语义相似度计算方法(RESS)。实验结果表明,基于RESS的文本相似度计算方法,有效解决了文本向量的高维问题,更好地表达了文本间情感相似性,并获得较好的聚类结果。  相似文献   

3.
提出一种基于概念和语义相似度的聚类算法TCBCSS(Text Clustering Based on Concept and Semantic Similarity),TCBCSS算法基于WordNet对文档概念进行抽取和归并,形成语义网络,利用小世界理论和网络的几何特性对其进行分析并构建概念列表来表示文档,不仅有效解决了“表达差异”问题也有利于文档相似度的计算。TCBCSS算法利用两个概念列表的语义相似度作为文档间相近程度的度量,以图为基础进行聚类分析,避免了有些聚类算法对聚簇形状的限制,试验证明TCBCSS算法提高了聚类质量。  相似文献   

4.
文本聚类过程中,存在着文本数据空间维数巨大,聚类的数目不能直接确定等问题。为此,有专家学者提出了次胜者受罚的竞争学习(Rival Penalized Competitive Learning)算法,简称RPCL算法。该算法在一定程度上,解决了聚类的数目的确定问题。但是,该算法只适合做低维数据的聚类,对于高维数据聚类效果极差。该文提出了一种改进的RPCL算法,该方法不再采用欧氏距离去计算相似度,而是采用模糊相似度的方法,通过实验表明,改进的RPCL算法在聚类效果上好于经典的RPCL算法。  相似文献   

5.
基于单词相似度的文本聚类   总被引:3,自引:1,他引:3  
研究了现有的基于向量空间模型的文本聚类算法,发现这些算法都存在数据维度过高和忽略了单词之间语义关系的缺点.针对这些问题,提出一种基于单词相似度的文本聚类算法,该算法首先利用单词相似度对单词进行分类获得单词间的语义关系,然后利用产生的单词类作为向量空间的项表示文本降低了向量空间的维度,最后采用基于划分聚类方法对文本聚类.实验结果表明,相对于传统基于向量空间模型的聚类算法,该算法具有较好的聚类效果.  相似文献   

6.
针对基于VSM(vector space model)的文本聚类算法忽略了词之间的语义信息和各维度之间的关系,导致文本的相似度计算不够精确,提出了一种基于语义相似度的群智能文本聚类的新方法。该方法融合了模拟退火算法的全局搜索和蚁群算法的正反馈能力。其思路是,首先从语义上分析文本,利用K-均值算法进行文本聚类,再根据K-均值算法的结果,使用蚁群和模拟退火算法进行调整聚类。测试结果表明这种算法能够提高聚类精度和召回率,也验证了混合算法的正确性。  相似文献   

7.
刘一松  杨玉成 《计算机科学》2013,40(11):211-214
语义Web服务在进行服务发现时,需要按顺序依次匹配注册库中的服务,这将大量时间浪费在不相干的服务上,从而造成服务发现效率低下。针对该问题,提出了一种新的基于文本聚类和概念相似度的语义Web服务发现方法。该方法主要分为两个阶段,第一阶段根据服务源文件中的描述性文本信息将类别一致的服务聚类到一起,在此过程中利用了向量空间模型对文本进行表示和处理,并在前人的基础上提出了一种多重混合聚类算法MHC;第二阶段进行服务间的功能属性匹配,结合本体概念层次树中有向边的深度、强度以及概念的继承度等因素计算概念间的语义相似度。最后,实验结果表明,提出的方法在兼顾匹配准确率的基础上,大大提高了匹配效率。  相似文献   

8.
根据各分布信息源信息单元实体类的语义相似度,对于信息单元实体类进行聚类,是半自动地进行本体映射、构建分布异构信息资源全局视图的重要步骤。本文面向分布信息资源统一信息视图构建需求,利用基于本体的元数据模型及语义相似度,在其基础上定义了语义聚类特征,基于语义聚类特征设计了一种基于语义特征树的混合层次聚类算法SCFBHCA。从理论和实验两个角度对SCFBHCA算法进行了分析,对比HCA和HCP,该算法具有增量式和扩展性且效率更高。  相似文献   

9.
针对大多数基于向量空间模型的中文文本聚类算法存在高维稀疏、忽略词语之间的语义联系、缺少聚簇描述等问题,提出基于语义列表的中文文本聚类算法CTCAUSL(Chinese text clustering algorithm using semantic list)。该算法采用语义列表表示文本,一个文本的语义列表中的词是该文本中出现的词,从而降低了数据维数,且不存在稀疏问题;同时利用词语间的相似度计算解决了同义词近义词的问题;最后用语义列表对聚簇进行描述,增加了聚类结果的可读性。实验结果表明,CTCAUSL算法在处理大量文本数据方面具有较好的性能,并能明显提高中文文本聚类的准确性。  相似文献   

10.
用于Web文档聚类的基于相似度的软聚类算法   总被引:3,自引:1,他引:3  
提出了一种基于相似度的软聚类算法用于文本聚类,这是一种基于相似性度量的有效的软聚类算法,实验表明通过比较SISC和诸如K-mcans的硬聚类算法,SISC的聚类速度快、效率高。最后展望了文本挖掘在信息技术中的发展前景。  相似文献   

11.
针对当前互联网网页越来越多样化、复杂化的特点,提出一种基于结构相似网页聚类的网页正文提取算法,首先,根据组成网页前端模板各“块”对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的相似度与权重乘积的总和作为两个网页的相似度。该算法充分考虑结构差别较大的网页对网页正文提取的影响,通过计算网页间相似度将网页聚类,使得同一簇中的网页正文提取结果更加准确。实验结果表明,该方法具有更高的准确率,各项评价指标均有所提高。  相似文献   

12.
一种基于本体的语义相似度算法研究   总被引:1,自引:0,他引:1  
赵永金  郑洪源  丁秋林 《计算机应用》2009,29(11):3074-3076
在研究目前比较经典的基于语义距离的相似度算法的基础上,通过分析语义概念的其他关键因子,增加了节点密度以及概念属性对语义相似度的影响,提出了一个更为规范的相似度算法。通过实验分析证明,改进后算法所得相似度值更加合理,在一定的调节参数下,与人类主观判断的兼容度比原始算法提高了约15%。  相似文献   

13.
This paper proposes a self-organized genetic algorithm for text clustering based on ontology method. The common problem in the fields of text clustering is that the document is represented as a bag of words, while the conceptual similarity is ignored. We take advantage of thesaurus-based and corpus-based ontology to overcome this problem. However, the traditional corpus-based method is rather difficult to tackle. A transformed latent semantic indexing (LSI) model which can appropriately capture the associated semantic similarity is proposed and demonstrated as corpus-based ontology in this article. To investigate how ontology methods could be used effectively in text clustering, two hybrid strategies using various similarity measures are implemented. Experiments results show that our method of genetic algorithm in conjunction with the ontology strategy, the combination of the transformed LSI-based measure with the thesaurus-based measure, apparently outperforms that with traditional similarity measures. Our clustering algorithm also efficiently enhances the performance in comparison with standard GA and k-means in the same similarity environments.  相似文献   

14.
针对短文本特征极度稀疏、上下文依赖性强等特点,以自顶向下的策略,提出一种基于核心词项平均划分相似度的短文本聚类算法CTMPS。该方法首先在整个短文本语料库中计算词项之间的概率相关性,以此为基础对短文本中词项进行加权,将权值较大的词项作为最能代表该短文本的核心词项形成核心词项集;以信息论为基础,将核心词项作为划分依据计算平均划分相似度,选择平均划分相似度值最大包含该核心词项的短文本形成一类,用此策略反复迭代直到满足要求。最后,实验结果表明,本文提出的方法显著地提高了短文本聚类的性能。  相似文献   

15.
Data Mining and Knowledge Discovery - Plagiarism is a controversial and debated topic in different fields, especially in the Music one, where the commercial market generates a huge amount of money....  相似文献   

16.
通过分析现有短文本聚类算法的缺陷,提出了一种基于改进相似度与类中心向量的半监督短文本聚类算法。首先,定义强类别区分度词,利用已加标数据的类别信息提取并构造强类别区分度词集合,并对基于初始特征的余弦相似度和基于强类别区分度词项的相似度进行有效融合,得到更加合理的改进的短文本相似度计算公式。然后,通过计算样本与类中心向量的相似度实现对未分类样本的正确划分,与此同时,更新加标数据集合、类中心向量,重新抽取强类别区分度词。重复这个过程,直到实现所有数据的类别划分。实验表明:与其他同类算法相比,本文算法在聚类准确性和时间效率上有了较大的改进。  相似文献   

17.
基于本体论的文本挖掘技术综述   总被引:6,自引:0,他引:6  
贾焰  王永恒  杨树强 《计算机应用》2006,26(9):2013-2015
文本挖掘技术是从海量文本信息中获取潜在有用知识的有效途径。传统的文本挖掘方法由于不能有效运用语义信息而难以达到更高的准确度。本体论为语义信息的合理表示和有效组织提供了理论支持和技术手段。介绍和分析了常识本体和领域本体以及基于这些本体的文本挖掘方法。  相似文献   

18.
文本聚类是文本挖掘的一种重要方法.基于形式概念分析和概念相似度,给出一种新的多背景文本模糊聚类方法和模型.该方法不仅考虑了多背景关键词之间的语义关系,而且通过非距离计算得到模糊相似矩阵. 可根据不同要求得到相应的聚类结果,具有较好的灵活性.最后通过示例说明了所给算法的可行性.  相似文献   

19.
基于本体的概念间语义相似度计算方法研究   总被引:6,自引:0,他引:6  
基于SUMO(Suggested Upper Merged Ontology)[1],提出了一种计算两概念语义相似度的语义距离方法。根据该方法实现了一个计算平台,将计算结果同人类的主观判断进行了比较,验证了概念语义相似度计算方法的有效性。该研究成果拟在正研发的语义数据库本体集成部分得到应用,也可以为本体的其它相关研究提供一定的技术基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号