首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 31 毫秒
1.
典型的文本聚类算法是一种硬划分,但是实际上由于中文文本的多样性和大量性更适合进行软划分,模糊集理论的提出为这种软划分提供了有力的分析工具。传统的模糊聚类方法大都是通过对隶属度的矩阵逐步迭代得到模糊等价矩阵或模糊划分的方法实现聚类,这个过程需要大量的存储空间。基于模糊粒度计算的文本聚类算法是在文档集合的模糊粒度空间上给定一个归一化的距离函数ddi,dj),对距离小于粒度dλ的文本进行动态聚类。通过实验证明此方法在解决文本聚类问题时具有降低计算复杂度和空间复杂度,适于大量文本的聚类处理。  相似文献   

2.
基于遗传算法和模糊聚类的文本分类研究   总被引:2,自引:0,他引:2  
鉴于模糊C-均值类型算法(FCM算法)对初始中心敏感的问题,提出了一种基于遗传算法和模糊聚类的文本分类方法.采用遗传算法初始聚类中心,并在适应度的计算中采用了一个可变值,用户可以在文本直接聚类时更改该值,产生用户满意的属性约简结果,极大地提高了系统的分类精度.最后通过实验给出了该算法性能的测试结果.  相似文献   

3.
基于二阶模糊聚类算法的雷达目标距离像识别   总被引:1,自引:0,他引:1  
彭翔  周代英 《计算机应用》2011,31(2):399-401
针对于模糊C-均值(FCM)算法敏感于聚类中心初始值的缺点,提出一种基于二阶模糊聚类方法。该方法利用传递闭包(TC)算法无初始化的优点,先对样本集按一定分类水平进行划分,选取若干类,求得这些类的样本均值作为FCM算法的初始聚类中心。一方面能够获得理想的聚类中心初始值,同时还能通过分类水平值来优化聚类中心数和聚类中心,避免局部最优,克服一致性聚类。利用该算法对三类飞机目标的实测一维距离像数据进行了识别实验,实验结果表明,基于二阶模糊聚类方法的识别率比FCM有了明显的改善。  相似文献   

4.
模糊C均值聚类作为聚类的一种有效方法在数据挖掘和信息检索等领域得到广泛的应用,初始中心和初始隶属度矩阵的建立是决定模糊C均值聚类效果的关键.本文提出一种基于文本主题空间的模糊C均值聚类算法TS2FCM(Topic Sub-Space based Fuzzy C-Means),通过对能够代表文本主题的关键短语(salient phrase)的提取来建立主题子空间,利用主题子空间中的文本向量来提取初始中心和初始隶属度矩阵.实验表明,TS2FCM取得了较好的聚类效果.  相似文献   

5.
基于模糊c-means算法的空间数据分类和预测   总被引:2,自引:0,他引:2  
空间分类和预测是空间数据挖掘中一个非常重要的方法,但对它们的研究目前尚处于初始阶段.通过引入空间对象对模糊聚类的模糊隶属度的概念,提出了基于模糊c-means算法的空间数据分类和预测的方法(SFCM),该方法首先用模糊c-means方法对数据集论域空间进行聚类,但由于空间数据具有空间自相关的特性,在用模糊c-means算法进行空间聚类时加入了空间信息,然后计算每个空间对象对所有聚类的模糊隶属度并从中找出模糊隶属度最大的聚类,最后用该聚类中心对象的因变量的值作为该空间对象的因变量的估计值,理论分析和实验结果表明,该算法是有效可行的.  相似文献   

6.
针对基于粒子群的模糊聚类算法运算效率较低的问题,提出隐隶属度模糊c均值聚类算法HMFCM(hidden-membership fuzzy c-means clustering)。HMFCM算法将FCM模糊隶属度迭代公式代入FCM目标函数中约简,得到无模糊隶属度的HMFCM目标函数,并利用PSO算法对聚类中心进行编码寻优,最后利用样本与聚类中心距离进行类别判决。HMFCM算法无需计算样本模糊隶属度,降低了聚类算法复杂度,提高了算法的计算效率及精度,而且该方法可以推广到其他基于生物寻优的聚类算法。通过仿真实验验证了所提出算法的有效性和时效性。  相似文献   

7.
基于语义的高质量中文短信文本聚类算法   总被引:13,自引:5,他引:8       下载免费PDF全文
刘金岭 《计算机工程》2009,35(10):201-202
现有数据聚类方法在处理文本数据时,没有考虑词之间潜在的相似信息,导致聚类效果不理想。针对中文短信文本聚类提出一种基于语义的聚类算法。给出中文概念、词和中文短信文本的相似度度量方法,通过向下连锁裂变和向上两两归并完成中文短信文本聚类。实验结果表明,该算法的聚类质量高于传统算法。  相似文献   

8.
基于单词相似度的文本聚类   总被引:4,自引:1,他引:3  
研究了现有的基于向量空间模型的文本聚类算法,发现这些算法都存在数据维度过高和忽略了单词之间语义关系的缺点.针对这些问题,提出一种基于单词相似度的文本聚类算法,该算法首先利用单词相似度对单词进行分类获得单词间的语义关系,然后利用产生的单词类作为向量空间的项表示文本降低了向量空间的维度,最后采用基于划分聚类方法对文本聚类.实验结果表明,相对于传统基于向量空间模型的聚类算法,该算法具有较好的聚类效果.  相似文献   

9.
因特网文本智能挖掘的模糊聚类算法研究   总被引:3,自引:3,他引:0  
随着Internet的深入发展及普及应用,网络中可获取的大部分文本信息由来自各种数据源的文档组成.由于电子形式的文本信息飞速增涨,可以获知的文本信息已成海量之势,文本挖掘已经成为信息领域的研究热点,快速得到目标文本成为互联网发展的瓶颈.在动态聚类方法和基于特征属性分类法的基础上提出基于混合模糊聚类理论的文本数据分类系统新模型,在模型基础上探究了一种模糊聚类仿真算法,通过实验验证算法能有效提高文本分类效率及文本分类准确率,从而在实际网络文本挖掘应用中快速得到目标文本,实现因特网文本智能挖掘.  相似文献   

10.
一般空间模糊聚类算法没有区分各属性之间的不平衡性和讨论分类数何时为最佳,针对这一问题,提出了一种加权空间模糊动态聚类算法。该算法首先利用层次分析法得到各属性的权值;然后将权值与空间模糊动态聚类法相结合;最后利用概率统计中的F-分布来确定最佳分类,以提高空间模糊聚类算法的智能性。将文中算法与基于模糊等价关系的传递闭包方法进行比较,试验表明,该算法聚类准确率要明显高于未加权的模糊聚类算法。  相似文献   

11.
阐述了基于相似粗糙集和模糊认知图的文本分类问题,提出了一种基于模糊认知图的文本分类推理算法,使文本分类成为一个基于文本特征项的权和特征项与类别的相关度构成的模糊认知图进行推理的结果,最后对该算法进行了实验,并对结果进行了分析.  相似文献   

12.
基于模糊认知图的文本分类推理算法   总被引:3,自引:0,他引:3  
文本分类是信息处理的重要研究方向,现在应用较多的是基于统计计算的分类方法。介绍了利用模糊认知图的文本分类推理理论与算法,该方法是基于数值推理的,实现将统计与规则融合推理,灵活性较大,不需要语料的多次训练,适合于训练不充分和新主题的文本分类和多类分类,并具有一定的鲁棒性。  相似文献   

13.
传统的KNN文本分类算法在处理不均匀数据时,尤其是小型数据,容易受到边缘数据的干扰,导致分类效果明显下降.对此,本文提出一种基于模糊理论的KNN文本分类算法,该算法根据模糊理论的思想计算样本的隶属度函数,更合理地处理训练样本权值.实验表明,基于模糊理论的KNN算法能有效的弱化这些干扰,并在分类准确度上也有一定的提高.  相似文献   

14.
经典模糊C均值聚类算法(FCM)基于欧氏距离,存在不同规模类簇不能正确聚类问题,针对此问题提出一种基于[K]近邻隶属度的模糊C均值聚类算法(KNN_FCM)。讨论了基于[K]近邻隶属度的粗糙C均值聚类算法(KNN_RCM)和粗糙模糊C均值聚类算法(KNN_RFCM),此方法避免了传统粗糙C均值聚类算法(RCM)和粗糙模糊C均值聚类算法(RFCM)中阈值选择问题。将KNN_FCM、KNN_RCM、KNN_RFCM分别与FCM、RFM、RFCM在UCI数据集上进行仿真比较,结果表明新方法是可行、有效的。  相似文献   

15.
首先,选择合适的文本集合,并且对文本进行分词处理,然后,进行文档内部特征词的提取,通过采用词频统计的方法对文本向量进行降维处理,从而选择最佳的特征向量。最后,将非数值的文本数据进行量化处理后,利用减聚类优化的模糊C-均值算法对文本集合进行聚类,从而提高文本聚类的效果。  相似文献   

16.
基于分级神经网络的Web文档模糊聚类技术   总被引:1,自引:1,他引:1  
给出了一种多层向量空间模型,该模型将一篇文档的相关信息从逻辑上划分为多个相对独立的文本段,按照不同位置的文本段确定相应的索引项权重.然后提出了一种简明而有效的基于分级神经网络的模糊聚类算法.与现有方法不同,该模糊聚类方法采用自组织神经网络和模糊聚类网络两部分组成的3层神经网络来实现.首先采用自组织神经网络从原始数据产生一个初始聚类结果,然后运用FCM方法对初始聚类的数目进行优化.实验结果表明,提出的Web文档聚类算法具有较好的聚类特性,它能将与一个主题相关的web文档较完全和准确地聚成一类.  相似文献   

17.
罗军  况夯 《计算机应用》2008,28(9):2386-2388
提出一种新颖的基于Boosting模糊分类的文本分类方法。首先采用潜在语义索引(LSI)对文本特征进行选择;然后提出Boosting算法集成模糊分类器学习,在每轮迭代训练过程中,算法通过调整训练样本的分布,利用遗传算法产生分类规则。减少分类规则能够正确分类样本的权值,使得新产生的分类规则重点考虑难于分类的样本。实验结果表明,该文本分类算法具有良好分类的性能。  相似文献   

18.
该文首先给出D-S证据理论的概念,基于证据理论的思想提出了一种虚拟现实系统中比较适用的手势识别算法。在此算法中还讨论了隶属度概念,借助于模糊聚类算法中的隶属度概念提出了手势的隶属度,该文使用的隶属度公式只是模糊聚类算法的一个子集。  相似文献   

19.
基于混合聚类算法的模糊函数系统辨识方法   总被引:1,自引:0,他引:1  
针对传统模糊系统存在的结构难以确定和参数辨识复杂的问题,提出了一种基于混合聚类算法的模糊函数系统辨识算法.与一般的模糊函数系统相比,混合聚类算法结合模糊C均值和模糊C回归模型聚类算法的样本距离.在模型预测部分,采用高斯函数计算每个输入变量的隶属度,利用输入变量隶属度的模糊化算子得到输入向量的隶属度.应用于Box-Jenkins煤气炉数据、一个双入单出的非线性系统和Mackey-Glass混沌时间序列数据的试验结果表明,本文算法具有很好的辨识效果,从而验证了本文算法的有效性与实用性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号