首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
提出一种新的动态模糊聚类的方法,针对传统的模糊聚类需要预先确定聚类数的问题,提出采用动态自组织映射神经网络来确定聚类数,并通过文本向量空间模型和TF-IDF方法来确定文本的特征向量,再将动态自组织映射神经网络得到的聚类数,用模糊C均值算法(FCM)函数处理,得到聚类的结果。该算法同仅用动态自组织映射神经网络算法的运行结果相比,具有运行聚类结果精度高的优点,模糊聚类更适合处理语义的多样性和文本归属的模糊性,实验验证了算法的有效性。  相似文献   

2.
用于文本聚类的模糊谱聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
谱聚类方法的应用已经开始从图像分割领域扩展到文本挖掘领域中,并取得了一定的成果。在自动确定聚类数目的基础上,结合模糊理论与谱聚类算法,提出了一种应用在多文本聚类中的模糊聚类算法,该算法主要描述了如何实现单个文本同时属于多个文本类的模糊谱聚类方法。实验仿真结果表明该算法具有很好的聚类效果。  相似文献   

3.
基于PAT-array和模糊聚类的文本聚类方法   总被引:5,自引:0,他引:5  
林建敏  谢康林 《计算机工程》2004,30(12):126-127,177
阐述了基于后缀树的文本聚类(STC)算法,对其所存在的缺陷进行了分析,并在此基础上提出了采用PAT-array和模糊聚类相结合的方法对其进行的改进,以提高聚类的质量。  相似文献   

4.
随着Internet的深入发展及普及应用,网络中可获取的大部分文本信息由来自各种数据源的文档组成.由于电子形式的文本信息飞速增涨,可以获知的文本信息已成海量之势,文本挖掘已经成为信息领域的研究热点,快速得到目标文本成为互联网发展的瓶颈.在动态聚类方法和基于特征属性分类法的基础上提出基于混合模糊聚类理论的文本数据分类系统新模型,在模型基础上探究了一种模糊聚类仿真算法,通过实验验证算法能有效提高文本分类效率及文本分类准确率,从而在实际网络文本挖掘应用中快速得到目标文本,实现因特网文本智能挖掘.  相似文献   

5.
模糊聚类算法在汉语文本聚类中的应用   总被引:8,自引:2,他引:8  
应用一种新的分词算法对汉语文本进行分词,该算法具备不使用词典和语法知识、不使用汉语词法规则、无监督等特点。采用模糊聚类算法对汉语文本进行聚类,该模糊聚类算法优于普通的聚类算法,聚类结果能充分体现汉语文本的多样性和大量性的特点。  相似文献   

6.
蔡坤  姜保庆 《福建电脑》2009,25(4):45-46
本文首先介绍文本挖掘的定义及一般处理过程。重点探讨了文本挖掘中的关健技术文本聚类。  相似文献   

7.
提出了一种新的动态模糊自组织神经网络模型(TGFCM),并将其用于文本聚类中。针对传统模糊自组织神经网络需要预先确定聚类数的问题,TGFCM采用了可自动确定聚类数的动态自组织神经网络(TGSOM)的结构,在TGSOM网络结构中提出新的学习率计算式,并以模糊聚类中心作为TGFCM网络中对应的神经元的权值,从而提高了聚类的精度,并可提高收敛速度。  相似文献   

8.
针对FCM聚类算法时初始聚类中心的选择敏感,以及聚类数C难以确定的问题,提出一种基于遗传算法的自适应文本模糊聚类方法.该方法首先将文档集合表示成向量空间模型,并采用一种新型的可变长染色体编码方案,随机选择文本向量作为初始聚类中心形成染色体,然后结合FCM算法的高效性和遗传算法的全局优化能力,通过遗传进化,有效地避免了局部最优解的出现,同时得到了优化的聚类数目和聚类结果.实验表明该算法是一种精确高效的文本聚类方法.  相似文献   

9.
文本聚类过程中,存在着文本数据空间维数巨大,聚类的数目不能直接确定等问题。为此,有专家学者提出了次胜者受罚的竞争学习(Rival Penalized Competitive Learning)算法,简称RPCL算法。该算法在一定程度上,解决了聚类的数目的确定问题。但是,该算法只适合做低维数据的聚类,对于高维数据聚类效果极差。该文提出了一种改进的RPCL算法,该方法不再采用欧氏距离去计算相似度,而是采用模糊相似度的方法,通过实验表明,改进的RPCL算法在聚类效果上好于经典的RPCL算法。  相似文献   

10.
仿射传播聚类有与FCM、K-均值聚类方法等效的聚类功能、并且不需要事先确定初始聚类中心.但它也有一个缺陷就是有时在聚类过程中聚类的数目会出现摇摆,最终影响聚类结果.针对此提出了动态调整阻尼系数以消除摇摆及当调整方法失效时自动跳出摇摆等技术,成功改进了仿射传播聚类算法.并把改进后的仿射传播聚类应用于自适应文本模糊聚类中,取得了较好的聚类效果.  相似文献   

11.
从用户的实际需求出发,分析了聚类系统的使用者可能对系统提出的功能要求,提出了一种基于加权Eucfid距离的模糊C聚类分析算法。在该算法中,权值是由用户或领域的专家直接指定的,加在不同特征指标上的权值体现了用户对各个特征指标重视程度的差别。与传统的模糊C聚类分析相比,该算法增加了聚类的灵活性,能够产生令用户更加满意的聚类结果。  相似文献   

12.
文中提出一种新的方法通过使用模糊c均值对原始数据集进行预处理操作,通过这个操作可以把定量属性值转换为二进制值,继而就会得到原始数据集的模糊版本(由模糊记录和模糊属性组成)。另外,文中又提出了一种基于模糊Apfiori算法的快速提取规则的算法,这种算法是利用模糊聚类从先前得到的原始数据集的模糊版本中提取模糊频繁项集从而可以得到模糊关联规则。在文章的最后,实验结果显示了提出的新算法在处理大型数据集时在挖掘时间上要优于传统的Apriori算法。对大型数据库来说,该算法在实用性和可用性上面都有很好的发展前景。  相似文献   

13.
传统文本聚类方法只适合处理静态样本,且时间复杂度较高。针对该问题,提出一种基于簇相合性的文本增量聚类算法。采用基于词项语义相似度的文本表示模型,利用词项之间的语义信息,通过计算新增文本与已有簇之间的相合性实现对文本的增量聚类。增量处理完部分文本后,对其中错分可能性较大的文本重新指派类别,以进一步提高聚类性能。该算法可在对象数据不断增长或更新的情况下,避免大量重复计算,提高聚类性能。在20 Newsgroups数据集上进行实验,结果表明,与k-means算法和SHC算法相比,该算法可减少聚类时间,提高聚类性能。  相似文献   

14.
Web文本挖掘系统及聚类分析算法   总被引:2,自引:0,他引:2  
朱克斌  唐菁  杨炳儒 《计算机工程》2004,30(13):138-139,183
给出了Web文本挖掘系统WTMS的系统总体结构图,开发并实现了基于SOM的Web文档层次聚类算法。同时结合现代远程教育背景实现了Web文本挖掘的原型系统。该系统可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘,从而帮助人们快速进行文本信息导航,获取重要的知识。  相似文献   

15.
基于蚁群算法的文本聚类算法   总被引:1,自引:2,他引:1       下载免费PDF全文
针对目前文本检索后的相关反馈信息较少用于文本聚类中的问题,根据蚂蚁觅食聚类算法的思想,将文本检索后的相关反馈信息应用到文本聚类过程中,提出一种基于蚁群算法的文本聚类算法。分析簇的结构及其生成过程,论述聚类中簇合并的规则及算法。实验结果表明,该算法具有良好的聚类效果,能有效提高查询的文本召回率。  相似文献   

16.
Web日志挖掘是Web数据挖掘领域中的一个重要研究方向,是通过对Web日志记录的挖掘发现用户访问Web页面的浏览模式用以改进Web站点的性能和组织结构。在介绍Web日志挖掘的原理和技术的基础上对Web日志挖掘中的聚类技术进行了分析研究,并重点讨论了有关模糊聚类算法的原理及计算过程,对这一算法进行了改进后的优化和应用,最后用实例对算法加以验证。  相似文献   

17.
模糊聚类在中文文本分类中的应用研究   总被引:4,自引:0,他引:4  
将基于等价关系的模糊聚类技术应用于中文文本分类,提出了基于模糊聚类的中文文本分类算法ATCFC。该算法利用基于二级字索引的正向最大匹配算法对文本分词,建立模糊特征向量空间模型,使用贴近度法刻划文本间的相似度。利用算法ATCFC对文本集合进行动态聚类实验,实验结果表明算法ATCFC对于中文文本分类是可行、有效的。  相似文献   

18.
基于改进DBSCAN算法的文本聚类   总被引:1,自引:0,他引:1       下载免费PDF全文
蔡岳  袁津生 《计算机工程》2011,37(12):50-52
目前多数聚类算法不能很好地适应文本聚类的快速自适应需求。为此,论述DBSCAN算法的基本原理和实现过程,提出一种基于改进DBSCAN算法的文本聚类算法,利用最小二乘法降低文本向量的维度,并创建一种应用于DBSCAN算法的簇关系树结构。实验结果表明,该算法能自适应地进行文本聚类,且与DBSCAN相比,准确率较高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号