首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
谱聚类算法是近年来国际上机器学习领域的一个新的研究热点,但其在文本聚类上的应用还较少。设计了一种文本聚类谱算法,首先构建文本相似度矩阵并进而得到拉普拉斯矩阵,随后对其进行特征值分解获得前k个最小特征向量,最后使用K均值算法(K-means)获得k个文本簇。在真实文本数据集上进行了实验,与超球K均值算法相比,本文算法获得了更好的聚类结果。  相似文献   

2.
本文主要讨论了聚类算法在Web文本挖掘中的应用研究情况.着重总结了Web文本挖掘的特点、一般过程和适用于Web文本聚类的算法条件,总结了当前的研究热点,并提出了Web文本聚类算法的发展方向.  相似文献   

3.
针对检索引擎返回的查询结果数量巨大,用户难以在较短的时间获取有用的信息,传统FCM聚类算法的距离无法完全准确描述文本间的相似程度,本文提出了一种新的文本间的距离定义,改进了模糊C均值聚类(FCM)聚类算法,利用新改进的算法对搜索引擎返回的结果进行聚类,方便了用户查询。实验证明了算法的可行性与有效性。  相似文献   

4.
使用谱聚类算法解决文本聚类集成问题   总被引:1,自引:0,他引:1  
采用2个不同的谱聚类算法解决文本聚类集成问题.为使算法可扩展到大规模应用,基于代数变换,通过求解小规模矩阵的特征值分解问题避免了大规模矩阵的特征值分解问题,有效降低了2个谱聚类算法的计算复杂度.分别从矩阵扰动理论和图上的随机游走的角度解释了2个算法的有效性.在真实文本集上的实验结果表明:提出的代数变换方法是有效的,该方法可以有效提高谱聚类算法的运行效率;该聚类集成谱算法比其他常见的聚类集成算法更优越、更高效,可以有效解决文本聚类集成问题.  相似文献   

5.
《信息技术》2016,(11):201-205
针对传统k-means文本聚类算法在处理大规模文本数据时扩展性不足的问题,提出了基于MapReduce编程模型的并行k-means文本聚类算法。通过删除离群点和采用高效的初始质心选择策略提高k-means聚类效果,并设计基于MapReduce框架的大规模文本并行聚类模型提高算法的可扩展性。实验证明,该算法在大规模文本聚类中具有良好的聚类效果和可扩展性。  相似文献   

6.
首先提出了一种优化初始中心点方法用以解决聚类的局部最优问题.同时通过样本的模糊加权减少边缘噪音数据对聚类效率的影响.文本聚类试验表明,该模糊文本聚类算法取得较好的聚类效果.  相似文献   

7.
本文主要讨论了聚类算法在Web文本挖掘中的应用研究情况。着重总结了Web文本挖掘的特点、一般过程和适用于Web文本聚类的算法条件,总结了当前的研究热点,并提出了Web文本聚类算法的发展方向。  相似文献   

8.
提出了一种改进蚁群文本聚类算法.改进蚁群文本聚类算法利用信息素对蚂蚁随机移动进行控制,使蚂蚁朝着文本向量相对集中的区域移动,缩短蚂蚁寻找文本向量簇的时间,提高聚类效率.采用复旦大学中文文本分类语料库进行仿真实验,实验结果表明,改进蚁群文本聚类算法不仅加快了文本聚类算法的收敛速度,而且提高文本聚类结果的精度.  相似文献   

9.
文本聚类技术在文本挖掘和信息检索系统中发挥着重要的作用。目前,文本聚类方法大多数采用基于关键词集的经典向量模型来表征文本,这种方式忽略了词与词之间的语义关系,存在词频维数过高,聚类算法计算复杂度高等问题。为了解决这些问题,提出一种基于主题概念聚类的中文文本聚类方法,该方法利用HowNet提取文本的主题概念,然后使用Chameleon算法将主题概念聚类,再依据主题概念的聚类结果完成对文本的聚类。该方法用概念代替单个词条表示文本,减少文本特征之间的依赖关系,有效地降低了文本聚类的时间复杂度。  相似文献   

10.
周国娟 《通信技术》2010,43(11):74-77
为了研究并提高文本的聚类算法的性能,根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的聚类处理的研究中。在文本的聚类处理研究中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,从而最终将相似文本进行聚合。对改进的算法进行实验后的结果证明,这种新的算法可以使文本聚类的准确度提高,具有良好的聚类效果,能有效提高查询的文本召回率。蚁群算法在文本聚类中的应用是可行的。  相似文献   

11.
基于蚁群算法的文本分类和聚类   总被引:2,自引:1,他引:1  
为了研究并提高文本的分类和聚类算法的性能,笔者根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的分聚类中。在文本聚类中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,最终将相似文本进行聚合。在文本的分类中,将所需要的分类信息装入蚂蚁,蚂蚁根据系统外部所希望的方式将文本分类。实验结果证明,这种新的算法可以使文本分类和聚类的准确度提高,蚁群算法在文本分类聚类中的应用是可行的。  相似文献   

12.
《现代电子技术》2019,(3):122-126
以英汉维三种大规模文本聚类为目标,针对三种语言的特点实现基于LDA模型的静态文本聚类系统。因为存在博客、微博等网络媒体的文本不太规范及涉及的话题范围广泛等现象,对文本特征的提取及聚类算法的选择带来一定的难度。通过对样本文本的分析,计算出适当的聚类数k,再调用LDA算法将文本聚为k类并给出每类文本的关键词。测试结果表明,该系统能将英汉维三种语言的文本相似度高的聚为一类,可显著提高聚类效果。  相似文献   

13.
《现代电子技术》2019,(7):177-180
为研究聚类算法在高校学生微博的应用情况,针对K-means算法和分层聚类算法在聚类中心选择不精确的问题,基于高校学生使用微博的背景,对微博文本挖掘应用中聚类算法的应用进行改进。通过文本的矢量表示、文本相似度计算和聚类算法的实现,验证了聚类算法在微博热门话题检测的准确性和效率,并针对实验数据提出几点针对性的措施。  相似文献   

14.
《现代电子技术》2019,(7):162-166
传统K-medoids聚类算法随机选取初始聚类中心,存在迭代次数增加、聚类结果波动较大的问题,因此提出基于全覆盖粒计算的K-medoids文本聚类算法。该算法定义了全覆盖平均粒度重要性的概念。首先对文本进行Single-Pass粗聚类,利用全覆盖粒度重要性和平均粒度重要性从粗聚类结果中产生初始聚类中心候选集,再基于密度和最大最小距离法则从候选集中选出初始聚类中心。通过实验验证,该算法的聚类迭代次数明显减小,聚类质量明显提高。  相似文献   

15.
《信息技术》2019,(1):66-70
针对传统K-means聚类中存在的一系列问题,文中提出了一种基于K-means聚类的改进算法。该算法首先利用K-means++聚类从数据中选择K个距离尽可能远的对象作为初始聚类中心,然后利用K-mediods聚类选择数据样本的中位数作为聚类中心的对象,最后与两步聚类结合。通过对几个常用UCI标准数据集进行仿真实验,结果表明该算法比传统算法更优。  相似文献   

16.
基于VSM的文本聚类忽略了文本关键词稀疏带来的相似度漂移问题和关键词之间的语义信息和各维度之间的关系,致使文本的相似度计算不精确,文中对相似度计算方法TF—IDF进行了改进,并提出一种新的聚类方法,利用分布式估计算法和禁忌搜索算法进行聚类,融合分布式估计算法的收敛速度快和禁忌搜索算法能跳出局部搜索的优点,首先对文本进行预处理,然后用分布式估计算法和禁忌搜索算法聚类,既能快速聚类又能防止聚类收敛到局部最优。测试结果表明这种算法行之有效。  相似文献   

17.
基于VSM的文本聚类忽略了文本关键词稀疏带来的相似度漂移问题和关键词之间的语义信息和各维度之间的关系,致使文本的相似度计算不精确,文中对相似度计算方法 TF-IDF进行了改进,并提出一种新的聚类方法,利用分布式估计算法和禁忌搜索算法进行聚类,融合分布式估计算法的收敛速度快和禁忌搜索算法能跳出局部搜索的优点,首先对文本进行预处理,然后用分布式估计算法和禁忌搜索算法聚类,既能快速聚类又能防止聚类收敛到局部最优。测试结果表明这种算法行之有效。  相似文献   

18.
《信息技术》2019,(12):76-80
文中讨论在文本类目数未知的情况下,如何对数据量过少的短文本进行有效聚类的问题。短文本的特点是每一份样本文章数据少,数据稀疏,用常规的聚类方法进行文本聚类不能取得很好的效果。文中提出了一种基于K-means的改进算法,提出一种简单降维方式和新的判别样本点距离的方法,经实验验证,文中改进算法比原K-means算法有更高的准确性。  相似文献   

19.
对海量数据进行聚类,从中获取有价值的隐含知识,已经成为一项迫切的需求。传统的基于词频或距离的文本聚类技术在准确度方面存在较大差距。引入文本语义信息的聚类方法,提高了聚类的准确度。实验结果表明,基于语义特征的模糊聚类算法具有较好的聚类效果。  相似文献   

20.
互联网已经成为人们发布、获取、共享信息的首选方法,大量多语言媒体信息蕴含着人们关注的热点话题及情感倾向。因此,多语言文本聚类研究对于了解民意倾向、引导舆论具有重要意义。文中提出融合时间影响因子的多语言文本复合聚类算法,用以研究互联网环境下,时间维度对聚类分析的影响。通过采集网络媒体英语、西班牙语、德语、法语新闻信息4000多条,实验证实,该算法取得了较好的聚类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号