首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
文本聚类是数据挖掘的核心技术,能帮助用户有效地导航、总结和组织文本信息。本文通过对文本聚类的应用研究,探讨了几种聚类算法的原理与特点,提出并分析了K-means算法与层次凝聚算法的具体实现步骤。  相似文献   

2.
基于蚁群算法的文本分类和聚类   总被引:1,自引:1,他引:1  
为了研究并提高文本的分类和聚类算法的性能,笔者根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的分聚类中。在文本聚类中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,最终将相似文本进行聚合。在文本的分类中,将所需要的分类信息装入蚂蚁,蚂蚁根据系统外部所希望的方式将文本分类。实验结果证明,这种新的算法可以使文本分类和聚类的准确度提高,蚁群算法在文本分类聚类中的应用是可行的。  相似文献   

3.
《信息技术》2016,(11):201-205
针对传统k-means文本聚类算法在处理大规模文本数据时扩展性不足的问题,提出了基于MapReduce编程模型的并行k-means文本聚类算法。通过删除离群点和采用高效的初始质心选择策略提高k-means聚类效果,并设计基于MapReduce框架的大规模文本并行聚类模型提高算法的可扩展性。实验证明,该算法在大规模文本聚类中具有良好的聚类效果和可扩展性。  相似文献   

4.
特征选择是文本聚类的重要环节,传统的阈值截断特征选择方法偏重高权重项,受特征词权重计算公式影响较大。遗传算法具有全局搜索的能力,并允许权重低的特征项以一定概率参与遗传进化。另外,本文提出基于《知网》特征词合并算法,通过合并具有高度相似性的特征词,实现初步降维。实验结果表明,基于《知网》和遗传算法的中文文本聚类特征选择方法能够有效降低特征向量维度,并且聚类结果较为稳定。  相似文献   

5.
特征选择是文本聚类的重要环节,传统的阈值截断特征选择方法偏重高权重项,受特征词权重计算公式影响较大.遗传算法具有全局搜索的能力,并允许权重低的特征项以一定概率参与遗传进化.另外,本文提出基于<知网>特征词合并算法,通过合并具有高度相似性的特征词,实现初步降维.实验结果表明,基于<知网>和遗传算法的中文文本聚类特征选择方法能够有效降低特征向量维度,并且聚类结果较为稳定.  相似文献   

6.
周国娟 《通信技术》2010,43(11):74-77
为了研究并提高文本的聚类算法的性能,根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的聚类处理的研究中。在文本的聚类处理研究中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,从而最终将相似文本进行聚合。对改进的算法进行实验后的结果证明,这种新的算法可以使文本聚类的准确度提高,具有良好的聚类效果,能有效提高查询的文本召回率。蚁群算法在文本聚类中的应用是可行的。  相似文献   

7.
首先提出了一种优化初始中心点方法用以解决聚类的局部最优问题.同时通过样本的模糊加权减少边缘噪音数据对聚类效率的影响.文本聚类试验表明,该模糊文本聚类算法取得较好的聚类效果.  相似文献   

8.
讨论了中文文本聚类的现状以及存在的问题,介绍了向量空间模型,详细阐述了潜在语义索引理论以及采用该模型进行中文文本聚类的主要步骤,最后采用两种模型进行了实验对比,实验表明采用潜在语义索引模型可以取得更好的聚类效果。  相似文献   

9.
汉语文本聚类及其算法设计   总被引:1,自引:0,他引:1  
主要针对传统的聚类算法倾向于识别大小类似的球形聚类簇,且对离群数据较为敏感等问题,利用聚类簇代表点选取的方法,同时结合基于人进行聚类判断所遵循的基本原则,即聚类中对象间距离应小于聚类间距离,设计了一种有效的聚类算法,实验结果表明算法是有效的。  相似文献   

10.
互联网热点发现和舆论监控对政府公信力的提升有着重大的意义,而文本聚类技术在这些领域又有着非常广泛的应用。在当前互联网环境下,数据量之大令人匪夷所思,面对如此海量的数据,设计高效且具有良好可伸缩性的分布式处理系统就显得尤为重要。提出了把Map-Reduce这一分布式计算方法应用到文本聚类系统去,并通过相关实验证明了该方法的有效性,为构建具有高性能和高可扩展性的文本聚类系统提供了一种思路。  相似文献   

11.
基于概率主题模型的文档聚类   总被引:3,自引:0,他引:3       下载免费PDF全文
王李冬  魏宝刚  袁杰 《电子学报》2012,40(11):2346-2350
 为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allocation)模型和TC_LDA模型的聚类算法.TC_LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法不同,基于主题模型的聚类算法能将具备同一主题的文档聚为一类.实验结果表明从主题分析角度出发实现的聚类算法优于传统的聚类算法.  相似文献   

12.
刘铭  王晓龙  刘远超 《电子学报》2009,37(2):278-284
 本文提出一种新颖的文本分割算法,算法首先将待分割文档划分为若干片段的集合,然后构造全文词汇链分析文中描述的多个子主题,并通过构造片段对子主题的覆盖图将描述相同子主题的相似片段归类.针对段落分割点可能落在片段内部的情况,算法对片段进行二次划分.实验表明:在对文档进行主题分析后,算法能够过滤掉与主题无关的特征对分割结果的干扰;构造的片段对子主题的覆盖图融合了相邻及相间片段的相似性,加大了划分的准确度;对片段进行二次划分使得分割的结果更加合理.  相似文献   

13.
原福永  杨治秋  王海霞 《信号处理》2005,21(Z1):606-608
随着网络信息的迅速增长,文档聚类技术成为了人们研究的热点课题.探讨了典型的基于向量空间模型的文档聚类算法-k-means算法,针对它的不足提出了改进的BK-means算法.最后,根据一定的评价标准,得出BK-means算法是文档聚类算法中较好的算法.  相似文献   

14.
互联网已经成为人们发布、获取、共享信息的首选方法,大量多语言媒体信息蕴含着人们关注的热点话题及情感倾向。因此,多语言文本聚类研究对于了解民意倾向、引导舆论具有重要意义。文中提出融合时间影响因子的多语言文本复合聚类算法,用以研究互联网环境下,时间维度对聚类分析的影响。通过采集网络媒体英语、西班牙语、德语、法语新闻信息4000多条,实验证实,该算法取得了较好的聚类效果。  相似文献   

15.
文本聚类中的降维技术研究   总被引:2,自引:0,他引:2  
李彦平  张佳骥 《无线电工程》2005,35(6):51-53,56
对文本聚类中的降维方法进行了深入研究。重点研究了基于概念空间的文本的降维技术在解决中文文本处理领域常见的同义、近义和缩略等问题中的应用,并结合hash变换法实现了对大规模文本的特征提取。然后,通过增量聚类算法实现了文本聚类。最后,用试验表明了降维的有效性, 即缩短了聚类计算时间,提高了聚类精度。  相似文献   

16.
17.
孙广路  王晓龙  刘秉权  关毅 《电子学报》2008,36(12):2450-2453
 提出了一种基于信息熵的层次词聚类算法,并将该算法产生的词簇作为特征应用到中文组块分析模型中.词聚类算法基于信息熵的理论,利用中文组块语料库中的词及其组块标记作为基本信息,采用二元层次聚类的方法形成具有一定句法功能的词簇.在聚类过程中,设计了优化算法节省聚类时间.用词簇特征代替传统的词性特征应用到组块分析模型中,并引入名实体和仿词识别模块,在此基础上构建了基于最大熵马尔科夫模型的中文组块分析系统.实验表明,本文的算法提升了聚类效率,产生的词簇特征有效地改进了中文组块分析系统的性能.  相似文献   

18.
19.
针对常见的中文Word文档,分析了数字水印(Digital Watermarking)技术的特点和现有文本数字水印的嵌入方式,提出了一种基于中文字体的水印嵌入方式。在此基础上设计了一套详细完整的文本数字水印算法实施方案,该方案具有良好的隐蔽性、安全性以及一定的鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号