共查询到19条相似文献,搜索用时 46 毫秒
1.
2.
基于蚁群算法的文本分类和聚类 总被引:1,自引:1,他引:1
为了研究并提高文本的分类和聚类算法的性能,笔者根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的分聚类中。在文本聚类中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,最终将相似文本进行聚合。在文本的分类中,将所需要的分类信息装入蚂蚁,蚂蚁根据系统外部所希望的方式将文本分类。实验结果证明,这种新的算法可以使文本分类和聚类的准确度提高,蚁群算法在文本分类聚类中的应用是可行的。 相似文献
3.
4.
特征选择是文本聚类的重要环节,传统的阈值截断特征选择方法偏重高权重项,受特征词权重计算公式影响较大。遗传算法具有全局搜索的能力,并允许权重低的特征项以一定概率参与遗传进化。另外,本文提出基于《知网》特征词合并算法,通过合并具有高度相似性的特征词,实现初步降维。实验结果表明,基于《知网》和遗传算法的中文文本聚类特征选择方法能够有效降低特征向量维度,并且聚类结果较为稳定。 相似文献
5.
特征选择是文本聚类的重要环节,传统的阈值截断特征选择方法偏重高权重项,受特征词权重计算公式影响较大.遗传算法具有全局搜索的能力,并允许权重低的特征项以一定概率参与遗传进化.另外,本文提出基于<知网>特征词合并算法,通过合并具有高度相似性的特征词,实现初步降维.实验结果表明,基于<知网>和遗传算法的中文文本聚类特征选择方法能够有效降低特征向量维度,并且聚类结果较为稳定. 相似文献
6.
为了研究并提高文本的聚类算法的性能,根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的聚类处理的研究中。在文本的聚类处理研究中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,从而最终将相似文本进行聚合。对改进的算法进行实验后的结果证明,这种新的算法可以使文本聚类的准确度提高,具有良好的聚类效果,能有效提高查询的文本召回率。蚁群算法在文本聚类中的应用是可行的。 相似文献
7.
首先提出了一种优化初始中心点方法用以解决聚类的局部最优问题.同时通过样本的模糊加权减少边缘噪音数据对聚类效率的影响.文本聚类试验表明,该模糊文本聚类算法取得较好的聚类效果. 相似文献
8.
讨论了中文文本聚类的现状以及存在的问题,介绍了向量空间模型,详细阐述了潜在语义索引理论以及采用该模型进行中文文本聚类的主要步骤,最后采用两种模型进行了实验对比,实验表明采用潜在语义索引模型可以取得更好的聚类效果。 相似文献
9.
10.
互联网热点发现和舆论监控对政府公信力的提升有着重大的意义,而文本聚类技术在这些领域又有着非常广泛的应用。在当前互联网环境下,数据量之大令人匪夷所思,面对如此海量的数据,设计高效且具有良好可伸缩性的分布式处理系统就显得尤为重要。提出了把Map-Reduce这一分布式计算方法应用到文本聚类系统去,并通过相关实验证明了该方法的有效性,为构建具有高性能和高可扩展性的文本聚类系统提供了一种思路。 相似文献
11.
12.
13.
14.
互联网已经成为人们发布、获取、共享信息的首选方法,大量多语言媒体信息蕴含着人们关注的热点话题及情感倾向。因此,多语言文本聚类研究对于了解民意倾向、引导舆论具有重要意义。文中提出融合时间影响因子的多语言文本复合聚类算法,用以研究互联网环境下,时间维度对聚类分析的影响。通过采集网络媒体英语、西班牙语、德语、法语新闻信息4000多条,实验证实,该算法取得了较好的聚类效果。 相似文献
15.
文本聚类中的降维技术研究 总被引:2,自引:0,他引:2
对文本聚类中的降维方法进行了深入研究。重点研究了基于概念空间的文本的降维技术在解决中文文本处理领域常见的同义、近义和缩略等问题中的应用,并结合hash变换法实现了对大规模文本的特征提取。然后,通过增量聚类算法实现了文本聚类。最后,用试验表明了降维的有效性, 即缩短了聚类计算时间,提高了聚类精度。 相似文献
16.
17.
提出了一种基于信息熵的层次词聚类算法,并将该算法产生的词簇作为特征应用到中文组块分析模型中.词聚类算法基于信息熵的理论,利用中文组块语料库中的词及其组块标记作为基本信息,采用二元层次聚类的方法形成具有一定句法功能的词簇.在聚类过程中,设计了优化算法节省聚类时间.用词簇特征代替传统的词性特征应用到组块分析模型中,并引入名实体和仿词识别模块,在此基础上构建了基于最大熵马尔科夫模型的中文组块分析系统.实验表明,本文的算法提升了聚类效率,产生的词簇特征有效地改进了中文组块分析系统的性能. 相似文献
18.
19.
针对常见的中文Word文档,分析了数字水印(Digital Watermarking)技术的特点和现有文本数字水印的嵌入方式,提出了一种基于中文字体的水印嵌入方式。在此基础上设计了一套详细完整的文本数字水印算法实施方案,该方案具有良好的隐蔽性、安全性以及一定的鲁棒性。 相似文献