首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 46 毫秒
1.
针对FCM聚类算法时初始聚类中心的选择敏感,以及聚类数C难以确定的问题,提出一种基于遗传算法的自适应文本模糊聚类方法.该方法首先将文档集合表示成向量空间模型,并采用一种新型的可变长染色体编码方案,随机选择文本向量作为初始聚类中心形成染色体,然后结合FCM算法的高效性和遗传算法的全局优化能力,通过遗传进化,有效地避免了局部最优解的出现,同时得到了优化的聚类数目和聚类结果.实验表明该算法是一种精确高效的文本聚类方法.  相似文献   

2.
同义词和近义词现象以及强关联语义信息加大了文本向量的特征维数,对文本分类的效率和精度都会带来极大影响.为了有效降低文本向量的特征维数,提出一种基于混合并行遗传聚类的文本特征抽取方法.该方法首先使用K-means聚类算法进行特征词粗粒度聚类,然后采用混合并行遗传算法对各类特征词进行细粒度聚类,最后对各聚类中的特征词进行分析并压缩,得到最终能反映文本类别特征和语义信息的文本特征词集合.实验证明,该方法是一种有效的文本特征抽取方法,能切实提高文本分类的效率和精度.  相似文献   

3.
文本特征提取和分类器优化是文本分类的两个关键问题,为了提高文本分类正确率,提出一种聚类加权(CW)和布谷鸟(CS)算法优化最小二乘支持向量机(LSSVM)的文本分类模型。采用TF-IDF算法计算特征词的权重,根据特征词的位置进行加权,经过特征聚类处理降低特征冗余度,采用LSSVM建立文本分类器,采用CS算法对LSSVM参数进行优化。采用复旦大学语料库对模型性能进行仿真测试,仿真结果表明,模型不仅提高了文本分类的正确率,而且提高了文本分类的效率。  相似文献   

4.
文档聚类在Web文本挖掘中占有重要地位,是聚类分析在文本处理领域的应用。文章介绍了基于向量空间模型的文本表示方法,分析并优化了向量空间模型中特征词条权重的评价函数,使基于距离的相似性度量更为准确。重点分析了Web文档聚类中普遍使用的基于划分的k-means算法,对于k-means算法随机选取初始聚类中心的缺陷,详细介绍了采用基于最大最小距离法的原则,结合抽样技术思想,来稳定初始聚类中心的选取,改善聚类结果。  相似文献   

5.
许伟佳 《数字社区&智能家居》2009,5(9):7281-7283,7286
文档聚类在Web文本挖掘中占有重要地位.是聚类分析在文本处理领域的应用。文章介绍了基于向量空间模型的文本表示方法,分析并优化了向量空间模型中特征词条权重的评价函数,使基于距离的相似性度量更为准确。重点分析了Web文档聚类中普遍使用的基于划分的k-means算法.对于k-means算法随机选取初始聚类中心的缺陷.详细介绍了采用基于最大最小距离法的原则,结合抽样技术思想,来稳定初始聚类中心的选取,改善聚类结果。  相似文献   

6.
基于混合并行遗传算法的文本聚类研究   总被引:2,自引:0,他引:2  
针对传统K-Means聚类算法对初始聚类中心的选择敏感,易陷入局部最优解的问题,提出一种基于混合并行遗传算法的文本聚类方法。该方法首先将文档集合表示成向量空间模型,并在文档向量中随机选择初始聚类中心形成染色体,然后结合K-Means算法的高效性和并行遗传算法的全局优化能力,通过种群内的遗传、变异和种群间的并行进化、联姻,有效地避免了局部最优解的出现。实验表明该算法相对于K-Means算法、简单遗传算法等文本聚类方法具有更高的精确度和全局寻优能力。  相似文献   

7.
张群  王红军  王伦文 《计算机科学》2016,43(Z11):443-446, 450
短文本因具有特征信息不足且高维稀疏等特点,使得传统文本聚类算法应用于短文本聚类任务时性能有限。针对上述情况,提出一种结合上下文语义的短文本聚类算法。首先借鉴社会网络分析领域的中心性和权威性思想设计了一种结合上下文语义的特征词权重计算方法,在此基础上构建词条-文本矩阵;然后对该矩阵进行奇异值分解,进一步将原始特征词空间映射到低维的潜在语义空间;最后通过改进的K-means聚类算法在低维潜在语义空间完成短文本聚类。实验结果表明,与传统的基于词频及逆向文档频权重的文本聚类算法相比,该算法能有效改善短文本特征不足及高维稀疏性,提高了短文的本聚类效果。  相似文献   

8.
基于向量空间模型(VSM)的文本聚类会出现向量维度过高以及缺乏语义信息的问题,导致聚类效果出现偏差。为解决以上问题,引入《知网》作为语义词典,并改进词语相似度算法的不足。利用改进的词语语义相似度算法对文本特征进行语义压缩,使所有特征词都是主题相关的,利用调整后的TF-IDF算法对特征项进行加权,完成文本特征抽取,降低文本表示模型的维度。在聚类中,将同一类的文本划分为同一个簇,利用簇中所有文本的特征词完成簇的语义特征抽取,簇的表示模型和文本的表示模型有着相同的形式。通过计算簇之间的语义相似度,将相似度大于阈值的簇合并,更新簇的特征,直到算法结束。通过实验验证,与基于K-Means和VSM的聚类算法相比,文中算法大幅降低了向量维度,聚类效果也有明显提升。  相似文献   

9.
文本聚类关键是有效解决特征词向量选择及特征词权重计算方法、文本相似度计算方法、聚类中心确定等三个问题。针对相关算法在三个关键环节上存在的问题,提出了适合自由文本特点的特征词权重计算方法和文本相似度计算方法;在此基础上提出了改进的CBC算法,从全局上自适应地确定文本集中的各个聚类中心。算法在实验中准确地确定了各个聚类中心,并在两个文本集上分别获得88.50%和94.00%的聚类准确率。  相似文献   

10.
针对传统的空间向量模型在进行文本表示时计算相似度仅采用词频统计来表示文本以及对高维文本数据聚类效果有所下降等问题,提出一种基于优化密度的耦合空间LDA文本聚类算法。该算法利用提出的耦合空间模型和LDA主题模型线性融合计算文本相似度,并对阈值敏感问题进行优化,确定不同密度区域对应的阈值半径。实验结果表明,与改进的DBSCAN文本聚类算法和R-DBSCAN文本聚类算法相比,本文算法的文本聚类精度更高、聚类效果更优。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号