共查询到10条相似文献,搜索用时 250 毫秒
1.
文本信息中包括许多无用特征,这种噪声特征会影响文本聚类效果,为此提出一种基于粒子群优化的文本特征选择算法.利用词频逆文本频率指数为目标函数评估每个文档的文本特征,从初始文档数据集中求解新的有用特征最优子集;以该最优有用特征子集作为K均值聚类的输入进行文本聚类,得到最优文本聚类结果.利用文档数据集进行聚类测试,其结果表明,在多项评估指标上算法表现得更加优秀,在特征选择规模上降低了初始文档特征规模. 相似文献
2.
传统谱聚类算法直接对原始数据建立高斯核邻接矩阵后再对数据进行聚类,并未考虑数据的深层次特征以及数据的邻域流形结构,并且仅进行单一聚类,针对以上三点不足,提出了利用稀疏自编码的局部谱聚类映射算法(LSCMS),通过对数据进行预处理,利用稀疏自编码提取能反映原始数据本质的深层次特征,并以此替代原始数据;对每个数据利用其邻域进行线性重构,以重构权值代替高斯核函数建立邻接矩阵.LSCMS在聚类同时将数据映射到聚类指标上进而协调聚类指标.在UCI数据集、手写数据集、人脸数据集上的实验结果表明:算法优于现有的聚类算法. 相似文献
3.
4.
5.
6.
针对短文本聚类存在的三个主要挑战,特征关键词的稀疏性、高维空间处理的复杂性和簇的可理解性,提出了一种结合语义改进的K-means短文本聚类算法。该算法通过词语集合表示短文本,缓解了短文本特征关键词的稀疏性问题;通过挖掘短文本集的最大频繁词集获取初始聚类中心,有效克服了K-means聚类算法对初始聚类中心敏感的缺点,解决了簇的理解性问题;通过结合TF-IDF值的语义相似度计算文档之间的相似度,避免了高维空间的运算。实验结果表明,从语义角度出发实现的短文本聚类算法优于传统的短文本聚类算法。 相似文献
7.
文本挖掘之前首先要对文本集进行有效的特征选择,传统的特征选择算法在维数约减及文本表征方面效果有限,并且因需要用到文本的类别信息而不适用于无监督的文本聚类任务。针对这种情况,设计一种适用于文本聚类任务的特征选择算法,提出词条属性的概念,首先基于词频、文档频、词位置及词间关联性构建词条特征模型,重点研究了词位置属性及词间关联性属性的权值计算方法,改进了Apriori算法用于词间关联性属性权值计算,然后通过改进的k-means聚类算法对词条特征模型进行多次聚类完成文本特征选择。实验结果表明,与传统特征选择算法相比,该算法获得较好维数约减率的同时提高了所选特征词的文本表征能力,能有效适用于文本聚类任务。 相似文献
8.
针对文本信息特征冗余多、噪声大问题,提出基于和声搜索机制的文本特征选择算法.以词频逆文本频率指数为目标函数评估特征词条;在初始文档集中通过和声搜索的记忆考虑、纵向倾角调整和随机选择3种特征选择新解更新规则,迭代搜索最优特征子集;以最优特征子集为基础,以K均值进行文本聚类.利用4种典型文档数据集进行仿真实验,实验结果表明... 相似文献
9.
基于混合并行遗传算法的文本聚类研究 总被引:2,自引:0,他引:2
针对传统K-Means聚类算法对初始聚类中心的选择敏感,易陷入局部最优解的问题,提出一种基于混合并行遗传算法的文本聚类方法。该方法首先将文档集合表示成向量空间模型,并在文档向量中随机选择初始聚类中心形成染色体,然后结合K-Means算法的高效性和并行遗传算法的全局优化能力,通过种群内的遗传、变异和种群间的并行进化、联姻,有效地避免了局部最优解的出现。实验表明该算法相对于K-Means算法、简单遗传算法等文本聚类方法具有更高的精确度和全局寻优能力。 相似文献
10.
为了从数据集更有效地检测出虚假评论群组.提出一种基于谱聚类的检测算法.对数据集中的多维数据样本进行分析,确定衡量用户之间相似程度的指标;利用用户相似度指标构造一幅以用户为节点、用户之间相似度为边上权值的带权评论者图;将该图的邻接矩阵作为相似度矩阵,利用谱聚类算法对其进行群组检测,将所有用户分为15个候选群组;对检测出的候选群组进一步挖掘,分析其内部特征.将不同方法检测得到的候选群组内部特征进行比较,结果表明该算法具有更高的有效性. 相似文献