共查询到19条相似文献,搜索用时 78 毫秒
1.
基于遗传算法和模糊聚类的文本分类研究 总被引:2,自引:0,他引:2
鉴于模糊C-均值类型算法(FCM算法)对初始中心敏感的问题,提出了一种基于遗传算法和模糊聚类的文本分类方法.采用遗传算法初始聚类中心,并在适应度的计算中采用了一个可变值,用户可以在文本直接聚类时更改该值,产生用户满意的属性约简结果,极大地提高了系统的分类精度.最后通过实验给出了该算法性能的测试结果. 相似文献
2.
首先,选择合适的文本集合,并且对文本进行分词处理,然后,进行文档内部特征词的提取,通过采用词频统计的方法对文本向量进行降维处理,从而选择最佳的特征向量。最后,将非数值的文本数据进行量化处理后,利用减聚类优化的模糊C-均值算法对文本集合进行聚类,从而提高文本聚类的效果。 相似文献
3.
4.
科学文献的模糊聚类算法 总被引:8,自引:0,他引:8
针对科学文献的特点,以及人们在查询资料时主要使用关键词来进行查询的特征,提出了一种新的聚类方法。先对关键词进行聚类,由关键词的聚类结果直接映射得到文献的初始聚类,再根据文献的隶属度获得优化的聚类集。 相似文献
5.
利用数据挖掘中的模糊聚类分析方法,从高职毕业生综合素质分析数据集中提取学生的分类知识,得到具有不同综合素质特征的毕业生群组,有利于高职院校针对各群组作深入分析并制定更为有效的教学和管理决策. 相似文献
6.
李毅 《电脑与微电子技术》2014,(19):3-8
聚类分析即将一组事物根据其性质上亲疏远近的程度进行分类,把性质相近的个体归为一类,使得同一类中的个体具有高度的同质性,不同类之间的个体具有高度的异质性。模糊聚类分析是现今模糊理论应用最广泛和最富成果的技术之一。阐述模糊聚类的理论,以部分石油股票为例,抽取影响石油股票收益因素的数据,利用最大最小法建立相似矩阵,用传递闭包法作出聚类分析,并进行总结。 相似文献
7.
基于PAT-array和模糊聚类的文本聚类方法 总被引:5,自引:0,他引:5
阐述了基于后缀树的文本聚类(STC)算法,对其所存在的缺陷进行了分析,并在此基础上提出了采用PAT-array和模糊聚类相结合的方法对其进行的改进,以提高聚类的质量。 相似文献
8.
如何快速地整理海量信息,对不同的文本进行有效分类,已成为获取有价值信息的瓶颈。本文提出的中文文本分类方法,较好地解决了信息的实时分类问题,在实践中收到了良好的效果。由于汉语文本的特殊性,在分类器训练前对训练文本进行自动分词和降维预处理。许多文本往往可能归到多个类,因此分类算法采用模糊c-原型算法。实验表明,该方法综合效果较好,可以实现文本的快速分类。 相似文献
9.
信息检索是与数据库系统并行发展了很多年的一个领域,它主要研究大量文本的信息组织和检索.典型的信息检索问题是基于用户的输入来定位相关的文本.而文本的相关性是一个模糊的概念,为了对这个模糊的概念以客观的度量,提出了一种新的文本间相关性的计算方法,该方法利用词频矩阵和模糊相似矩阵,在基于相关性检索的一组文档中,使用模糊聚类中的最大树算法,计算出一组文档间的相关度,最后用一个实例加以说明,得到了比较客观的结果. 相似文献
10.
信息检索是与数据库系统并行发展了很多年的一个领域,它主要研究大量文本的信息组织和检索。典型的信息检索问题是基于用户的输入来定位相关的文本。而文本的相关性是一个模糊的概念,为了对这个模糊的概念以客观的度量,提出了一种新的文本间相关性的计算方法,该方法利用词频矩阵和模糊相似矩阵,在基于相关性检索的一组文档中,使用模糊聚类中的最大树算法,计算出一组文档间的相关度,最后用一个实例加以说明,得到了比较客观的结果。 相似文献
11.
12.
13.
文本聚类过程中,存在着文本数据空间维数巨大,聚类的数目不能直接确定等问题。为此,有专家学者提出了次胜者受罚的竞争学习(Rival Penalized Competitive Learning)算法,简称RPCL算法。该算法在一定程度上,解决了聚类的数目的确定问题。但是,该算法只适合做低维数据的聚类,对于高维数据聚类效果极差。该文提出了一种改进的RPCL算法,该方法不再采用欧氏距离去计算相似度,而是采用模糊相似度的方法,通过实验表明,改进的RPCL算法在聚类效果上好于经典的RPCL算法。 相似文献
14.
本文研究了文档频率DF、信息增益IG、互信息MI、x2分布(CHI)、期望交叉熵、优势率、文本证据权七种不同的特征选取方法。针对DF对高频词过于依赖,以及MI,IG和CHI对低频词过于依赖这一特点,试验了将它们组合起来形成DF—MI,DF-IG两种组合式特征选择方法,同时针对DF的特点提出了新的特征选取方法DFR,用KNN分类器试验了几种组合方法和DFIK方法,实验结果表明DFIK较DF—MI、DF—IG对分类效果有明显的提高,而组合特征选取方法较单个特征选取方法对分类器的分类效果有了很大的提高。 相似文献
15.
本文研究了文档频率DF、信息增益IG、互信息MI、x2分布(CHI)、期望交叉熵、优势率、文本证据权七种不同的特征选取方法.针对DF对高频词过于依赖,以及MI,IG和CHI对低频词过于依赖这一特点,试验了将它们组合起来形成DF-MI,DF-IG两种组合式特征选择方法-同时针对DF的特点提出了新的特征选取方法DFR-用KNN分类器试验了几种组合方法和DFR方法-实验结果表明DFR较DF-MI、DF-IG对分类效果有明显的提高,而组合特征选取方法较单个特征选取方法对分类器的分类效果有了很大的提高. 相似文献
16.
17.
特征抽取是中文文本分类的重点和难点,文中比较了不同特征单元对分类性能的影响,将字特征与词特征相结合以期更好地表现文本特征。并在构建的实验系统中比较了不同特征单元的分类准确性,发现采用混合特征来进行分类,能得到较好的分类效果。 相似文献
18.
基于概念的文本分类方法是近年来提出的一种新的文本分类方法,弥补了以前基于关键词的文本分类方法的不足,对同义词、多义词能进行比较好的处理。但是基于概念的文本分类方法往往对人名、机构名等具有分类特征的词不能很好处理。文中提出了一种将语义词典与一部人名、机构名构成的专有名词词典相结合的新的概念分类方法。并经实验验证了其有效性。 相似文献
19.
中文文本分类中的特征选择研究 总被引:76,自引:3,他引:76
本文介绍和比较了八种用于文本分类的特征选择方法,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式,并提出了一种新的类别区分词的特征选择方法,结合两种不同的分类方法:文本相似度方法和Na?ve Bayes方法,在两个不同的数据集上分别作了训练和测试,结果表明,在这八种文本特征选择方法中,多类优势率和类别区分词方法取得了最好的选择效果。其中,当用Na?ve Bayes分类方法对各类分布严重不均的13890样本集作训练和测试时,当特征维数大于8000以后,用类别区分词作特征选择得到的宏F1值比用IG作特征选择得到的宏F1值高出3%~5%左右。 相似文献