首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
一种优化初始化中心的k均值web信息聚类算法   总被引:1,自引:0,他引:1  
k-means算法是一种重要的聚类算法,在网络信息处理领域有着广泛的应用。由于k-means算法终止于一个局部最优状态,所以初始类中心点的选择会在很大程度上影响其聚类效果。针对k-means算法所存在的问题,构造了文本集合的相似度矩阵,基于平均相似度集合通过排序迭代优选出了初始中心点。实验表明此算法可以有效减少迭代次数并提高聚类精度,最终获得较好的聚类效果。  相似文献   

2.
文本分类是数据挖掘领域中重要的研究分支.通过对自适应遗传算法和朴素贝叶斯分类器的研究,提出一种基于自适应遗传算法的朴素贝叶斯分类算法.将该算法应用于中文文本分类中,可以生成最优贝叶斯分类器及最优属性集合,提高分类精度.  相似文献   

3.
基于SVM的多类分类算法改进   总被引:1,自引:0,他引:1  
在各种基于支持向量机的多类分类算法中,基于二叉树的多类支持向量机分类算法训练和分类速度相对较快,且解决了不可分问题,是一种很好的方法.本文系统研究和分析了基于二叉树的多类支持向量机分类算法,并在此基础上对其作出了改进,即当测试文本集规模较大时,对其先聚类再分类.改进的目的是,使测试文本不必总是从二叉树的根结点开始进行判断,而是有指导的代入分类函数中计算.在测试文本集规模较大,分类函数个数较多时,可以很大程度上增加分类效率,并加大了文本正确分类的概率.  相似文献   

4.
文本自动分类是数据挖掘和机器学习中非常重要的研究领域 .针对难以获得大量有类标签的训练集问题 ,提出了基于小规模标注语料的增量式Bayes文本分类算法 .该算法分两种情况处理 :第一种情况是新增样本有类标签 ,可直接重新计算样本属于某类别的条件概率 .第二种情况是新增样本无类标签 ,则利用现有分类器为其训练类标签 ,然后利用新样本来修正分类器 .实验结果表明 ,该算法是可行有效的 ,比Na veBayes文本分类算法有更高的精度 .增量式Bayes分类算法的提出为分类器的更新提供了一条新途径  相似文献   

5.
提出一种基于文本分类技术的评审专家自动推荐模型,通过文本分类技术对评审专家所发表的论文进行所属学科领域的分类,进而判断出评审专家的主要研究领域。模型采用了基于TF/IDF特征权重阈值的向量空间模型算法和改进后的ATSVM分类算法。实验结果表明,改进后的ATSVM分类算法可以增加交互的过程使训练得到的分类器具备自学习的能力,改进后的主动学习SVM分类器在多类别的分类上能够精确分类并且提高分类速度。  相似文献   

6.
文档的高维性导致朴素贝叶斯文本分类器的复杂度较高,进而影响到文本分类的效率和精度.针对这一问题,首先采用k-means算法对单词进行聚类,将得到的单词簇视为文本特征,再使用朴素贝叶斯分类器进行文本分类.实验表明:基于簇的分类方法在分类精度和效率上均优于基于单词的分类方法.  相似文献   

7.
基于加权频繁项集的文本分类规则挖掘   总被引:2,自引:0,他引:2  
针对特征向量分量的权重和文本大小对分类规则产生的影响,提出一种可以提高关联文本分类性能的文本分类规则挖掘方法,提出了加权频繁项集的概念和相应的加权频繁项集挖掘算法,在分类规则中突出特征向量权重大的向量分量;提出一种特征向量预处理方法,消除文本大小对挖掘分类规则的影响.实验表明,解决上述两个问题将可以很好的提高文本分类的性能.  相似文献   

8.
多维数据的改进最小生成树聚类算法   总被引:1,自引:1,他引:0  
针对传统的应用于基因表示的最小生成树(MST)聚类算法在时间复杂度和聚类质量上的不足,提出了一种新的应用于数据处理的改进最小生成树(IMST)的聚类算法.该算法在提高构造最小生成树的效率的同时,通过对初步划分的生成树用矩阵表示,以度最大的结点作为聚类中心,再根据中心点算法完成聚类,解决了以往最小生成树算法无法解决的多个簇用短边或长度相同的边相连无法分类的问题,从而提高了聚类速度,改善了聚类的质量.通过对多维数据进行分析,计算各个属性的差异度,得出结论:一些属性的存在对于构造最小生成树有很小的影响或没有影响,删除这些属性列也可以提高效率,达到减少计算复杂性的目的.  相似文献   

9.
针对k均值算法在文本聚类中由于初始聚类质心随机选择,使得聚类结果陷入局部最优,且孤立点和不确定的聚类个数造成k均值算法准确性低、收敛速度慢的问题,提出了一种改进的k均值文本聚类算法。该算法采用fp-growth算法挖掘文本频繁项集,过滤频繁项集得到核心频繁项集,并利用核心频繁项集指导文本初始聚类质心和聚类个数的生成,最后k均值算法利用初始聚类质心和聚类个数完成文本聚类。在新浪微博数据集上进行文本聚类实验,实验结果表明,改进的k均值算法提高了文本聚类的准确性,加快了收敛速度,具有较强的鲁棒性。  相似文献   

10.
随着化工技术的飞速发展,化工装备在化工产业生产实践中发挥着更加重要的作用,与此同时也对化工装备的精准分类提出了更高要求。为了提高化工装备在化工生产中分类的准确率,提出了一种基于Attention注意力机制和卷积神经网络的化工装备文本分类算法。首先,分别使用卷积神经网络算法的输入层和Attention注意力机制提取化工装备文本特征;其次,将两种算法得到的特征与卷积核进行卷积操作,得到不同权重的输入,最后在分类器中对得到的化工装备文本特征进行分类,得到最终分类结果。通过多算法实验结果表明,该方法相比传统卷积神经网络与机器学习方法在数据挖掘中具有更高的分类准确性,达到了96. 42%,证明ATT-CNN算法在化工装备分类中具有较好的性能。  相似文献   

11.
文章研究了基于向量空间模型的文本分类中特征词权重算法,综合考虑特征词在文本中出现的位置信息,提出一种改进算法并给出实验结果。  相似文献   

12.
基于SVM的中文文本分类算法   总被引:1,自引:0,他引:1  
提出了一种基于支持向量机的中文文本分类算法,介绍了文本分类过程中的文本表示、特征提取和SVM算法等关键技术.最后进行了实验和分析,由实验结果可以看出,该方法在精确率和召回率等方面能够达到比较好的效果.  相似文献   

13.
为了更好的对残缺文档进行分类,本文以基于支持向量机的文本分类方法(SVM)和卡方统计量(Chi-Square)的文本特征提取方法为背景,提出了有监督学习模式下的两种文本特征恢复算法以及在此基础上进行残缺文本分类的新方案。与传统的直接分类方案相较,该方案在分类前通过预先对文本中残缺词恢复,实现了残缺文本的部分特征恢复。实验表明,相较于传统方法,该方案在低残缺率下,对文本分类的影响不大;在高残缺率下,该方案能得到较好的分类效果。  相似文献   

14.
文本归类是处理大量文本数据自动分类的重要技术。基于粗集理论建立的林业文本信息归类系统,是在已知类别的训练集的基础上,通过分析训练数据样本,建立决策表产生区分矩阵构造出区分函数,并化简它,得到最小属性约简,最后应用Apriori算法产生最终分类的规则表,利用产生的规则表,可将林业文本信息数据进行自动归类。  相似文献   

15.
为解决文本分类中存在的维数灾难、数据集噪声等问题,本研究提出一种利用非线性维数约简算法结合k-最邻近结点算法(k-nearest neighbor algorithm, k-NN)的文本分类算法。该算法首先对数据集进行去噪处理,再采用非线性流形学习中的局部线性嵌入算法恢复高维数据中的中低维流形结构,以实现数据约简,利用经过上述处理的文本数据学习k-NN分类器。实验结果表明,该算法能够有效提高文本分类精度。  相似文献   

16.
经过训练和统计对每一类文本形成特征的权重向量,利用K-最近距离的方法对测试集进行分类.Sleepingexpert算法采用正权重和负权重较好地描述了多义词的特性,该文在原算法中插入了一种权重补偿模块,其目标是实现权重和当前概念的一致性,具有更好的分类性能.  相似文献   

17.
特征选择和分类算法是文本分类中的两个关键技术,提出了基于主成分分析和KNN相结合的文本分类方法。该方法利用主成分分析对文本向量的高维空间进行特征选择,为克服因类别特征选择不当带来的不利影响,使用KNN算法进行分类可以最大程度地减少分类过程中的误差。为了验证方法的有效性,针对UCI标准数据集进行仿真实验。实验结果显示,PCA-KNN方法优于主成分分析和随机森林相结合的方法,能在一定程度上提高文本分类的精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号