共查询到20条相似文献,搜索用时 0 毫秒
1.
通过对覆盖算法(CA)结果的分析,将覆盖某一类样本的每个覆盖看成一个Gauss分布,利用有限混合模型的极大似然拟合,用期望最大化算法(EM算法)来对覆盖算法进行优化处理.算法的迭代过程,就是不断调整各覆盖的中心、"半径"以及其线性组合系数,逐渐趋向最优解的过程.目的是为了提高覆盖算法的精度.应用于文本分类的实验证明,通过EM方法对均值、方差和线性组合系数进行迭代计算,将所求得的参数用于测试时所得到的平均精度都高于原覆盖算法的最高分类精度以及SVM处理同类数据的分类精度. 相似文献
2.
模糊kNN在文本分类中的应用研究 总被引:1,自引:0,他引:1
自动文本分类是根据已经分配好类标签的训练文档集,来对新文档分配类标签.针对模糊kNN算法用于文本分类的性能进行了一系列的实验研究与分析.在中英文两个不同的语料集上,采用四种著名的文本特征选择方法进行特征选择,对改进的模糊kNN方法与经典kNN及目前广泛使用的基于相似度加权的kNN方法进行实验比较.结果表明,在不同的特征选择方法下,该算法均能削弱训练样本分布的不均匀性对分类性能的影响,提高分类精度,并且在一定程度上降低对k值的敏感性. 相似文献
3.
kNN方法作为一种简单、有效、非参数的分类方法,在文本分类中广泛应用。为提高其分类效率,提出一种基于区域划分的kNN文本快速分类算法。将训练样本集按空间分布情况划分成若干区域,根据测试样本与各区域之间的位置关系快速查找其k个最近邻,从而大大降低kNN算法的计算量。数学推理和实验结果均表明,该算法在确保kNN分类器准确率不变的前提下,显著提高了分类效率。 相似文献
4.
5.
覆盖算法在文本分类中的应用 总被引:1,自引:0,他引:1
介绍了文本分类的基本过程以及朴素贝叶斯和K近邻算法等基本分类方法,给出了基于覆盖的构造性神经粤络分类算法,并将其与朴素贝叶斯和KNN作了实验比较。结果表明,该算法具有较好的分类性能,适合于处理大规模的文本分类任务,从而有效地克服了传统文本分类算法的不足。 相似文献
6.
贝叶斯算法在文本自动分类系统中的应用 总被引:3,自引:0,他引:3
文本自动分类系统是信息处理的重要研究方向。它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文将基于贝叶斯算法的文本分类技术。应用于Web文档进行自动分类,实验结果表明效果显著。 相似文献
7.
介绍了文本分类的基本过程以及朴素贝叶斯和K近邻算法等基本分类方法,给出了基于覆盖的构造性神经网络分类算法,并将其与朴素贝叶斯和KNN作了实验比较。结果表明,该算法具有较好的分类性能,适合于处理大规模的文本分类任务,从而有效地克服了传统文本分类算法的不足。 相似文献
8.
9.
10.
11.
kNN算法是一种简单、有效的文本分类方法,并在文本分类中得到广泛的应用。但是kNN计算开销较大,而且对处于分类边界的测试文本分类精度较低。本文针对心州算法的缺陷,采用中心文本向量模型和排除算法提高了kNN算法的效率,并且提出了边界文本多k值分类算法提高了边界文本分类的准确率。实验结果表明改进的kNN算法具有较好的性能。 相似文献
12.
TF-IDF算法是文本挖掘领域的经典算法,TF-IDF算法在文本分类时会使关键词权值发生波动,对该算法在分类时权值做全局化定义,可提高文本分类准确率。 相似文献
13.
模糊聚类分析在文本分类中的应用 总被引:9,自引:2,他引:9
文章用模糊聚类分析的方法对文本进行分类,选择了5种语体,即古典白话、古龙武侠、金庸武侠、外国翻译及现代小说等进行实验,获得了较为稳定的结果。 相似文献
14.
随着因特网的迅猛发展,如何快捷、准确地识别和获取有用信息显得越来越重要。文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下.根据文本的内容自动判别文本类别的过程。由于一个文本可能属于多个不同的类别.本文应用BOOSTING算法设计实现了一种多类多标签文本分类方法,并着重时迭代次数和判定阚值的选择进行研究。实验表明.该分类器对多类多标签的文本分类是有效的。 相似文献
15.
随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于Χ^2统计量能很好地体现词和类别之闻的相关性,因此成为特征选择中常用的评估函数.本文分析了Χ^2统计量在特征选择和分类决策阶段的性质,提出了一种新的基于Χ^2统计量的相似度定义,并结合基于两次类别判定的快速搜索算法,改进了传统的kNN算法,实验结果显示基于Χ^2统计量的改进kNN文本分类算法能大大减少kNN算法的分类时间,并提高了kNN算法的准确率和召回率. 相似文献
16.
针对朴素贝叶斯分类算法中缺失数据填补问题,提出一种基于改进EM(Expectation Maximization)算法的朴素贝叶斯分类算法。该算法首先根据灰色相关度对缺失数据一个估计,估计值作为执行EM算法的初始值,迭代执行E步M步后完成缺失数据的填补,然后用朴素贝叶斯分类算法对样本进行分类。实验结果表明,改进算法具有较高的分类准确度。并将改进的算法应用于高校教师岗位等级的评定。 相似文献
17.
18.
文本自动分类技术在提高文本信息利用的有效性和准确性上具有重要的现实意义和广阔的应用前景。随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型表示下的高维性,本文采用词干提取和χ2统计量相结合的方法对表示空间进行降维。采用SVM算法构造了维吾尔文文本分类器。针对维吾尔文文本分类语料进行的实验结果表明,SVM分类器的MacroF1值达到了84.6%,明显好于kNN方法。 相似文献
19.
本文描述一种利用未标记的中文网页进行分类的新EM方法,即通过不断地改变EM收敛的初始条件来改善最终的收敛结果。我们通过做实验对该方法进行了测试,获得了满意的结果。 相似文献
20.
如何对文本分类的结果进行可视化研究一直是模式识别中研究的重点。在假设文本类别在低维嵌入空间服从高斯分布的前提下,通过朴素贝叶斯分类算法得到数据类别属性的后验概率矩阵,然后运用参数嵌入算法在低维空间可视化文本分类结果。参数嵌入算法是使嵌入空间数据的类后验概率与高维空间的条件概率Kullback Leibler散度和最小化的算法,属于同一类的数据在低维空间中分布较为集中,性质相似的数据之间的距离较近,而不同性质的数据之间距离则较大。其优点在于计算复杂度是数据的类别和相应个数的乘积,非常适合于数据量大,类别数较少的数据分类可视化。20新闻组数据集和微型新闻组数据集的实验结果证明了该算法的有效性。 相似文献