首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
基于流形学习和SVM的Web文档分类算法   总被引:7,自引:4,他引:3       下载免费PDF全文
王自强  钱旭 《计算机工程》2009,35(15):38-40
为解决Web文档分类问题,提出一种基于流形学习和SVM的Web文档分类算法。该算法利用流形学习算法LPP对训练集中的高维Web文档空间进行非线性降维,从中找出隐藏在高维观测数据中有意义的低维结构,在降维后的低维特征空间中利用乘性更新规则的优化SVM进行分类预测。实验结果表明该算法以较少的运行时间获得更高的分类准确率。  相似文献   

2.
徐海瑞  张文生  吴双 《计算机工程》2011,37(17):133-135
提出一种基于流形学习的文本分类方法以解决高维文本数据分类问题.利用近邻保持嵌入流形学习算法获得高维Web文本空间中的低维流形结构,采用K近邻分类器对低维流形进行分类.实验结果表明,基于流形学习的方法能获得较好的分类效果,具有稳定的性能.  相似文献   

3.
针对流形学习用于监督分类时效果不尽人意的问题,提出了一种有监督的宏流形学习算法。算法根据给定的训练样本构造子流形,子流形沿着边界粘连构成父流形。在充分利用训练集的类别标签信息和类内近邻信息的基础上,计算出最优非线性映射函数,对训练样本的高维特征进行降维,同时利用非线性核回归技术处理样本外点学习问题,使降维后得到的低维嵌入更有利于分类。将提出的算法与多种经典降维算法在2个典型测试数据集,即21类地物数据集和UCI数据集,分别进行分类实验。实验结果表明所提出的算法能够取得更好的分类效果。  相似文献   

4.
李勇  李应  余清清 《计算机工程》2011,37(7):288-290
为利用生态环境中各种声音包含的信息,提出一种将流形学习算法和支持向量机(SVM)相结合的生态环境声音分类技术。提取音频强度、音色、音调和音频节奏的特征集合并计算对应的特征向量,采用改进的拉普拉斯特征映射流形学习算法对特征向量进行维数约简,从而降低数据处理的复杂性。使用SVM对降维后的特征向量进行分类,发挥SVM在处理小样本、非线性及高维数据方面的优势,从而提高分类准确率。实验结果表明,该技术能对生态环境声音进行快速准确的分类。  相似文献   

5.
杨丽娟  李瑛 《测控技术》2014,33(12):117-120
针对线性数据降维算法对处理非线性结构数据的降维效果不是很好,提出一种基于重叠片排列的流形学习算法,该算法根据局部的线性贴片处在非线性流形中的特性,将流形划分为线性互相重叠的局部区域贴片,且利用主成分分析方法得到局部区域贴片的低维表示,然后排列且对齐其低维坐标,以获得整体数据的低维坐标.通过仿真结果证明,基于重叠片排列的流形学习算法在应用于人脸识别和分类问题时以及在识别准确率方面要优于其他经典的流形学习算法.  相似文献   

6.
文本特征提取和分类器优化是文本分类的两个关键问题,为了提高文本分类正确率,提出一种聚类加权(CW)和布谷鸟(CS)算法优化最小二乘支持向量机(LSSVM)的文本分类模型。采用TF-IDF算法计算特征词的权重,根据特征词的位置进行加权,经过特征聚类处理降低特征冗余度,采用LSSVM建立文本分类器,采用CS算法对LSSVM参数进行优化。采用复旦大学语料库对模型性能进行仿真测试,仿真结果表明,模型不仅提高了文本分类的正确率,而且提高了文本分类的效率。  相似文献   

7.
多变量非线性时间序列的模式分类是在工业过程领域广泛存在的问题,结合流形学习和支持向量分类机的特点,提出了解决该类问题的一个新方法。该方法应用核化流形学习算法K-Isomap,将高维非线性时间序列映射到低维特征空间实现维数约减,在低维特征空间中采用支持向量机设计分类器实现非线性时间序列的模式分类,该方法充分利用核化流形学习的特点,得到了较好的模型性能。应用该方法对Tennessee Eastman(TE)过程的故障分类进行了实验分析,结果表明该方法的有效性。  相似文献   

8.
基于流形学习的多示例回归算法   总被引:2,自引:0,他引:2  
詹德川  周志华 《计算机学报》2006,29(11):1948-1955
多示例学习是一种新型机器学习框架,以往的研究主要集中在多示例分类上,最近多示例回归受到了国际机器学习界的关注.流形学习旨在获得非线性分布数据的内在结构,可以用于非线性降维.文中基于流形学习技术,提出了用于解决多示例同归问题的Mani MIL算法.该算法首先对训练包中的示例降维,利用降维结果出现坍缩的特性对多示例包进行预测.实验表明,Mani MIL算法比现有的多示例算法例如Citation-kNN等有更好的性能.  相似文献   

9.
流形学习算法在模式识别领域有着重要应用,针对文本分类数据的特点,提出一种基于邻域选取进行修正的局部线性嵌入算法,用带有权值的欧式距离来构造文本数据的局部邻域,提高文本分类的识别率;同时,利用文本数据的类别信息,运用半监督局部线性嵌入算法构造分类器,提高文本分类的效果。实验表明,本文基于文本分类改进的流形学习算法,能够有效地对文本进行分类。  相似文献   

10.
基于极限学习机的文本分类方法在对输入的文本特征进行随机映射时,会呈现一种非线性的几何结构,利用最小二乘法无法对其进行求解,影响文本的分类性能。为此,引入一种新的流形正则化思想,提出基于极限学习机的改进算法。利用拉普拉斯特征映射保持输入文本特征的几何结构。基于样本的类别信息对样本点之间的距离进行修正,优先选择类别相同的样本点,以改善分类性能。在Reuters和20newsgroup数据集上的实验结果表明,与正则化极限学习机算法、AdaBELM算法等相比,该算法分类性能较好,F1-measure值可达91.42%。  相似文献   

11.
文本分类指的是在制定文本的类别体系下,让计算机学会通过某种分类算法将待分类的内容完成分类的过程.与文本分类有关的算法已经被应用到了网页分类、数字图书馆、新闻推荐等领域.本文针对短文本分类任务的特点,提出了基于多神经网络混合的短文本分类模型(Hybrid Short Text Classical Model Base on Multi-neural Networks).通过对短文本内容的关键词提取进行重构文本特征,并作为多神经网络模型的输入进行类别向量的融合,从而兼顾了FastText模型和TextCNN模型的特点.实验结果表明,相对于目前流行的文本分类算法而言,多神经网络混合的短本文分类模型在精确率、召回率和F1分数等多项指标上展现出了更加优越的算法性能.  相似文献   

12.
一种基于反向文本频率互信息的文本挖掘算法研究   总被引:1,自引:0,他引:1  
针对传统的文本分类算法存在着各特征词对分类结果的影响相同,分类准确率较低,同时造成了算法时间复杂度的增加,在分析了文本分类系统的一般模型,以及在应用了互信息量的特征提取方法提取特征项的基础上,提出一种基于反向文本频率互信息熵文本分类算法。该算法首先采用基于向量空间模型(vector spacemodel,VSM)对文本样本向量进行特征提取;然后对文本信息提取关键词集,筛选文本中的关键词,采用互信息来表示并计算词汇与文档分类相关度;最后计算关键词在文档中的权重。实验结果表明了提出的改进算法与传统的分类算法相比,具有较高的运算速度和较强的非线性映射能力,在收敛速度和准确程度上也有更好的分类效果。  相似文献   

13.
研究了文本挖掘精确度问题。针对传统的聚类文本分类算法在文本分类中存在高维性和稀疏性,特别是同义词和近义词难以进行分类,使得分类的精确度低等问题,提出了一种聚类平均信息量文本分类算法。算法从信息论观点分析文本空间向量,将文本看做一个信息源,通过求得该信息源的各个特征的次数来积累文本信息量,以领域特征明显的词和短语作为聚类对象,然后采用层次平均信息量进行特征提取。仿真实验结果表明,提出的算法能够有效地提取文本信息,提高了文本分类的精度,具有一定的实际应用价值。  相似文献   

14.
针对传统的文本分类算法存在着各特征词对分类的结果影响相同、分类准确率较低、造成算法时间复杂度增加的问题,提出了一种改进的最大熵C-均值聚类文本分类方法。该方法充分结合了C-均值聚类和最大熵值算法的优点,以香农熵作为最大熵模型中的目标函数,简化分类器的表达形式,然后采用C-均值聚类算法对最优特征进行分类。仿真实验结果表明,与传统的文本分类方法相比,提出的方法能够快速得到最优分类特征子集,大大提高了文本分类准确率。  相似文献   

15.
文本分类领域中,TF-IDF特征权重是一种常用的分类算法。本文介绍了TF-IDF特征权重算法,对于能够表征文本特征的文本特征词,常常按某一方法赋予相应的权重,表示它们对于区分文本类别的重要程度。但是在该算法中将训练集的文档看成一个整体来考虑,不能表示特征项与类别之间的关联特性。针对该弊端本文引进了x2统计量函数计算权重。实验结果表明改进的TF-IDF权重算法是可行的,同时也比较好地提高了分类器的性能。  相似文献   

16.
基于主题的中文短信文本分类研究   总被引:5,自引:3,他引:2       下载免费PDF全文
根据中文短信文本分类的特点,提出同义概念归并、上下位概念的聚焦以及短信文本重点词汇的确定方法,利用主题句选取算法获取短信文本的主题,采用KNN算法将短信文本的主题进行分类。仿真实验结果表明,该算法能够有效提高短信文本的分类速度。  相似文献   

17.
针对有特殊结构的文本,传统的文本分类算法已经不能满足需求,为此提出一种基于多示例学习框架的文本分类算法。将每个文本当作一个示例包,文本中的标题和正文视为该包的两个示例;利用基于一类分类的多类分类支持向量机算法,将包映射到高维特征空间中;引入高斯核函数训练分类器,完成对无标记文本的分类预测。实验结果表明,该算法相较于传统的机器学习分类算法具有更高的分类精度,为具有特殊文本结构的文本挖掘领域研究提供了新的角度。  相似文献   

18.
本文介绍了基于KNN算法的文本分类流程及相关技术,针对KNN文本分类算法过分依赖K值和文本集分布情况的不足之处,提出了一种改进的KNN文本分类算法一类内均值KNN算法。通过实验表明,相对于传统的KNN算法,该算法提高了文本分类系统的稳定性和分类性能,具有一定的应用价值。  相似文献   

19.
KNN短文本分类算法通过扩充短文本内容提高短文本分类准确率,却导致短文本分类效率降低。鉴于此,通过卡方统计方法提取训练空间中各类别的类别特征,根据训练空间中各类别样本与该类别特征的相似情况,对已有的训练空间进行拆分细化,将训练空间中的每个类别细化为多个包含部分样本的训练子集;然后针对测试文本,从细化后的训练空间中提取与测试文本相似度较高的类别特征所对应的训练子集的样本来重构该测试文本的训练集合,减少KNN短文本分类算法比较文本对数,从而提高KNN短文本分类算法的效率。实验表明,与基于知网语义的KNN短文本分类算法相比,本算法提高KNN短文本分类算法效率近50%,分类的准确性也有一定的提升。  相似文献   

20.
针对深层次分类中分类准确率低、处理速度慢等问题,提出一种待分类文本的候选类别搜索算法。首先,引入搜索、分类两阶段的处理思想,结合类别层次树的结构特点和类别间的相关联系等隐含的领域知识,进行了类别层次权重分析和特征项的动态更新,为类树层次结构的各个节点构建更具分类判断力的特征项集合;进而,采用深度优先搜索算法并结合设定阈值的剪枝策略缩小搜索范围,搜索得到待分类文本的最优候选类别;最后,在候选类别的基础上应用经典的K最近邻(KNN)分类算法和支持向量机(SVM)分类算法进行分类测试和对比分析。实验结果显示,所提算法的总体分类性能优于传统的分类算法,而且使平均F1值较基于贪心策略的启发式搜索算法提高了6%左右。该算法显著提高了深层次文本分类的分类准确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号