首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
基于机器学习的文本分类是近年来发展迅速并受广泛关注的数据挖掘技术.该文介绍了几种重要的文本分类方法例如贝叶斯、K最邻近和支持向量机.根据不同方法在不同数据分布状况的中文数据集上的分类表现,对比分析各方法的性能和优缺点.  相似文献   

2.
基于机器学习的文本分类是近年来发展迅速并受广泛关注的数据挖掘技术。该文介绍了几种重要的文本分类方法例如贝叶斯、K最邻近和支持向量机。根据不同方法在不同数据分布状况的中文数据集上的分类表现,对比分析各方法的性能和优缺点。  相似文献   

3.
基于SVM的中文文本自动分类研究   总被引:1,自引:0,他引:1  
详细介绍了进行文本分类的过程,并着重介绍了一种新的基于结构风险最小化理论的分类算法——支持向量机,通过实验比较支持向量机算法和传统的KNN算法应用于文本分类的效果,证实了支持向量机在处理文本分类问题上的优越性。  相似文献   

4.
SVM在文本分类中的应用是近年来文本分类领域重要的进展之一。许多实验表明,SVM在文本分类中比其他的机器学习算法表现出更高的分类精度,但在大规模数据上的收敛速度较慢,成为SVM在实际应用中的一大缺点。球向量机是一种比SVM更快的机器学习方法。本文将BVM应用于文本分类。实验表明,BVM在文本分类中的应用具有与SVM相当的精 度,而且比SVM有更少的训练时间。  相似文献   

5.
支持向量机的中文文本分类研究   总被引:9,自引:0,他引:9  
支持向量机是一种基于统计学习理论的新型机器学习方法,在文本分类领域取得了很好的效果。使用支持向量机进行了文本分类的研究,实现了一个中文文本自动分类系统,并给出了实验结果。  相似文献   

6.
基于SVM 的中文文本分类反馈学习技术的研究   总被引:8,自引:0,他引:8  
基于相关反馈技术的基本原理,以SVM分类方法为基础,研究了基于SVM的中文文本分类反馈学习技术,分析了分类处理中反馈学习的主要模式,给出了基于SVM文本分类反馈学习的具体实现方法.并进行了相应的实验验证.实验结果表明,反馈学习具有明显提高SVM分类性能的能力。  相似文献   

7.
基于支持向量机的中文文本自动分类研究   总被引:17,自引:0,他引:17  
都云琪  肖诗斌 《计算机工程》2002,28(11):137-138,F003
根据文本数据学习的特点,采用线性支持向量机(LSVM)学习算法,实现了一个中文文本自动分类系统,并对该系统进行了针对大规模真实文本的试验测试,结果发现,系统的招回率较低,而准确率较高,该文对此结果进行了分析,并提出一种采用训练中拒识样本信息对分类器输出进行改进的方法,试验表明,该方法有效地提高了系统的性能,取得了令人满意的结果。  相似文献   

8.
支持向量机是在统计学习理论基础上发展起来的新一代学习算法,适宜构造高维有限样本模型,具有很好的分类精度和泛化性能。文中介绍了中文文本分类过程,将支持向量机应用于中文文本分类模型中,对分类器参数选择进行了分析和讨论。实验分析表明,该系统在较小训练集条件下可以取得较好的分类效果。  相似文献   

9.
马忠宝  刘冠蓉 《微机发展》2006,16(11):70-72
支持向量机是在统计学习理论基础上发展起来的新一代学习算法,适宜构造高维有限样本模型,具有很好的分类精度和泛化性能。文中介绍了中文文本分类过程,将支持向量机应用于中文文本分类模型中,对分类器参数选择进行了分析和讨论。实验分析表明,该系统在较小训练集条件下可以取得较好的分类效果。  相似文献   

10.
基于支持向量机的中文文本自动分类研究   总被引:2,自引:0,他引:2  
首先对文本提取特征向量,再利用词语相似度求出文本特征子集,由支持向量机进行文本分类,实现了一个中文文本自动分类系统,并对该系统进行了针对SVM大规模真实文本的试验测试。试验表明,该方法的系统的招回率较低,而准确率较高,取得了令人满意的结果。  相似文献   

11.
介绍中文文本分类的流程及相关技术。在分析传统的文本特征选择不足的基础上,提出了基于粗糙集与集成学习结合的文本分类方法,通过粗糙集进行文本的特征选择,采用一种集成学习算法AdaBoost.M1来提高弱分类器的分类性能,对中文文本进行分类。实验证明,这种算法分类结果的F1值比C4.5、kNN分类器都高,具有更加优良的分类性能。  相似文献   

12.
随着Web信息容量迅速膨胀,对Web文本分类已经是目前研究的热点.传统的Web文本分类对网页的预处理基本上没有考虑网页中的大量噪音,因此对分类结果有一定的影响;另一方面,文本的向量空间模型维数过高,对分类效果也存在很大的影响.提出一种基于粗糙集理论的Web文本分类方法,首先对网页进行去噪,然后对向量空间模型进行属性约简,之后构造分类器,实验表明,此方法不仅降低了维数,还提高了分类结果.  相似文献   

13.
基于蚁群遗传算法的中文文本分类中的特征提取   总被引:1,自引:0,他引:1  
针对文本分类中特征提取准确度的问题,分析了中文文本中词长对于表征文本类别的影响,改进了传统的中文文本词条权重计算方法;由于遗传算法用于特征提取时搜索随机性强,没有方向性,故将蚁群算法应用到遗传算法的选择操作中,提出了一种蚁群算法和遗传算法相结合的特征提取方法。实验结果表明,该方法不但可以提高分类的准确率,而且可以减少分类时间,是一种有效的方法。  相似文献   

14.
基于相邻字对信息的中文文档分类研究   总被引:2,自引:0,他引:2  
本文首次提出利用相邻字对信息进行中文文档分类,使中文文档分类摆脱了对词典和切词处理的依赖,实现中文文档分类的领域无关性和时间无关性性。分别利用Naive Bayes和kNN分类方法建立了基于相邻字对信息的中文文档分类系统。初步的测试结果表明本文文档系统具有和同类文档分类系统相当的性能。  相似文献   

15.
如何准确地实现文本的有序组织,是自然语言处理的一个重要研究方向。本文首先介绍了文本分类的研究现状,讨论了基于向量空间模型的分类法的基本思想。在此基础上,通过对文本识别本质的研究,在向量空间模型的基础上,提出一种新的结合了信息相关性分析的文本分类模型ICFM(Information Correlation based Fast text categorization Model),并以实验验证了该模型的性能。  相似文献   

16.
基于概念的中文文本可视化表示机制   总被引:1,自引:0,他引:1  
为了浏览因特网上日益增多的在线中文文本,本文给出了基于概念的中文文本可视化表示机制,以直观的方式组织和表示文本及文本集,其基本思想是:首先在概念扩充的基础上,进行文本分类,然后,利用本文提出的提出的文本特征抽取方法和摘要方法,获取广西类别、广西、广西正文的标记的信息,通过类别,文本、有选择地浏览文本。  相似文献   

17.
Boosting算法是目前流行的一种机器学习算法。采用Boosting家族的Adaboost.MH算法作为分类算法,设计了一个中文文本自动分类器,并给出了评估方法和结果。评价表明,该分类器和SVM的分类精度相当,而较基于其他分类算法的分类器有更好的分类精度。  相似文献   

18.
如何快速地整理海量信息,对不同的文本进行有效分类,已成为获取有价值信息的瓶颈。本文提出的中文文本分类方法,较好地解决了信息的实时分类问题,在实践中收到了良好的效果。由于汉语文本的特殊性,在分类器训练前对训练文本进行自动分词和降维预处理。许多文本往往可能归到多个类,因此分类算法采用模糊c-原型算法。实验表明,该方法综合效果较好,可以实现文本的快速分类。  相似文献   

19.
针对传统的特征选择使用阈值过滤导致有效信息丢失的问题,提出一种粗糙集的文本特征选择方法。该方法以核为起点利用特征属性的重要性和依赖性作为启发式信息进行特征选择,使文本的特征维数得到一定程度的降低。实验表明,此算法不仅易于实现而且能够有效降低特征数目,提高分类效率。  相似文献   

20.
基于中文题名的计算机辅助标引   总被引:1,自引:0,他引:1  
本文阐述了基于中文文献题名的计算机辅助标引系统的组成结构,并讨论了其中的一些关键技术问题,文章从系统结构设计方面,对该系统的建表模块,目录模块,分词标模块,校对模块,选号打印模块和系统管理模块进行了讨论,并着重讨论了分词标引技术。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号