首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
基于机器学习的文本分类技术研究进展   总被引:106,自引:1,他引:106  
苏金树  张博锋  徐昕 《软件学报》2006,17(9):1848-1859
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.  相似文献   

2.
用于文本分类和文本聚类的特征抽取方法的研究   总被引:2,自引:0,他引:2  
文本信息处理已成为一门日趋成熟、应用面日趋广泛的学科.文本分类和聚类技术是应信息检索和查询需要而出现的自然语言处理领域的重要研究课题.面对急速膨胀的各种文本信息,通过使用文本分类和聚类技术,人们能对这些信息进行高效地组织和整理,以便于实现信息的准确定位和分流,从而提高用户查询和检索的效率.本文针对文本信息处理中最重要的研究方向--文本分类和聚类技术展开了研究,分析了特征抽取法在文本分类和文本聚类中应用的重要性,以及论证了为何要对文本进行特征抽取,最后分别阐述了用于文本分类和文本聚类的特征抽取方法.  相似文献   

3.
贝叶斯算法在文本自动分类系统中的应用   总被引:3,自引:0,他引:3  
文本自动分类系统是信息处理的重要研究方向。它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文将基于贝叶斯算法的文本分类技术。应用于Web文档进行自动分类,实验结果表明效果显著。  相似文献   

4.
一种规则和贝叶斯方法相结合的文本自动分类策略   总被引:5,自引:1,他引:4  
文本自动分类技术是信息处理领域的重要研究方向,在介绍文本分类应用以及其关键技术的同时,讨论了几种文本分类方法,并且在对这些分类方法分析的基础上,提出了一种规则和统计相结合的文本自动分类策略。该策略通过规则方法来放宽贝叶斯方法所要求的强独立性假设条件,同时当规则不能满足时,可以通过贝叶斯方法来得到更好的分类结果。  相似文献   

5.
文本分类是信息处理领域的核心研究内容,在自动检索和文本过滤等研究领域中被广泛使用。本次研究主要是基于Logistic回归模型分类器对藏文文本进行分类,其核心思想是首先对藏文语料进行收集和预处理,且利用信息增益算法和欧式距离分别对文本特征进行选择与提取;其次构造Logistic回归模型分类器;最后测试和分析分类的准确率、召回率和F1值,同时,对Logistic算法和Gaussian NB算法进行分类性能对比,结果显示Logistic算法具有较好的分类效果。  相似文献   

6.
随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向.对文本分类关键技术中的特征选择算法进行了探讨,并结合网页特性,对特征权重算法及互信息算法进行了改进.实验结果证明,改进算法是可行的.  相似文献   

7.
文本分类是将一个待分类的集合映射到预先确定好的文本信息集合中去的过程.在国外,英文分类技术研究已经很成熟,由于中文构词比英文分类复杂,分类技术和理论还需进一步研究.研究中文文本分类在信息处理和用户对信息的获取方面至关重要.文本分类的过程比较复杂,主要研究文本分类中的文本预处理、文本表示、特征提取与加权和分类算法等关键技术.  相似文献   

8.
文本分类是文本信息处理领域一个非常重要的研究方向,为了节省文本分类处理中所需的存储空间和运算时间,在分类之前用高效的算法减少所需分析的数据是非常必要的。该文介绍了一种文本分类中特征降维的方法。和传统的方法不同,该文所涉及的特征是从句子中提取的不同长度的词组,然后用比数比来对其进行特征选择。实验结果表明,该文提出的方法与传统方法相比,提高了文本分类的准确率。  相似文献   

9.
基于模糊认知图的文本分类推理算法   总被引:3,自引:0,他引:3  
文本分类是信息处理的重要研究方向,现在应用较多的是基于统计计算的分类方法。介绍了利用模糊认知图的文本分类推理理论与算法,该方法是基于数值推理的,实现将统计与规则融合推理,灵活性较大,不需要语料的多次训练,适合于训练不充分和新主题的文本分类和多类分类,并具有一定的鲁棒性。  相似文献   

10.
刘茂旺  林世平 《福建电脑》2006,(3):103-104,100
随着因特网的迅猛发展,如何快捷、准确地识别和获取有用信息显得越来越重要。文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下.根据文本的内容自动判别文本类别的过程。由于一个文本可能属于多个不同的类别.本文应用BOOSTING算法设计实现了一种多类多标签文本分类方法,并着重时迭代次数和判定阚值的选择进行研究。实验表明.该分类器对多类多标签的文本分类是有效的。  相似文献   

11.
随着文本表现形式越来越丰富,文本分类研究的对象正从平文本逐渐转变为富文本,传统的平文本分类方法不能满足实际需要.分析了富文本中的结构化信息和文本内容信息,把它们作为两个重要的因素,综合考虑了其在分类中的作用,提出并实现了标签组件法、结构组件法和综合法三种富文本分类的方法.实验表明,所提出的方法有较好的分类表现,能解决OpenDocument的分类问题.  相似文献   

12.
文本分类技术是自然语言处理领域的研究热点,其主要应用于舆情检测、新闻文本分类等领域。近年来,人工神经网络技术在自然语言处理的许多任务中有着很好的表现,将神经网络技术应用于文本分类取得了许多成果。在基于深度学习的文本分类领域,文本分类的数值化表示技术和基于深度学习的文本分类技术是两个重要的研究方向。对目前文本表示的有关词向量的重要技术和应用于文本分类的深度学习方法的实现原理和研究现状进行了系统的分析和总结,并针对当前的技术发展,分析了文本分类方法的不足和发展趋势。  相似文献   

13.
自动文本分类中的智能处理技术   总被引:5,自引:1,他引:5  
Text automatic classification has become an important technology along with development of Internet and the increment of information ,because of the complexity of text ,it is very difficult to achieve better effect only depend-ing on the different classification methods,it need to use multi-ways to resolve. Based on the retrospection of text classification,this paper gives a comprehensive ways to enhance the performance of text classification ,which will pro-vide good instruction to the application nf text classification.  相似文献   

14.
随着互联网的不断发展,网络上的文本数据日益增多,如果能对这些数据进行有效分类,那么更有利于从中挖掘出有价值的信息,因此文本数据的管理和整合显得十分重要。文本分类是自然语言处理任务中的一项基础性工作,主要应用于舆情检测及新闻文本分类等领域,目的是对文本资源进行整理和归类。基于深度学习的文本分类,在对文本数据处理中,表现出较好的分类效果。本文对用于文本分类的深度学习算法进行详细阐述,按照深度学习的不同算法进行分类,并分析各种算法的特点,最后对深度学习算法在文本分类领域的未来研究方向进行总结。  相似文献   

15.
Internet文本信息量极速增加,在组织和处理这些文本数据时,文本分类技术显得尤为重要。利用统计学理论,特征提取和权重计算常常忽略了特征项之间的语法关系。文中提出了一种将短语切分与文本分类相结合的新方法。在经过TFIDF计算之后,在同一个短语中,特征项之间的关系被计算出来,然后调整权值向量,最后可以得到文本分类的正确率。同一般地文本分类方法相比,加入短语切分的文本分类方法的正确率平均提高了1.5%以上。  相似文献   

16.
Text summarization and classification are core techniques to analyze a huge amount of text data in the big data environment. Moreover, as the need to read texts on smart phones, tablets and television as well as personal computers continues to grow, text summarization and classification techniques become more important and both of them do essential processes for text analysis in many applications.Traditional text summarization and classification techniques have individually been considered as different research fields in this literature. However, we find out that they can help each other as text summarization makes use of category information from text classification and text classification does summary information from text summarization. Therefore, we propose an effective integrated learning framework using both of summary and category information in this paper. In this framework, the feature-weighting method for text summarization utilizes a language model to combine feature distributions in each category and text, and one for text classification does the sentence importance scores estimated from the text summarization.In the experiments, the performances of the integrated framework are better than ones of individual text summarization and classification. In addition, the framework has some advantages of easy implementation and language independence because it is based on only simple statistical approaches and POS tagger.  相似文献   

17.
SVM在文本分类中的应用是近年来文本分类领域重要的进展之一。许多实验表明,SVM在文本分类中比其他的机器学习算法表现出更高的分类精度,但在大规模数据上的收敛速度较慢,成为SVM在实际应用中的一大缺点。球向量机是一种比SVM更快的机器学习方法。本文将BVM应用于文本分类。实验表明,BVM在文本分类中的应用具有与SVM相当的精 度,而且比SVM有更少的训练时间。  相似文献   

18.
文本分类是Internet文本信息处理的基础,该文通过对传统文本分类方法的研究,如支持向量机理论、多组判别分析、贝叶斯方法和中心向量法等分类方法,观察到分类器对于不同类别的文本其区分程度有所不同,因此提出了一种基于综合评价方法的多分类器决策机制。在参数训练过程中,引入了最优化理论中的直接搜索方法,形成一个容纳多个分类器的容器,它是各个分类器的最优化的组合,旨在获得最佳的分类精度。通过实验验证,得到了比较理想的分类效果。  相似文献   

19.
中文文档自动分类系统的设计与实现   总被引:34,自引:4,他引:30  
文档自动分类是信息处理领域中的一项重要研究课题。本文阐述了一个中文文档自动分类系统的设计与实现,并着重介绍了系统实现中的一些主要技术问题的处理,如文本分类模型、特征提取、词典构造等。  相似文献   

20.
海量文本分析是实现大数据理解和价值发现的重要手段,其中文本分类作为自然语言处理的经典问题受到研究者广泛关注,而人工神经网络在文本分析方面的优异表现使其成为目前的主要研究方向。在此背景下,介绍卷积神经网络、时间递归神经网络、结构递归神经网络和预训练模型等主流方法在文本分类中应用的发展历程,比较不同模型基于常用数据集的分类效果,表明利用人工神经网络结构自动获取文本特征,可避免繁杂的人工特征工程,使文本分类效果得到提升。在此基础上,对未来文本分类的研究方向进行展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号