首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
以往的卷积神经网络模型在对文本建模和分类时,通常按顺序提取n-gram卷积特征,忽视了长距离依存关系中的句法结构和语义信息。提出了一种基于事件卷积特征的文本分类方法,利用事件的语义特性弥补之前模型的不足。该方法使用依存关系抽取出文本中的事件集合,通过卷积神经网络进行事件特征提取,并在此基础上进行文本分类。在对中文新闻语料的多分类实验中,该方法较传统的文本分类方法有明显的提高,较使用n-gram的卷积神经网络模型在更为稳定。实验结果说明了模型的有效性以及事件特征的优越性。  相似文献   

2.
文本自动分类系统文本预处理方法的研究   总被引:3,自引:0,他引:3  
在没有建立起完善的中文停用词表的情况下,运用程序流程控制剔除中文分词器切分出来的单个独立字、英文字符、数字和一系列数学符号以及含有这些符号的中文词,从而使得两个字以上的纯中文词成为代表文本信息的特征项。这不仅明显降低了初始文本向量的维度,而且大大提高了文本向量中的特征信息含量。  相似文献   

3.
基于支持向量机SVM的中文文本分类方法的泛化能力与其参数选取紧密相关,参数优化对文本分类精度有较大影响。为解决优化SVM参数难题,提出一种基于模拟退火(SA)优化SVM的文本分类方法。将文本分类准确率作为模拟退火的优化目标,利用SA良好的寻优能力搜索SVM的最优参数组合。在相同的数据集上进行实验,结果表明模拟退火具有稳定的全局搜索性能,是优化SVM参数的一种有效方式。相比其他文本分类算法,基于SA-SVM的中文文本分类的分类准确率更高,泛化能力更强,具有良好的分类性能。  相似文献   

4.
事件检测是文本挖掘的一个重要研究方向,以微博文本的突发地震事件检测为例做了深入研究。首先分别运用三种经典的分类算法来实现突发地震事件检测,将检测结果进行比较,选择出一种最优的分类算法和最适合的特征数。在此基础上提出关键词过滤和时间关系识别的方法将错分的实例进行再分类来提高检测结果。实验表明该方法的检测结果与仅采用经典分类算法相比F_1值提高了5.3%。  相似文献   

5.
本文阐述了一个中文文本分类系统的设计和实现,对文本分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细介绍,将基于统计的二元分词方法应用于中文文本分类,并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,实现了在事先没有词表的情况下,通过统计构造单字及二字词词表,从而对文本进行分词,然后再进行文本的分类。  相似文献   

6.
目前,事件抽取的流行方法是以事件元素或触发词进行驱动,但该方法容易导致正反例不平衡,且在语料库规模较小时存在一定的数据稀疏问题。提出了一种基于事件实例驱动的事件抽取方法。首先,从文档句子中抽取出刻画一个事件发生有代表性的特征,构成候选事件实例表示;其次,通过二元分类器对新闻文本中的事件实例与非事件实例进行分类;最后,对事件实例采用基于层次聚类的k-mcdoids算法完成事件抽取。该方法不仅克服了正反例失衡以及数据稀疏问题,而且解决了预先定义事件类别的局限性。实验结果验证了该方法的有效性,对比传统方法,事件抽取的准确率与召回率均获得了显著的提高。  相似文献   

7.
针对网络不良文本信息的过滤问题提出了一种基于文本倾向性的不良文本识别方法.首先采用基于主题的文本分类方法,然后对不良主题的相关文本利用倾向性分析方法识别不良文本.基于文本倾向性由文本主题词的上下文词汇确定的假设,提出了一种基于主题词上下文的文本倾向性分类方法.实验结果显示该方法对已有基于主题分类方法很难区分的文本具有较好识别效果.  相似文献   

8.
基于关联规则挖掘的中文文本自动分类   总被引:7,自引:0,他引:7  
随着电子出版物和互联网文档的飞速增加,自动文档分类工作正变得日渐重要.提出一种基于关联规则的中文文本自动分类方法.该算法将文档视作事务.关键词视作项,利用改进的关联规则挖掘算法挖掘项和类剐间的相关关系.挖掘出的规则形成分类器,可用于类标号未知的文档的区分.实验证明,该算法能较快地获得可理解的规则并且具有较好的召回率和准确率.  相似文献   

9.
《软件》2019,(9):71-74
在文本分类领域,中文文本需要经过数据处理,将文档表达成计算机可以理解并处理的信息。本文采用TF-IDF作为文本表示方法,针对中文文章的多分类问题,对传统支持向量机进行改进,提出了一种基于特征选择的多类支持向量机分类方法。在中文文章数据集的对比实验结果表明,本文的方法在多分类性能上较优于其他模式识别方法。  相似文献   

10.
基于机器学习的文本分类是近年来发展迅速并受广泛关注的数据挖掘技术.该文介绍了几种重要的文本分类方法例如贝叶斯、K最邻近和支持向量机.根据不同方法在不同数据分布状况的中文数据集上的分类表现,对比分析各方法的性能和优缺点.  相似文献   

11.
12.
基于N元语言模型的文本分类方法   总被引:6,自引:0,他引:6  
分类是近年来自然语言处理领域的一个研究热点。在分析了传统的分类模型后,文中提出了用N元语言模型作为中文文本分类模型。该模型不以传统的"词袋"(bagofwords)方法表示文档,而将文档视为词的随机观察序列。根据该方法,设计并实现一个基于词的2元语言模型分类器。通过N元语言模型与传统分类模型(向量空间模型和NaiveBayes模型)的实验对比,结果表明:N元模型分类器具有更好的分类性能。  相似文献   

13.
文本分类在采用向量空间模型(VSM)表达文本特征时,容易出现特征向量高维且稀疏的现象,为了对原始的文本特征向量进行有效简化,提出了一种基于粒子群(PSO)优化独立分量分析(ICA)进行降维的方法,并将其运用到文本分类中。在该算法中,以负熵作为粒子群算法的适应度函数,依据其高斯性原理作为独立性判别标准对分离矩阵进行自适应更新。实验结果表明,相比于传统的特征降维方法,该方法可以解决高维度文本特征向量降维困难的问题,使得文本分类的效率、准确率显著提升。  相似文献   

14.
在非结构化数据挖掘结构模型,即发现特征子空间模型(DFSSM)的运行机制下,提出了一种新的文本分类算法——基于DFSSM 的文本分类(TCDFSSM) 算法。该算法在文本训练及分类阶段的基础上增加了自动反馈阶段,使得TCDFSSM具有自学习能力,并给出了文本分类过程反馈阈值的选取算法。结果表明,该算法分类效果良好,其自学习能力、适应性及鲁棒性更加优越。  相似文献   

15.
针对有特殊结构的文本,传统的文本分类算法已经不能满足需求,为此提出一种基于多示例学习框架的文本分类算法。将每个文本当作一个示例包,文本中的标题和正文视为该包的两个示例;利用基于一类分类的多类分类支持向量机算法,将包映射到高维特征空间中;引入高斯核函数训练分类器,完成对无标记文本的分类预测。实验结果表明,该算法相较于传统的机器学习分类算法具有更高的分类精度,为具有特殊文本结构的文本挖掘领域研究提供了新的角度。  相似文献   

16.
在扩展Petri网基础上提出了一种新的文本分类模型。基本思想是利用定性映射方法扩展Petri网系统,利用状态方程进行推理,使文本分类更接近于人类思维判断过程,并给出了分类算法。  相似文献   

17.
为更好解决卷积神经网络提取特征不充分,难以处理长文本结构信息和捕获句子语义关系等问题,提出一种融合CNN和自注意力BiLSTM的并行神经网络模型TC-ABlstm.对传统的卷积神经网络进行改进,增强对文本局部特征的提取能力;设计结合注意力机制的双向长短期记忆神经网络模型来捕获文本上下文相关的全局特征;结合两个模型提取文...  相似文献   

18.
基于类别关键词的突发事件新闻文本分类方法   总被引:2,自引:0,他引:2  
对突发事件新闻领域的文本自动分类问题进行了研究,提出了一种基于用向量空间模型的基础上,充分考虑了类别关键词对于文本分类的特殊作用,并进行了实验.实验结果表明,加入类别关键词后,文本分类的精度有较大的提高,该方法具有一定的实用价值.  相似文献   

19.
正则化极限学习机RELM是一种单隐层前馈神经网络,不同于传统神经网络算法,RELM通过随机设置输入层权重和偏置值,可以快速求得输出层权重,并且引入正则化因子,能够提高模型的泛化能力。针对文本信息高维度、多类别的问题,提出一种基于快速自编码的正则化极限学习机FARELM。将由RELM改进后的快速自编码神经网络对样本进行无监督特征学习,并对特征提取后的数据使用RELM进行分类。实验表明,FA-RELM的学习速度和分类精度较优。  相似文献   

20.
In order to meet the requirement of customised services for online communities, sentiment classification of online reviews has been applied to study the unstructured reviews so as to identify users’ opinions on certain products. The purpose of this article is to select features for sentiment classification of Chinese online reviews with techniques well performed in traditional text classification. First, adjectives, adverbs and verbs are identified as the potential text features containing sentiment information. Then, four statistical feature selection methods, such as document frequency (DF), information gain (IG), chi-squared statistic (CHI) and mutual information (MI), are adopted to select features. After that, the Boolean weighting method is applied to set feature weights and construct a vector space model. Finally, a support vector machine (SVM) classifier is employed to predict the sentiment polarity of online reviews. Comparative experiments are conducted based on hotel online reviews in Chinese. The results indicate that the highest accuracy of the sentiment classification of Chinese online reviews is achieved by taking adjectives, adverbs and verbs together as the feature. Besides that, different feature selection methods make distinct performances on sentiment classification, as DF performs the best, CHI follows and IG ranks the last, whereas MI is not suitable for sentiment classification of Chinese online reviews. This conclusion will be helpful to improve the accuracy of sentiment classification and be useful for further research.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号