首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
传统文本分类算法通常以词作为特征,将文本数据映射到一个高维向量空间进行训练。本文则采用支持张量机(STM)进行文本分类,以二阶张量为例,将文本映射到张量空间进行运算。该算法有效降低了数据特征维数,因此更加适合小样本数据的学习。相关实验也证明,支持张量机在处理小样本问题与数据偏斜问题方面更具优势。  相似文献   

2.
3.
针对现有文本分类算法处理中文数据时存在的分类精度低、参数量庞大、模型难训练等问题,对BERT算法进行了优化.BERT算法处理中文文本时无法提取词向量特征,为此提出了均匀词向量卷积模块AWC.通过在传统卷积神经网络中引入注意力机制来提取可靠词向量特征,再进一步获取到文本的局部特征,由此弥补了BERT模型无法提取词向量的缺...  相似文献   

4.
网络新闻自动分类已经成为当下的热点问题,SVM分类算法是文本分类中应用较为成熟的一种方法.文章针对SVM文本分类中特征选择和核函数选择的两个重要问题,在新闻文本实验环境下进行了探讨,结果表明使用互信息特征选择法且特征数在4000左右,使用SIGMOID核函数的情况下准确率与召回率均可达到97%的分类效果.  相似文献   

5.
文章针对基于深度神经网络的方法给出一些具有代表性的文本分类模型,即基于词向量合成的模型、基于RNN/CNN的模型和基于注意力机制的模型,并阐述其基本思想。  相似文献   

6.
《现代电子技术》2016,(10):9-13
针对维吾尔文书写的数字文本的犯罪取证,提出一种基于文本分类的维吾尔文数字取证方案。首先,对维吾尔文文本进行预处理,滤除文本中非维吾尔文字符和停用词;然后,提出一种多特征空间正则化互信息(M-FNMI)算法,使用输入特征组合与类之间的互信息(MI)来代替单个特征与类之间的MI,从而提取出更准确的特征词;最后,利用支持向量机(SVM)算法来对特征进行分类。实验结果表明,该方案具有较高的分类精度,能够为犯罪取证提供判断依据。  相似文献   

7.
互联网时代存在大量的文本数据,为了更加有效的利用文本信息,文本分类已成为当务之急.本文介绍了朴素贝叶斯算法的原理以及解决文本分类问题的流程,分析了朴素贝叶斯用于文本分类问题的优缺点,并且提出了改进方案.  相似文献   

8.
在分析了文本中重要事件识别和文本分类方法的基础之上,提出了一种基于重要事件的文本分类方法.重点研究了该方法涉及到的两个关键技术:以重要事件表示文本和获取文本类别的模板.在中文事件语料CEC上,使用本文介绍的文本分类方法得到的平均准确率达到80%,而使用传统的以词为特征的文本分类方法得到的平均准确率为72%.  相似文献   

9.
与传统的机器学习模型相比,深度学习模型试图模仿人的学习思路,通过计算机自动进行海量数据的特征提取工作。文本分类是自然语言处理中的一个重要应用,在文本信息处理过程中具有关键作用。过去几年,使用深度学习方法进行文本分类的研究激增并取得了较好效果。文中简要介绍了基于传统模型的文本分类方法和基于深度学习的文本分类方法,回顾了先进文本分类方法并重点关注了其中基于深度学习的模型,对近年来用于文本分类的深度学习模型的研究进展以及成果进行介绍和总结,并对深度学习在文本分类领域的发展趋势和研究的难点进行了总结和展望。  相似文献   

10.
人类历史的发展已经进入到网络时代。现在社会信息的发布量和使用量随着网络的发展突飞猛进,这么大的信息量,我们不可能全部的接受。此时,对有用信息快速、精确的掌握就显得尤为重要。方法是随着困难一起产生的,为了解决这个问题,文本自动分类系统就产生了,它的工作原理是对文本的内容在指定的分类体系下进行自动区分类别的过程。目前在所有分类算法中,有一种新兴的机器学习算法,即Boosting算法,这种算法经过科学验证后,其效果是非常理想的,且本身有着其它分类算法无可比拟的优点。  相似文献   

11.
12.
《现代电子技术》2016,(20):39-43
当前的文本分类方法无法较好地处理海量文本以及文本特征空间数据,不能打破计算机处理性能和内存的约束,实现文本混沌性分类。而云计算平台可向用户提供需要的运算能力和存储空间。提出一种优化SVM的云计算环境下文本混沌性分类方法,设计Hadoop开源云计算系统,通过该系统中的Map Reduce模型对分类过程进行处理,提高分类的效率。采用优化SVM分类方法将混沌文本分类二次规划过程中的不等式限制变换成等式限制,提高海量文本混沌性分类精度。实验结果表明,所设计分类方法具有更高的处理效率,可以对海量文本数据进行准确的分类。  相似文献   

13.
传统的文本分类一般采用单标签形式,但现实生活中多标签文本比单标签文本具有更广泛的应用场景.本文提出一种BiGRU-Capsule模型的多标签文本分类方法,该方法首先通过嵌入层将输入的文本序列转化为向量表示;然后通过BiGRU和Capsule提取文本特征;最后使用sigmoid分类器进行分类.为确保数据量足够,利用今日头...  相似文献   

14.
刘洺辛  陈晶  王麒媛 《电信科学》2018,34(10):85-95
提出了结合情感词典的改进信息增益特征选择方法。首先,针对现有的信息增益特征选择存在注重特征词的文档频率而忽视语料均衡等问题,提出了改进方法。其次,考虑情感词对文本分类的影响,提出了基于情感词典的特征选择(information gain combining sentiment classification,IGSC)算法进行文本分类。该算法通过对文本情感词进行匹配并结合情感词赋权重,实现了特征降维并解决了文本数据稀疏影响分类性能的问题;最后,针对旅游评论数据集对所提出的特征选择方法进行了实验验证及分析。实验结果表明,本文提出的改进文本情感分类特征选择方法在分类准确率、召回率和F值方面均得到了提升,并且具有较好的分类稳定性。  相似文献   

15.
《现代电子技术》2019,(18):45-49
传统归类方法采用自动标引主题词变换成分类号实现自动分类,该方法分类过程复杂,应用性差。因此,提出一种基于文本特征识别的电子档案自动归类系统。该系统采用电子档案语料库模块根据使用者需求挖掘语料,实现语料库构建、查询、清除和维护等操作;通过电子档案排版模块,基于内容映射的方式排版电子档案;在此基础上采用有限自动机选择法和组合特征选择法选取文本内特征词,识别电子档案文本特征后,通过SVM分类器和类别识别器两次归类过程,判断电子档案最终类别归属。封闭性归类测试和开放性归类测试结果表明,该系统的平均查全率和精度都高于95%,且不同信噪比环境下,系统平均中断概率为0.17%,低于对比系统。  相似文献   

16.
现在移动客户端已经成为人们获取信息的主要手段。消息推送已经成为移动互联网+云环境下的必备能力。文中研究基于Mongo DB解决现有多用户环境下消息推送业务层实现复杂、关系型数据库负载高以及依赖第三方推送服务时功能限制、安全性、费用高等问题。  相似文献   

17.
赵博  丁华福 《信息技术》2007,31(12):122-124
研究了基于向量空间模型的自动文本分类算法,在对现有分类算法原理深入分析的基础上,针对现有算法的不足,引入了关键向量的概念,提出了一种基于关键向量的文本分类算法,并给出了基于该算法的实验数据。  相似文献   

18.
Text classification means to assign a document to one or more classes or categories according to content. Text classification provides convenience for users to obtain data. Because of the polysemy of text data, multi-label classification can handle text data more comprehensively. Multi-label text classification become the key problem in the data mining. To improve the performances of multi-label text classification, semantic analysis is embedded into the classification model to complete label correlation analysis, and the structure, objective function and optimization strategy of this model is designed. Then, the convolution neural network (CNN) model based on semantic embedding is introduced. In the end, Zhihu dataset is used for evaluation. The result shows that this model outperforms the related work in terms of recall and area under curve (AUC) metrics.  相似文献   

19.
With the rapid development of artificial intelligence technology, text categorization technology is becoming more and more mature. However, text categorization in real situations still faces various unconstrained conditions. English text is an important part of text information, it is also an important way for people to get information from abroad. How can everyone get the desired content from the massive data quickly and accurately, it has become a hot issue in current research. This paper improves the current text categorization algorithm based on English quality-related text categorization. The design and implementation of text categorization system are illustrated with an example of English quality-related text categorization system, complete the research work of text categorization algorithm. The core work of this paper is to mine, classify and analyze large amounts of data in English text by using the method of combining cyclic neural network with quality. Finally, the essential features of high quality English texts are obtained. Traditional English text categorization algorithm if the amount of training data is large, it is easy to show some defects such as unclear feature items. In view of these problems, in order to improve the accuracy and flexibility of English text categorization, this paper proposes a quality-related English text categorization method based on cyclic neural network. A mechanism combining attention is proposed to improve the problem of label disorder and make the structure of the model more flexible. The model proposed in this paper is compared and optimized. Experiments show that the accuracy of neural text classification based on quality classification can reach about 96%.  相似文献   

20.
The traditional short-text classification's accuracy usually highly relies on statistical feature selection. Owing to the fact that short-text has inherent defects such as short length, weak signal and less features. It is hard to avoid noise words when doing feature extension which will highly influence the accuracy of classification. In order to solve the above problem, this paper proposes a semantic dictionary method for short-text classification. The method builds a set of domain dictionary by analyzing the specific characteristics in certain field. As each word's weight in the dictionary is designed according to the correlation between the word and the category, classification accuracy has improved to some extent. Then, in order to enhance dictionary vocabulary coverage, association rules are utilized to automatically extend semantic dictionary. Finally, an experiment based on micro-blog data is conducted which shows that the method has a good effect.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号