首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
文本分类是指根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文档按内容自动确定某种类别的技术,是自然语言处理中最基本、最重要的研究内容之一,在信息检索、智能推荐、舆情分析、新闻分类等领域具有极高的应用价值。现阶段,藏文文本分类的主要研究集中在借用英汉等语言文本分类技术构建分类器,英汉等语言以词做分类特征基元构建分类器。由于受藏文分词技术制约,直接以词做藏文文本分类特征基元,其性能有较大的影响。该文在分析文本分类流程及藏文文本构成的基础上,研究了藏文文本分类特征基元选择方法,提出了一种融合词和音节的藏文文本分类特征基元选择方法,并以CNN模型构建的分类器验证了该方法的有效性。  相似文献   

2.
该文介绍了藏文文本分类技术的研究与进展.首先对现阶段常用的文本表示以及文本特征选择方法进行了分析和比较,接着回顾了藏文在机器学习方面的分类算法特点,深入讨论了不同算法应用在藏文文本分类技术上的研究情况,最后指出了当前藏文文本分类所面临的问题和挑战,并对未来的研究提出了建议.  相似文献   

3.
该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别藏文语料库有重要作用。  相似文献   

4.
藏文文本分类是藏文自然语言处理中的基础任务,具有基础性和重要性。大规模预训练模型加微调的方式是当前的主流文本分类方法。然而藏文缺少开源的大规模文本和预训练语言模型,未能在藏文文本分类任务上进行验证。针对上述问题,该文抓取了一个较大规模的藏文文本数据集,并在该数据集的基础上训练一个藏文预训练语言模型(BERT-base-Tibetan)。将该方法应用到多种基于神经网络的文本分类模型上的实验结果表明,预训练语言模型能够显著提升藏文文本分类的性能(F1值平均提升9.3%),验证了预训练语言模型在藏文文本分类任务中的价值。  相似文献   

5.
近年来针对网络中藏文舆情等的研究已在相关研究机构进行。模式匹配问题是计算机科学中的一个基本问题在藏文舆情、网络入侵检测等应用中起着重要的作用。其研究内容在上述众多领域均有重要价值。针对藏文字本身特性的字符匹配算法在相关文献并没有给出相应的解决办法,而是直接采用了中文或英文的模式匹配算法作为研究的基础。在此认为给出一个合理有效的藏文字符串的模式匹配算法,能非常有效的提高藏文字符的匹配效率。  相似文献   

6.
随着深度学习的发展,越来越多基于神经网络的算法用于实现文本情感分类,在分类上的精度不断提升,如果一味追求精度而加深网络的层次,会给实际应用场景中的响应等性能带来较大阻碍.通过研究文本的嵌入式表示等技术,在时下前沿的FastText模型基础上进一步捕捉分类逻辑中重点的文本特征,提出了新的轻量化的权重驱动的文本情感分类模型...  相似文献   

7.
藏文多极情感分类方法是自然语言处理研究中识别用户对某件事或话题的主观情感倾向性识别的研究课题之一.文章分析了藏文多极情感分类方法的特点,对采集的藏文情感语料进行整理校对;提取相关特征,建立情感语料库和情感分类识别模型;再通过大量的实验找出存在的不足,并进行完善,以此提高藏文多极情感数据的准确率.实验表明,优化后的藏文多极情感分类的识别准确率达到84.5%.  相似文献   

8.
在藏文信息处理中,实现藏文字符的字典排序是一个比较重要的问题,实现藏文字符排序的关键是准确地判定藏文音节。藏文音节的判定关键是组合字符的判定。判定组合字符的瓶颈是藏文字符编码的占位和不占位的判定。通过应用程序对藏文编码的占位和不占位的有效判定,即可找出组合字符。对找出组合字符的藏文字符可通过藏文正字法的限定对藏文音节进行有效的判定和音节组件的拆分,从而为藏文字符的字典排序奠定基础。  相似文献   

9.
由于人类语言的复杂性,文本情感分类算法大多都存在因为冗余而造成的词汇量过大的问题。深度信念网络(DBN)通过学习输入语料中的有用信息以及它的几个隐藏层来解决这个问题。然而对于大型应用程序来说,DBN是一个耗时且计算代价昂贵的算法。针对这个问题,提出了一种半监督的情感分类算法,即基于特征选择和深度信念网络的文本情感分类算法(FSDBN)。首先使用特征选择方法(文档频率(DF)、信息增益(IG)、卡方统计(CHI)、互信息(MI))过滤掉一些不相关的特征从而使词汇表的复杂性降低;然后将特征选择的结果输入到DBN中,使得DBN的学习阶段更加高效。将所提算法应用到中文以及维吾尔语中,实验结果表明在酒店评论数据集上,FSDBN在准确率方面比DBN提高了1.6%,在训练时间上比DBN缩短一半。  相似文献   

10.
在当今商业领域,对网络评论的情感分类一直是一个比较热门的研究方向,而为了克服传统机器学习方法所构建分类器会产生较大计算开销,精度表现较差的缺点,提出一种基于深度学习模型中卷积神经网络(CNN)与循环神经网络(RNN)模型的情感分类方法。在以往的研究中,卷积神经网络往往被用来提取文本的局部特征信息,但却容易忽视文本的长距离特征,而RNN则往往被用来提取句子的长距离依赖信息,但容易陷入梯度爆炸问题。因此,结合卷积神经网络对于局部特征信息的良好提取能力与循环神经网络对于长距离依赖信息的记忆能力,构建了一个CNN-BIGRU混合模型,用以提取文本的局部特征以及文本的长距离特征。其中循环神经网络模型使用了双向GRU模型,以避免RNN模型的梯度爆炸与梯度消失问题。在谭松波的酒店评论数据集上的实验结果表明,利用该模型,实验分类的准确率比单独使用卷积神经网络模型最高提升了26.3%,比单独使用循环神经网络模型最高提升了7.9%,从而提高了对中文文本情感分类的精度,并减少了计算开销。  相似文献   

11.
针对传统词向量模型无法获取完整的语义表达,以及基础神经网络模型未能兼顾提取多种关联特征等问题,提出了一种融合预训练语言模型(ERNIE)和深层金字塔神经网络结构(DPCNN)/双向门控循环单元-注意力机制(BiGRU-Attention)的双通道文本情感分类模型。基于DPCNN的左通道负责提取文本长距离依赖表示,基于BiGRUAttention的右通道负责提取文本时间序列特征和关键信息。此外,均使用ERNIE模型提供动态字向量。最后,拼接融合双通道中的信息特征以获取最终的文本表示。实验结果表明,ERNIE-DBGA模型的准确率最高达到97.05%,优于其他对比方法,验证该模型可以有效提升情感分类的性能。  相似文献   

12.
黄鹤鸣  达飞鹏 《计算机应用》2009,29(7):2003-2005
音节类型的程序判定是藏文字典排序的基础。建立了基于结构的现代藏文音节判定规则,并且将不满足该规则的藏文字母组合看作梵音藏文音节。首先,根据编码序列中占位编码、不占位编码的个数以及相互间的位置关系,判断一个编码序列是否满足现代藏文音节结构,如果满足则进一步确定各个编码(字母)在音节结构中的位置;其次,根据正字法对各个位置上字母的约束来判断这个编码序列是否表示一个现代藏文音节;最后,选取了一些有代表性的编码序列来测试算法的有效性。  相似文献   

13.
藏文音节拼写检查是藏语自然语言处理的基本任务,在藏文文字处理、文字识别、文本生成等领域具有广泛的应用。该文首先针对藏文音节的结构提出了音节向量化的方法,即音节矩阵。然后构建了适合于藏文音节拼写检查的CNN模型,使用1 364 880个藏文音节进行训练。最后对68 244个藏文音节进行测试。实验结果显示,藏文音节拼写检查CNN模型的结果优于规则、RNN和LSTM等模型,不仅对符合藏文文法的音节能正确识别外,而且对梵音藏文音节也能有效识别,正确率、召回率以及F值分别为99.52%、99.30%和99.41%。  相似文献   

14.
胡均毅  李金龙 《计算机工程》2020,46(3):46-52,59
文本中的词并非都具有相似的情感倾向和强度,较好地编码上下文并从中提取关键信息对于情感分类任务而言非常重要。为此,提出一种基于情感评分的分层注意力网络框架,以对文本情感进行有效分类。利用双向循环神经网络编码器分别对词向量和句向量进行编码,并通过注意力机制加权求和以获得文档的最终表示。设计辅助网络对文本的词、句进行情感评分,利用该评分调整注意力权重分布。在探究文本的情感信息对分类性能的影响后,通过辅助网络进一步促使模型关注情感色彩强烈的信息。在4个常用情感分类数据集上的实验结果表明,该框架能够关注文本中的情感表达并获得较高的分类准确率。  相似文献   

15.
文本分类是信息处理领域的核心研究内容,在自动检索和文本过滤等研究领域中被广泛使用。本次研究主要是基于Logistic回归模型分类器对藏文文本进行分类,其核心思想是首先对藏文语料进行收集和预处理,且利用信息增益算法和欧式距离分别对文本特征进行选择与提取;其次构造Logistic回归模型分类器;最后测试和分析分类的准确率、召回率和F1值,同时,对Logistic算法和Gaussian NB算法进行分类性能对比,结果显示Logistic算法具有较好的分类效果。  相似文献   

16.
随着生活条件的普遍提高,人们从物质文化需求转为更高的精神追求,音乐因为蕴含着丰富的情感,自然就成人们发泄、享受生活必不可少的一部分.音乐是情感表达的一种重要形式,也就是说情感是音乐语义信息中最重要的成分之一,歌词的情感分类在音乐的检索和推荐等方面应用广泛,情感分类算法的优劣决定了用户能找到适合的音乐,音乐厂商能留住更多...  相似文献   

17.
基于BiGRU-attention神经网络的文本情感分类模型   总被引:1,自引:0,他引:1  
针对双向长短时记忆神经(BiLSTM)模型训练时间长、不能充分学习文本上下文信息的问题,提出一种基于BiGRU-attention的文本情感分类模型。首先,利用双向门控循环(BiGRU)神经网络层对文本深层次的信息进行特征提取;其次,利用注意力机制(attention)层对提取的文本深层次信息分配相应的权重;最后,将不同权重的文本特征信息放入softmax函数层进行文本情感极性分类。实验结果表明,所提的神经网络模型在IMDB数据集上的准确率是90.54%,损失率是0.2430,时间代价是1100 s,验证了 BiGRU-attention模型的有效性。  相似文献   

18.
近年来,卷积神经网络模型常常被用于文本情感分类的研究中,但多数研究都会忽略文本特征词本身所携带的情感信息和中文文本分词时被错分的情况.针对此问题,提出一种融合情感特征的双通道卷积神经网络情感分类模型(Dual-channel Convolutional Neural Network sentiment classifi...  相似文献   

19.
基于卷积神经网络与循环神经网络的混合文本分类模型通常使用单通道词嵌入.单通道词嵌入空间维度低,特征表示单一,导致一维卷积神经网络不能充分学习文本的空间特征,影响了模型的性能.因此,该文提出一种融合通道特征的混合神经网络文本分类模型.该模型使用了双通道词嵌入丰富文本表示,增加了空间维度,在卷积的过程中融合了通道特征,优化...  相似文献   

20.
随着互联网的发展,社交网络、电子商务等已经成为人们关注的焦点,对社交网络的文本进行情感倾向性分析和挖掘变得越来越重要。该文针对网络上的中文文本,提出一种基于文本纹理特征的情感倾向性分类方法。通过测试多种文本纹理特征对文本情感倾向性的影响,成功将文本纹理特征融入情感分类中。通过计算各类特征与文本的情感倾向性的相关度,对特征进行降维。相对于基于词频的情感倾向性分类方法,查准率平均提高了10%左右。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号