期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

才智杰道吉扎西《中文信息学报》2023,(1):64-70

文本分类是指根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文档按内容自动确定某种类别的技术,是自然语言处理中最基本、最重要的研究内容之一,在信息检索、智能推荐、舆情分析、新闻分类等领域具有极高的应用价值。现阶段,藏文文本分类的主要研究集中在借用英汉等语言文本分类技术构建分类器,英汉等语言以词做分类特征基元构建分类器。由于受藏文分词技术制约,直接以词做藏文文本分类特征基元,其性能有较大的影响。该文在分析文本分类流程及藏文文本构成的基础上,研究了藏文文本分类特征基元选择方法,提出了一种融合词和音节的藏文文本分类特征基元选择方法,并以CNN模型构建的分类器验证了该方法的有效性。相似文献

2.

藏文文本分类技术研究综述

苏慧婧群诺《数字社区&智能家居》2021,(4):190-192,200

该文介绍了藏文文本分类技术的研究与进展.首先对现阶段常用的文本表示以及文本特征选择方法进行了分析和比较,接着回顾了藏文在机器学习方面的分类算法特点,深入讨论了不同算法应用在藏文文本分类技术上的研究情况,最后指出了当前藏文文本分类所面临的问题和挑战,并对未来的研究提出了建议. 相似文献

3.

基于栏目的藏文网页文本自动分类方法

胥桂仙向春丞翁彧赵小兵杨国胜《中文信息学报》2011,25(4):20-24

该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别藏文语料库有重要作用。相似文献

4.

基于预训练语言模型的藏文文本分类

安波龙从军《中文信息学报》2022,(12):85-93

藏文文本分类是藏文自然语言处理中的基础任务,具有基础性和重要性。大规模预训练模型加微调的方式是当前的主流文本分类方法。然而藏文缺少开源的大规模文本和预训练语言模型,未能在藏文文本分类任务上进行验证。针对上述问题,该文抓取了一个较大规模的藏文文本数据集,并在该数据集的基础上训练一个藏文预训练语言模型(BERT-base-Tibetan)。将该方法应用到多种基于神经网络的文本分类模型上的实验结果表明,预训练语言模型能够显著提升藏文文本分类的性能(F₁值平均提升9.3%),验证了预训练语言模型在藏文文本分类任务中的价值。相似文献

5.

基于藏文音节特征的模式匹配算法的研究

春燕《计算机光盘软件与应用》2014,(15):119-120

近年来针对网络中藏文舆情等的研究已在相关研究机构进行。模式匹配问题是计算机科学中的一个基本问题在藏文舆情、网络入侵检测等应用中起着重要的作用。其研究内容在上述众多领域均有重要价值。针对藏文字本身特性的字符匹配算法在相关文献并没有给出相应的解决办法,而是直接采用了中文或英文的模式匹配算法作为研究的基础。在此认为给出一个合理有效的藏文字符串的模式匹配算法,能非常有效的提高藏文字符的匹配效率。相似文献

6.

基于深度学习的文本情感分类算法研究

孙红梅《电脑编程技巧与维护》2022,(3):135-137,173

随着深度学习的发展,越来越多基于神经网络的算法用于实现文本情感分类,在分类上的精度不断提升,如果一味追求精度而加深网络的层次,会给实际应用场景中的响应等性能带来较大阻碍.通过研究文本的嵌入式表示等技术,在时下前沿的FastText模型基础上进一步捕捉分类逻辑中重点的文本特征,提出了新的轻量化的权重驱动的文本情感分类模型... 相似文献

7.

基于深度学习的藏文多极情感分类方法的研究

曲塔吉安见才让《计算机时代》2021,(10):41-43,48

藏文多极情感分类方法是自然语言处理研究中识别用户对某件事或话题的主观情感倾向性识别的研究课题之一.文章分析了藏文多极情感分类方法的特点,对采集的藏文情感语料进行整理校对;提取相关特征,建立情感语料库和情感分类识别模型;再通过大量的实验找出存在的不足,并进行完善,以此提高藏文多极情感数据的准确率.实验表明,优化后的藏文多极情感分类的识别准确率达到84.5％. 相似文献

8.

现代藏文音节的划分与确定

黄小兰黄鹤鸣钟小莉《计算机应用与软件》2012,(9):62-65

在藏文信息处理中,实现藏文字符的字典排序是一个比较重要的问题,实现藏文字符排序的关键是准确地判定藏文音节。藏文音节的判定关键是组合字符的判定。判定组合字符的瓶颈是藏文字符编码的占位和不占位的判定。通过应用程序对藏文编码的占位和不占位的有效判定,即可找出组合字符。对找出组合字符的藏文字符可通过藏文正字法的限定对藏文音节进行有效的判定和音节组件的拆分,从而为藏文字符的字典排序奠定基础。相似文献

9.

基于特征选择和深度信念网络的文本情感分类算法

向进勇杨文忠吾守尔·斯拉木《计算机应用》2019,39(7):1942-1947

由于人类语言的复杂性，文本情感分类算法大多都存在因为冗余而造成的词汇量过大的问题。深度信念网络（DBN）通过学习输入语料中的有用信息以及它的几个隐藏层来解决这个问题。然而对于大型应用程序来说，DBN是一个耗时且计算代价昂贵的算法。针对这个问题，提出了一种半监督的情感分类算法，即基于特征选择和深度信念网络的文本情感分类算法（FSDBN）。首先使用特征选择方法（文档频率（DF）、信息增益（IG）、卡方统计（CHI）、互信息（MI））过滤掉一些不相关的特征从而使词汇表的复杂性降低；然后将特征选择的结果输入到DBN中，使得DBN的学习阶段更加高效。将所提算法应用到中文以及维吾尔语中，实验结果表明在酒店评论数据集上，FSDBN在准确率方面比DBN提高了1.6%，在训练时间上比DBN缩短一半。相似文献

10.

基于CNN-BIGRU的中文文本情感分类模型

宋祖康阎瑞霞《计算机技术与发展》2020,(2):166-170

在当今商业领域,对网络评论的情感分类一直是一个比较热门的研究方向,而为了克服传统机器学习方法所构建分类器会产生较大计算开销,精度表现较差的缺点,提出一种基于深度学习模型中卷积神经网络(CNN)与循环神经网络(RNN)模型的情感分类方法。在以往的研究中,卷积神经网络往往被用来提取文本的局部特征信息,但却容易忽视文本的长距离特征,而RNN则往往被用来提取句子的长距离依赖信息,但容易陷入梯度爆炸问题。因此,结合卷积神经网络对于局部特征信息的良好提取能力与循环神经网络对于长距离依赖信息的记忆能力,构建了一个CNN-BIGRU混合模型,用以提取文本的局部特征以及文本的长距离特征。其中循环神经网络模型使用了双向GRU模型,以避免RNN模型的梯度爆炸与梯度消失问题。在谭松波的酒店评论数据集上的实验结果表明,利用该模型,实验分类的准确率比单独使用卷积神经网络模型最高提升了26.3%,比单独使用循环神经网络模型最高提升了7.9%,从而提高了对中文文本情感分类的精度,并减少了计算开销。相似文献

11.

基于ERNIE和融合双通道特征的文本情感分类模型

尧欢欢朱小栋《软件工程》2023,(2):33-39

针对传统词向量模型无法获取完整的语义表达,以及基础神经网络模型未能兼顾提取多种关联特征等问题,提出了一种融合预训练语言模型(ERNIE)和深层金字塔神经网络结构(DPCNN)/双向门控循环单元-注意力机制(BiGRU-Attention)的双通道文本情感分类模型。基于DPCNN的左通道负责提取文本长距离依赖表示,基于BiGRUAttention的右通道负责提取文本时间序列特征和关键信息。此外,均使用ERNIE模型提供动态字向量。最后,拼接融合双通道中的信息特征以获取最终的文本表示。实验结果表明,ERNIE-DBGA模型的准确率最高达到97.05%,优于其他对比方法,验证该模型可以有效提升情感分类的性能。相似文献

12.

基于排序的藏文音节类型判定

黄鹤鸣达飞鹏《计算机应用》2009,29(7):2003-2005

音节类型的程序判定是藏文字典排序的基础。建立了基于结构的现代藏文音节判定规则,并且将不满足该规则的藏文字母组合看作梵音藏文音节。首先,根据编码序列中占位编码、不占位编码的个数以及相互间的位置关系,判断一个编码序列是否满足现代藏文音节结构,如果满足则进一步确定各个编码（字母）在音节结构中的位置;其次,根据正字法对各个位置上字母的约束来判断这个编码序列是否表示一个现代藏文音节;最后,选取了一些有代表性的编码序列来测试算法的有效性。相似文献

13.

藏文音节拼写检查的CNN模型

色差甲贡保才让才让加《中文信息学报》2019,33(1):111-117

藏文音节拼写检查是藏语自然语言处理的基本任务,在藏文文字处理、文字识别、文本生成等领域具有广泛的应用。该文首先针对藏文音节的结构提出了音节向量化的方法,即音节矩阵。然后构建了适合于藏文音节拼写检查的CNN模型,使用1 364 880个藏文音节进行训练。最后对68 244个藏文音节进行测试。实验结果显示,藏文音节拼写检查CNN模型的结果优于规则、RNN和LSTM等模型,不仅对符合藏文文法的音节能正确识别外,而且对梵音藏文音节也能有效识别,正确率、召回率以及F值分别为99.52%、99.30%和99.41%。相似文献

14.

基于情感评分的分层文本表示情感分类方法

胡均毅李金龙《计算机工程》2020,46(3):46-52,59

文本中的词并非都具有相似的情感倾向和强度,较好地编码上下文并从中提取关键信息对于情感分类任务而言非常重要。为此,提出一种基于情感评分的分层注意力网络框架,以对文本情感进行有效分类。利用双向循环神经网络编码器分别对词向量和句向量进行编码,并通过注意力机制加权求和以获得文档的最终表示。设计辅助网络对文本的词、句进行情感评分,利用该评分调整注意力权重分布。在探究文本的情感信息对分类性能的影响后,通过辅助网络进一步促使模型关注情感色彩强烈的信息。在4个常用情感分类数据集上的实验结果表明,该框架能够关注文本中的情感表达并获得较高的分类准确率。相似文献

15.

基于Logistic回归模型的藏文文本分类研究与实现

《信息与电脑》2018,(5)

文本分类是信息处理领域的核心研究内容,在自动检索和文本过滤等研究领域中被广泛使用。本次研究主要是基于Logistic回归模型分类器对藏文文本进行分类,其核心思想是首先对藏文语料进行收集和预处理,且利用信息增益算法和欧式距离分别对文本特征进行选择与提取;其次构造Logistic回归模型分类器;最后测试和分析分类的准确率、召回率和F1值,同时,对Logistic算法和Gaussian NB算法进行分类性能对比,结果显示Logistic算法具有较好的分类效果。相似文献

16.

中文歌词文本的情感分类综述

杨帆余华平《数字社区&智能家居》2021,(3):207-208,215

随着生活条件的普遍提高,人们从物质文化需求转为更高的精神追求,音乐因为蕴含着丰富的情感,自然就成人们发泄、享受生活必不可少的一部分.音乐是情感表达的一种重要形式,也就是说情感是音乐语义信息中最重要的成分之一,歌词的情感分类在音乐的检索和推荐等方面应用广泛,情感分类算法的优劣决定了用户能找到适合的音乐,音乐厂商能留住更多... 相似文献

17.

基于BiGRU-attention神经网络的文本情感分类模型 总被引：1，自引：0，他引：1

王伟孙玉霞齐庆杰孟祥福《计算机应用研究》2019,36(12)

针对双向长短时记忆神经（BiLSTM）模型训练时间长、不能充分学习文本上下文信息的问题,提出一种基于BiGRU-attention的文本情感分类模型。首先,利用双向门控循环（BiGRU）神经网络层对文本深层次的信息进行特征提取;其次,利用注意力机制（attention）层对提取的文本深层次信息分配相应的权重;最后,将不同权重的文本特征信息放入softmax函数层进行文本情感极性分类。实验结果表明,所提的神经网络模型在IMDB数据集上的准确率是90.54%,损失率是0.2430,时间代价是1100 s,验证了 BiGRU-attention模型的有效性。相似文献

18.

基于卷积神经网络的短文本情感分类

代丽樊粤湘陈思《计算机系统应用》2021,30(1):214-220

近年来,卷积神经网络模型常常被用于文本情感分类的研究中,但多数研究都会忽略文本特征词本身所携带的情感信息和中文文本分词时被错分的情况.针对此问题,提出一种融合情感特征的双通道卷积神经网络情感分类模型(Dual-channel Convolutional Neural Network sentiment classifi... 相似文献

19.

融合通道特征的混合神经网络文本分类模型

韩永鹏陈彩苏航梁毅《中文信息学报》2021,35(2):78-88

基于卷积神经网络与循环神经网络的混合文本分类模型通常使用单通道词嵌入.单通道词嵌入空间维度低,特征表示单一,导致一维卷积神经网络不能充分学习文本的空间特征,影响了模型的性能.因此,该文提出一种融合通道特征的混合神经网络文本分类模型.该模型使用了双通道词嵌入丰富文本表示,增加了空间维度,在卷积的过程中融合了通道特征,优化... 相似文献

20.

基于文本纹理特征的中文情感倾向性分类

许歆艺刘功申《中文信息学报》2015,29(3):106-112

随着互联网的发展,社交网络、电子商务等已经成为人们关注的焦点,对社交网络的文本进行情感倾向性分析和挖掘变得越来越重要。该文针对网络上的中文文本,提出一种基于文本纹理特征的情感倾向性分类方法。通过测试多种文本纹理特征对文本情感倾向性的影响,成功将文本纹理特征融入情感分类中。通过计算各类特征与文本的情感倾向性的相关度,对特征进行降维。相对于基于词频的情感倾向性分类方法,查准率平均提高了10%左右。相似文献