首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
结合对维吾尔语语言的特点分析,该文提出一种基于深度卷积神经网络(deep convolutional neural networks,DCNNs)联合长短期记忆网络(long-short term memory,LSTM)实现的维吾尔语文本突发事件识别方法。该方法提取突发事件包含六大特征块,并在特征集中引入富含词汇语义及上下文位置关系的Word Embedding,利用DCNNs对黏着性语言特征抽象化的学习能力抽取事件句中的高阶局部特征,以此作为LSTM网络的输入,利用其对于事件句中抽象含义序列关系的捕获特性获取全局特征,训练 Softmax分类器完成维吾尔语突发事件的识别任务。该方法在维吾尔语突发事件识别中的准确率达到80.60%,召回率81.39%,F值80.99%。实验结果表明,与不同层数的DCNNs和独立的LSTM网络相比,DCNNs-LSTM模型更具备挖掘隐含上下文深层语义信息的能力,对Word Embedding特征项的引入有效地提高了模型识别性能。  相似文献   

2.
否定信息识别是将自然语言中的肯定信息与否定信息分离,它对信息检索、文本挖掘、情感分析等都有重要作用。该文主要对汉语否定信息中的触发词识别和覆盖域识别进行研究,采用双向长短期记忆网络结合条件随机场(BiLSTM-CRF)为模型,预训练的词向量为输入特征对触发词进行识别,在此基础上添加已知触发词特征对覆盖域进行识别。中文否定与不确定信息语料上,触发词识别取得F1值为91.03%,覆盖域识别在该语料的子语料财经新闻上取得F1值最高为73.91%。实验结果表明,这一模型在汉语否定触发词识别和覆盖域识别上取得的效果优于CRF模型和BiLSTM模型。  相似文献   

3.
触发词的识别在事件检测任务中起着至关重要的作用。目前没有越南语触发词标记语料,而中文触发词标记语料较为丰富,根据表达相同观点但语言不同的句子通常有相同或相似的语义成分这一特征,该文提出一种基于中文触发词指导的越南语新闻事件检测方法。首先采用对抗学习的方法将两种语言映射到同一语义空间下,然后将映射后的中文触发词嵌入指导模型识别越南语新闻中的触发词信息,最后进行事件类型的分类。通过在越南语新闻事件检测的实验结果表明,在中文触发词指导下的越南语新闻事件检测取得了较好的效果。  相似文献   

4.
传统事件触发词抽取方法在特征提取过程中对自然语言处理工具产生过度依赖的方法,耗费大量人力,容易出现错误传播和数据稀疏性等问题。为此,提出采用CNN-BiGRU模型进行事件触发词抽取的方法。将词向量和位置向量进行拼接作为输入,提取词级别特征和句子全局特征,提高触发词抽取效果,并通过CNN提取词汇级别特征,利用BiGRU获取文本上下文语义信息。在ACE2005英文语料库和中文突发事件语料库CEC上的实验结果表明,该模型事件触发词识别F1值分别达到74.9%和79.29%,有效提升事件触发词的抽取性能。  相似文献   

5.
事件结构性语法特征与事件语义特征各有优势,二者融合利于准确表征事件触发词,进而有利于完成事件触发词抽取任务。现有的基于特征、基于结构及基于神经网络模型等的抽取方法仅能捕捉事件的部分特征,不能够准确表征事件触发词。为解决上述问题,提出一种融合了事件结构性语法特征和事件语义特征的混合模型,完成事件触发词抽取任务。首先,在初始化向量模型中融入句子的依存句法信息,使初始向量中包含事件结构性语法特征;然后,将初始向量依次传入神经网络模型中的CNN和BiGRU-E-attention模型中,在捕获多维度事件语义特征的同时,完成事件结构性语法特征与事件语义特征的融合;最后,进行事件触发词的抽取。在CEC中文突发语料库上进行事件触发词位置识别和分类实验,该模型的F值较基准模型的分别提高了0.86%和4.07%;在ACE2005英文语料库上,该模型的F值较基准模型的分别提高了1.4%和1.5%。实验结果表明,混合模型在事件触发词抽取任务中取得了优异的效果。  相似文献   

6.
生物事件抽取是生物文本挖掘领域的一个重要分支,而触发词识别作为事件抽取的重要子过程,已经吸引了众多的关注。现有的触发词识别方法多为浅层的一阶段方法,训练代价较大,且需要丰富的领域知识抽取大量特征,人工成本较高。因此,该文提出了一种基于两阶段和双向LSTM神经网络的触发词识别方法。首先,将触发词识别分为识别和分类两个阶段,有效地缓解了训练过程中存在的类不平衡问题;其次,在两个阶段中均采用目前性能较好的双向LSTM神经网络来完成二分类任务和多分类任务,避免了浅层机器学习方法抽取人工特征时的代价。此外,利用PubMed数据库下载大规模语料训练带有依存关系的词向量,获得了更加丰富的语义信息,从而有效地提高了触发词的识别性能。该文方法在生物事件抽取通用语料MLEE上已获得目前最好抽取性能,F值为78.46%。  相似文献   

7.
针对维吾尔语句子情感信息:喜、怒、哀、乐和客观五分类任务,提出一种利用深度信念网络模型(Deep Belief Nets, DBN)的深度学习机制进行基于深层语义特征的句子级情感分析方法。该方法通过对维吾尔语情感句及语言特点的深入研究,提取出利于情感分析任务的8项情感特征。为了提高特征对文本语义的表达,将富含词汇深层语义和上下文信息的word embedding特征与情感特征进行融合,作为深度信念网络的输入。利用多层无监督的波尔兹曼机(RBM)训练并提取隐含的深层语义特征,通过有监督的后向传播算法对网络进行微调,进而完成情感分类任务。该方法在维吾尔语句子级情感分类任务中的准确率为83,35%,召回率为84.42%,F值为:83.88%. 实验结果证明,深度学习模型较浅层的学习模型更合适于本文的情感分类任务,对word embedding特征项的引入,有效的提高了情感分类模型的性能.  相似文献   

8.
大部分基于依存句法分析的事件检测方法仅聚焦于依存句法结构上的单跳联系,忽视了词与词之间的多跳联系,造成事件触发词与部分相关实体间的语义缺失,从而影响了事件检测效率。因此,为了充分利用词语间的语义相关性提升事件触发词的识别能力,提出了融合多跳关系标签和依存句法结构信息的事件检测模型。构建了一种新型的依存句法多跳树以及多跳关系标签搜索算法,增强了核心词汇的事件表征能力,并结合图注意力网络聚合了词的多阶表示,提升了事件检测性能。在ACE2005数据集上的实验结果显示,提出的增加了多跳关系标签信息的事件检测方法比基准模型性能提升了近2%。  相似文献   

9.
事件检测作为事件抽取的一个子任务,是当前信息抽取的研究热点之一。它在构建知识图谱、问答系统的意图识别和阅读理解等应用中有着重要的作用。与英文字母不同,中文中的字在很多场合作为单字词具有特定的语义信息,且中文词语内部也存在特定的结构形式。根据中文的这一特点,文中提出了一种基于字词联合表示的图卷积模型JRCW-GCN(Joint Representation of Characters and Words by Graph Convolution Neural Network),用于中文事件检测。JRCW-GCN首先通过最新的BERT预训练语言模型以及Transformer模型分别编码字和词的语义信息,然后利用词和字之间的关系构建对应的边,最后使用图卷积模型同时融合字词级别的语义信息进行事件句中触发词的检测。在ACE2005中文语料库上的实验结果表明,JRCW-GCN的性能明显优于目前性能最好的基准模型。  相似文献   

10.
司法数据中的事件主要用于描述案件中犯罪主体和客体之间行为状态的改变,通过识别司法事件能有效地支撑智能化辅助办案研究。目前,现有事件抽取技术主要通过触发词识别事件,然后根据预定义的模板抽取对应参数。其主要缺点是只能抽取预定义的事件类型,并且抽取的事件不一定是句子语义表达的中心。针对上述问题,提出一种基于谓语中心词的司法事件定义方法,并搭建一个结合字词语义信息的神经网络模型。该模型采用字的Embedding获取字的语义信息,并通过CNN获得词特征信息。将词特征信息结合后,使用Cross-BiLSTM交叉学习字词交互信息在上下文的依赖表示,由CRF计算出每个字的最优标签路径。通过实验表明,该模型在司法数据集上的F1值达到84.41%,超出对比方法4.8%。  相似文献   

11.
基于SVM的维吾尔文文本分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
文本自动分类技术在提高文本信息利用的有效性和准确性上具有重要的现实意义和广阔的应用前景。随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型表示下的高维性,本文采用词干提取和χ2统计量相结合的方法对表示空间进行降维。采用SVM算法构造了维吾尔文文本分类器。针对维吾尔文文本分类语料进行的实验结果表明,SVM分类器的MacroF1值达到了84.6%,明显好于kNN方法。  相似文献   

12.
本文阐述了以配价作为基本描写法、真实语料为事实依据的维吾尔语框架语义知识库(简称框架网FrameNet)的构建,该知识库在构建维吾尔语词汇及其所属框架的语义词典等诸多领域有着广阔的应用空间和发展前景。提出了研究维吾尔语中句法功能和概念结构(也就是语义结构) 之间的关系, 以及建立用于自然语言处理的维吾尔语网上词汇知识库的意义。在维吾尔语的研究中引入了框架语义知识库(框架网)。框架语义知识库作为一种网上词汇语料库, 包括对每个词位( lexeme)的各个涵义的句法、语义信息的详尽描述。本文为维吾尔语框架语义知识库中各个框架元素的句法、语义特征的说明等自然语言信息处理研究提出新的研究思路,对基于配价的维吾尔语框架语义知识库构建的方法进行了探讨。  相似文献   

13.
针对维吾尔语人称代词指代消解研究忽略了待消解项识别而引入了噪声的问题,提出一种基于深度置信网络(Deep Belief Networks,DBN)的维吾尔语人称代词待消解项识别方法。在分析维吾尔语人称代词语法特征和语言规则的基础上,总结出包含10项特征的维吾尔语人称代词待消解项特征集。所提方法首先通过逐层贪婪地训练每一层受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)网络,来保证特征向量映射到不同的特征空间,尽可能多地保留特征信息;并在最后一层设置BP网络,对RBM输出的特征向量进行分类,以有监督的方式训练整个网络并进行微调。实验结果表明,所提方法正确识别维吾尔语人称代词待消解项的准确率达到95.17%,比SVM算法提高了9%,从而验证了其有效性和可行性。  相似文献   

14.
指代消解是自然语言处理技术的核心问题,该文结合维吾尔语语义特征,提出基于深度学习的维吾尔语人称代词指代消解方法。通过堆叠多层无监督RBM网络和一层有监督BP网络,构建DBN深度神经网络学习模型,RBM网络保证特征向量映射达到最优,BP网络对RBM网络的输出向量进行分类,实现维吾尔语人称代词指代消解。经过维吾尔语指代消解语料库测试, F值达到83.81%,比SVM方法高出2.88%。实验结果表明,同等条件下,该方法能有效提升维吾尔语人称代词消解的精度,有助于维吾尔语指代消解研究。  相似文献   

15.
针对维吾尔语名词短语待消解项识别任务,该文提出一种利用栈式非负约束自编码器(Stacked Nonnegative Constrained Autoencoder,SNCAE)完成基于语义特征的待消解项识别方法。为了提高自动编码器隐藏层激活度的稀疏性和重构数据的质量,利用NCAE非负约束算法,为连接权值施加非负性约束。通过分析维吾尔语名词短语语言指代现象,提取出15个特征,利用SNCAE提取出深层语义特征,引入Softmax分类器,进而完成待消解项识别任务。该方法在维吾尔语名词短语待消解项识别中,正例准确率和负例准确率分别比SVM高出8.259%和4.158%,比栈式自编码(SAE)高出1.884%和1.590%,表明基于SNCAE的维吾尔语名词短语待消解项识别方法比SVM和SAE更适合维吾尔文的待消解项识别任务。  相似文献   

16.
现有的维吾尔文文本情感分类方法以从空格分词中得到的unigram特征作为文本表示,因而无法挖掘与情感表达相关的深层语言现象。该文从维吾尔文词汇之间的顺序依赖关系入手,总结若干个词性组合规则,提取能够表达丰富情感信息的Bi-tagged特征,并基于支持向量机(SVM)分类器对维吾尔文情感语料库进行了正负情感分类。实验结果表明,在维吾尔文文本情感分类中: (1)当包含该文提出的各项词性规则时,Bi-tagged特征的性能最优;(2)Bi-tagged特征不仅能够提取情感丰富的信息,而且可以提取否定信息;(3)与常用的unigram、bigram特征以及unigram和bigram的组合特征在该文数据集上的分类效果相比,该文所提取的Bi-tagged与unigram的组合特征分类效果更佳,比该文的Baseline的分类准确率提高了4.225%。该研究成果不但可以进一步提高维吾尔文文本情感分类效率,也可为哈萨克语、柯尔克孜语等亲属语言的情感分类提供借鉴。  相似文献   

17.
针对深度神经网络模型学习照应语和候选先行语的语义信息忽略了每一个词在句中重要程度,且无法关注词序列连续性关联和依赖关系等问题,提出一种结合语境多注意力独立循环神经网络(Contextual multi-attention independently recurrent neural network,CMAIR)的维吾尔...  相似文献   

18.
词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi-LSTM-CRF的维吾尔语词干提取模型,将字符作为最小切分单位,选取维吾尔语字符特征、音类特征以及语音特征为候选特征,结合模型进行实验。实验表明,该文提出的Bi-LSTM-CRF模型在维吾尔语词干提取任务上,F1值达到了88%,在融入手工提取的候选特征之后,F1值提高了1.8个点,有效提高了词干提取的准确性,缓解了上述问题带来的影响。  相似文献   

19.
将维吾尔文从阿拉伯文、哈萨克文、柯尔克孜文等以阿拉伯字母为基础书写的类似文字中识别出来,是维文信息处理的基础。作者对维吾尔字符的编码优化后使用N元语法模型实现了维吾尔文的快速语种判别,准确率超过98%。经过错误分析,发现错误判别的文本主要集中在论坛和微博客中,这些文本有效字符数太少,语言特征不充分。最后作者计算了四种语言真实网络文本中的所有公共子串,并对文种判别所需要的最短字符串长度进行了分析。  相似文献   

20.
维吾尔语是黏着性语言,利用丰富的词缀可以用同样的词干产生超大词汇,给维吾尔语语音识别的研究工作带来了很大困难。结合维吾尔语自身特点,建立了维吾尔语连续语音语料库,利用HTK(HMMToolKit)工具实现了基于隐马尔可夫模型(HMM)的维吾尔语连续语音识别系统。在声学层,选取三音子作为基本的识别单元,建立了维吾尔语的三音子声学模型,并使用决策树、三音子绑定、修补哑音、增加高斯混合分量等方法提高模型的识别精度。在语言层,使用了适合于维吾尔语语音特征的基于统计的二元文法语言模型。最后,利用该系统进行了维吾尔语连续语音识别实验。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号