期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王智强李茹阴志洲刘海静李双红《中文信息学报》2013,27(2):34-41

语义角色标注是浅层语义分析的一种实现方式。目前汉语框架语义角色自动标注一般被看作以词为基本标注单元的序列标注问题,而已有研究中仅在词、词性层面来选取特征,标注结果并不理想。该文利用树条件随机场模型,通过在词、词性层面特征的基础上依次加入不同类型的依存特征,研究依存特征对汉语框架语义角色标注的影响。实验设置了8类,共24种特征模板,结果显示,加入依序特征的最优模版使标注结果的F值提高近3%,特别是对较长框架语义角色的标注结果有较好的改善。相似文献

2.

基于NPN融入词性注意力机制的中文事件探测

胡庆孟王红斌王俊钟《计算机工程与科学》2023,(8):1490-1497

事件探测主要研究触发词探测以及事件类型识别。现阶段基于深度学习的模型大部分集中在利用语义角色信息、句法依存树信息以及预训练模型方面，忽略了词性的重要性。针对这个问题，提出基于块提取网络融入词性注意力机制的中文事件探测方法，首先基于NLP词性标注工具获得词性序列，然后使用CBOW算法获得词性嵌入，最后在模型中使用词性嵌入计算词性注意力用于事件探测。在ACE2005数据集上进行实验，融入词性注意力后模型在事件探测任务上的F1分数分别提升了3.8%和2.4%,表明了该方法的有效性。相似文献

3.

基于字符的中文分词、词性标注和依存句法分析联合模型 总被引：1，自引：0，他引：1

郭振张玉洁苏晨徐金安《中文信息学报》2014,28(6):1-8

目前,基于转移的中文分词、词性标注和依存句法分析联合模型存在两大问题: 一是任务的融合方式有待改进;二是模型性能受限于全标注语料的规模。针对第一个问题,该文利用词语内部结构将基于词语的依存句法树扩展成了基于字符的依存句法树,采用转移策略,实现了基于字符的中文分词、词性标注和依存句法分析联合模型;依据序列标注的中文分词方法,将基于转移的中文分词处理方案重新设计为4种转移动作: Shift_S、Shift_B、Shift_M和Shift_E,同时能够将以往中文分词的研究成果融入联合模型。针对第二个问题,该文使用具有部分标注信息的语料,从中抽取字符串层面的n-gram特征和结构层面的依存子树特征融入联合模型,实现了半监督的中文分词、词性标注和依存句法分析联合模型。在宾州中文树库上的实验结果表明,该文的模型在中文分词、词性标注和依存分析任务上的F1值分别达到了98.31%、94.84%和81.71%,较单任务模型的结果分别提升了0.92%、1.77%和3.95%。其中,中文分词和词性标注在目前公布的研究结果中取得了最好成绩。相似文献

4.

一种融合字词信息的中文情感分析模型

杨春霞姚思诚宋金剑《计算机工程与科学》2023,(3):512-519

中文情感分析模型的文本表示通常只采用词粒度信息，这会导致模型在特征提取时丧失字粒度的特性，同时常用的分词方法的分词结果过于精简，也一定程度上限制了文本表示的丰富度。对此，提出了一种融合字粒度特征与词粒度特征的中文情感分析模型，采用全模式分词得到更丰富的词序列，经词嵌入后将词向量输入Bi-LSTM中提取全文的语义信息，并将隐层语义表示与对应字向量进行初步融合，增强词级信息的鲁棒性；另一方面将字向量输入多窗口卷积，捕捉更细粒度的字级特征信息。最后将字词粒度特征进一步融合后输入分类器得到情感分类结果，在2个公开数据集上的性能测试结果表明，该模型相比同类模型有更好的分类性能。相似文献

5.

一种基于迁移学习及多表征的微博立场分析方法

周艳芳周刚鹿忠磊《计算机科学》2018,45(9):243-247

立场分析旨在发现用户对特定目标对象所持的观点态度。针对现有方法往往难以克服标注数据匮乏及微博文本中大量未登录词等导致的分词误差的问题,提出了基于迁移学习及字、词特征混合的立场分析方法。首先,将字、词特征输入深度神经网络,级联两者隐藏层输出,复现由分词错误引起的缺失语义信息;然后,利用与立场相关话题的辅助数据训练话题分类模型(父模型),得到更为有效的句子特征表示;接着,以父模型参数初始化立场分析模型(子模型),从辅助数据(话题分类数据)迁移知识能加强句子的语义表示能力;最后,使用有标注数据微调子模型参数并训练分类器。在NLPCC-2016任务4的语料上进行实验,F1值达72.2%,优于参赛团队的最佳成绩。实验结果表明,该方法可提高立场分类性能,同时缓解分词误差带来的影响。相似文献

6.

融合多粒度特征的老挝语词性标注研究

唐文周兰江张建安《中文信息学报》2023,(4):52-62

词性标注是自然语言处理领域的基础任务之一。语料稀缺、词形复杂、存在大量低频词和未登录词，句式较长，在数据传递过程中信息易丢失，这些都是导致老挝语词性标注不准确的主要原因。因此，该文提出一种融合多粒度特征的老挝语词性标注方法，构建了融合老挝词、字符和音节特征的Transformer-CRF模型。首先，在传统词向量的基础上融合老挝语字符和音节特征向量，使模型在三个粒度级别上充分利用语料信息；其次，使用Transformer对老挝语句子进行长远上下文信息提取，解决重要信息丢失问题；最后，使用CRF提取相邻词性约束关系，从而获取最优词性标签。实验结果表明，在语料有限的情况下，该模型与其他主流模型相比达到了更显著的效果，精确率、召回率和F₁值分别为94.76%、93.93%、94.34%。相似文献

7.

基于同义词词林信息特征的语义角色自动标注

李国臣吕雷王瑞波李济洪李茹《中文信息学报》2016,30(1):101-108

该文使用同义词词林语义资源库,以词林中编码信息为基础构建新的特征,使用条件随机场模型,研究了汉语框架语义角色的自动标注。该文在先前的基于词、词性、位置、目标词特征的基础上,在模型中加入不同的词林信息特征,以山西大学的汉语框架语义知识库为实验语料,研究了各词林信息特征分别对语义角色边界识别与分类的影响。实验结果表明,词林信息特征可以显著提高语义角色标注的性能,并且主要作用在语义角色分类上。相似文献

8.

采用Stack-Tree LSTM的汉语一体化依存分析模型

刘航刘明童张玉洁徐金安陈钰枫《中文信息学报》2019,33(1):10-17

在汉语一体化依存分析中,如何利用分词、词性标注和句法分析的中间结果作为分析特征成为核心问题,也是三个任务相互制约协调、共同提高性能的关键所在。目前无论基于特征工程的方法还是基于深度学习的方法尚无法充分利用分析过程中依存子树的完整信息,而依存子树作为中间结果的主要成分对三个任务的后续分析具有重要的指导意义。该文在基于转移的依存分析框架下,提出Stack-Tree LSTM依存子树编码方法,通过对分析栈中所有依存子树的有效建模,获取任意时刻的依存子树的完整信息作为特征参与转移动作决策。利用该编码方式提出词性特征使用方法,融合N-gram特征构建汉语一体化依存分析神经网络模型。最后在宾州汉语树库上进行了验证实验,并与已有方法进行了比较。实验结果显示: 该文提出的模型在分词、词性标注和依存分析任务上的性能非常接近特征工程最好的结果,并且均超过已有的一体化依存分析神经网络模型。相似文献

9.

中文字粒度切分在蒙汉机器翻译的应用

苏依拉高芬仁庆道尔吉《中文信息学报》2019,33(12):54-60

在机器翻译任务中,主流的深度学习算法大多使用词或子词作为基础的语义单元,在词或子词层面学习嵌入表征。然而,词粒度层面存在一系列缺点。该文基于LSTM和Transformer蒙汉翻译模型,对蒙文进行子词粒度切分,对中文分别进行子词和字粒度切分对比实验。实验结果显示,相比于子词粒度切分,基于Transformer的蒙汉翻译模型和基于LSTM的蒙汉翻译模型的字粒度切分有极大的BLEU值提升,字级别的蒙汉翻译模型在验证集和测试集上都显著优于混合字和词的子词级别的蒙汉翻译模型。其表明,字级别的蒙汉翻译模型更能捕捉单元之间的语义联系,提高蒙汉翻译性能。相似文献

10.

融合词性语义扩展信息的事件检测模型

严海宁余正涛黄于欣宋燃杨溪《计算机工程》2024,(3):89-97

事件检测是事件抽取中的关键步骤,依赖于触发词进行事件类型分类。现有主流事件检测方法在稀疏标记数据上性能较差,模型过度拟合密集标注的触发词,在稀疏标记的触发词或者未见过的触发词上容易失效。改进方法通常通过扩充更多训练实例来缓解这一问题,但扩充后的数据分布不平衡,存在内置偏差,仍然表现不佳。为此,建立一种融合词性语义扩展信息的事件检测模型。对词粒度扩展信息进行分析,在不增加训练实例的条件下缩小候选触发词的范围,并对候选触发词进行语义扩展,挖掘候选触发词的上下文中蕴含的丰富语义,缓解了标记数据稀疏造成模型训练不充分的情况。通过词性筛选模块寻找候选触发词并对其进行语义扩展挖掘词粒度语义信息,融合句子粒度语义信息提升语义表征的鲁棒性,最终利用Softmax分类器进行分类完成事件检测任务。实验结果表明,该模型在ACE2005和KBP2015数据集上的事件检测任务中的F1值分别达到79.5%和67.5%,有效提升了事件检测性能,并且在稀疏标记数据实验中的F1值达到78.5%,明显改善了标记数据稀疏带来的不良影响。相似文献

11.

基于词性特征的CNN_BiGRU文本分类模型

张小川刘连喜戴旭尧刘璐《计算机应用与软件》2021,38(11):155-161

传统词嵌入通常将词项的不同上下文编码至同一参数空间,造成词向量未能有效辨别多义词的语义;CNN网络极易关注文本局部特征而忽略文本时序语义,BiGRU网络善于学习文本时序整体语义,造成关键局部特征提取不足.针对上述问题,提出一种基于词性特征的CNN_BiGRU文本分类模型.引入词性特征构建具有词性属性的词性向量;将词性向量与词向量交叉组合形成增强词向量,以改善文本表示;采用CNN网络获取增强词向量的局部表示,利用BiGRU网络捕获增强词向量的全局上下文表示;融合两模型学习的表示形成深度语义特征;将该深度语义特征连接至Softmax分类器完成分类预测.实验结果表明,该模型提高了分类准确率,具有良好的文本语义建模和识别能力. 相似文献

12.

基于自动编码器的中文词汇特征无监督学习

张开旭周昌乐《中文信息学报》2013,27(5):1-8

大规模未标注语料中蕴含了丰富的词汇信息,有助于提高中文分词词性标注模型效果。该文从未标注语料中抽取词汇的分布信息,表示为高维向量,进一步使用自动编码器神经网络,无监督地学习对高维向量的编码算法,最终得到可直接用于分词词性标注模型的低维特征表示。在宾州中文树库5.0数据集上的实验表明,所得到的词汇特征对分词词性标注模型效果有较大帮助,在词性标注上优于主成分分析与k均值聚类结合的无监督特征学习方法。相似文献

13.

结合上下文和依存句法信息的中文短文本情感分析

杜启明李男刘文甫杨舒丹岳峰《计算机科学》2023,(3):307-314

依存句法分析旨在从语言学的角度分析句子的句法结构。现有的研究表明,将这种类似于图结构的数据与图卷积神经网络(Graph Convolutional Network, GCN)进行结合,有助于模型更好地理解文本语义。然而,这些工作在将依存句法信息处理为邻接矩阵时,均忽略了句法依赖标签类型,同时也未考虑与依赖标签相关的单词语义,导致模型无法捕捉到文本中的深层情感特征。针对以上问题,提出了一种结合上下文和依存句法信息的中文短文本情感分析模型(Context and Dependency Syntactic Information, CDSI)。该模型不仅利用双向长短期记忆网络(Bidirectional Long Short-Term Memory, BiLSTM)提取文本的上下文语义,而且引入了一种基于依存关系感知的嵌入表示方法,以针对句法结构挖掘不同依赖路径对情感分类任务的贡献权重,然后利用GCN针对上下文和依存句法信息同时建模,以加强文本表示中的情感特征。基于SWB,NLPCC2014和SMP2020-EWEC数据集进行验证,实验表明CDSI模型能够有效融合语句中的语义以及句法结构信息... 相似文献

14.

基于语义增强的多特征融合小样本关系抽取

潘理虎刘云谢斌红张英俊《计算机应用研究》2022,39(6)

关系抽取是自然语言处理和知识图谱构建的一项关键任务,现有小样本关系抽取方法无法有效获取和充分利用更多的文本语义信息,为此给出一个基于语义增强的多特征融合关系抽取方法（SMPC）并应用于小样本任务中。该方法构建了一个融合位置、词性和句法依存等信息的分段卷积神经网络最大化表示语义特征,并从维基百科中抽取细粒度语义信息,将其融入词嵌入,提高模型上下文共性学习。在两种场景下对不同基线方法进行实验,分别取得最高4%和10%的准确率提升,证明了该方法的有效性。相似文献

15.

融合多重嵌入的中文命名实体识别

尹成龙陈爱国《中文信息学报》2023,(4):63-71

最近，将词嵌入融合到基于字嵌入的模型已经被证明是有效的。但是，大多数现有的研究都忽视了对部首信息的使用。该文提出一种将词嵌入、字嵌入和部首嵌入相融合的新方法，该方法利用词嵌入和字嵌入的优点，并考虑了部首中包含的大量语义信息，从而充分利用了不同粒度的语义信息，提高了模型的识别效果。该方法在Weibo数据集和MSRA数据集上的实验结果表明，该文所提方法较相关方法在识别精度上取得提升。相似文献

16.

利用门控机制融合依存与语义信息的事件检测方法

陈佳丽洪宇王捷张婧丽姚建民《中文信息学报》1986,34(8):51-60

句子级事件检测任务目的是识别和分类事件触发词。现阶段工作主要将句子作为神经分类网络的输入,学习句子的深层语义信息,从而优化句子表示来改进事件检测任务的性能。该文发现除句子语义信息外,依存树包含的句法结构信息也有助于获取准确的句子表示。为此,该文采用双向长短时记忆网络对句子进行编码,捕获其语义信息;同时,设计图神经网络对句子的依存结构进行表示,获取其依存信息;此外,在对句子进行语义编码与依存编码时,该文利用自注意力机制使模型选择性地关注句子中的不同词,从而捕获句子中有助于事件检测的关键信息,并尽可能避免无关词的干扰;最后,该文提出门控机制,通过加权实现上述两种信息的动态融合。该文在自动文本抽取(automatic content extraction, ACE)数据集上进行实验,结果显示,该文提出的动态融合语义信息与依存信息的方法能更加有效地对句子进行编码,并捕获句子中的事件信息,在触发词识别与事件类型分类这两个子任务中,F₁值均有较大提升,分别达到76.3%和73.9%。相似文献

17.

融合词典与对抗迁移的越南语事件实体识别

薛振宇线岩团余正涛高盛祥普浏清《计算机工程》2022,48(3):107-114+145

针对越南语事件标注语料稀缺且标注语料中未登陆词过多导致实体识别精度降低的问题,提出一种融合词典与对抗迁移的实体识别模型。将越南语作为目标语言,英语和汉语作为源语言,通过源语言的实体标注信息和双语词典提升目标语言的实体识别效果。采用词级别对抗迁移实现源语言与目标语言的语义空间共享,融合双语词典进行多粒度特征嵌入以丰富目标语言词的语义表征,再使用句子级别对抗迁移提取与语言无关的序列特征,最终通过条件随机场推理模块标注实体识别结果。在越南语新闻数据集上的实验结果表明,在源语言为英语和汉语的情况下,该模型相比主流的单语实体识别模型和迁移学习模型的实体识别性能有明显提升,并且在加入目标语义标注数据后,相比单语实体识别模型的F1值分别增加了19.61和18.73个百分点。相似文献

18.

基于多语义融合的反讽识别

樊小超杨亮林鸿飞刁宇峰申晨楚永贺《中文信息学报》2021,35(6):103-111

反讽是一种复杂的语言现象,被广泛应用于社交媒体中。如何让计算机具有识别反讽的能力,成为了自然语言处理研究领域的热门研究内容之一。该文针对反讽识别中缺乏上下文语境信息和修辞表达信息的问题,提出了基于多语义融合的反讽识别方法。该方法采用ELMo从大规模反讽文本中训练得到领域词嵌入表示,并融合基于词性和基于风格信息的语义表示,使用双向长短时记忆网络和卷积神经网络进行反讽识别。实验结果表明,所提出模型能够从多个维度提取反讽文本的潜在语义特征,在公开数据集IAC上的实验性能有显著提升。相似文献

19.

语言知识驱动的词嵌入向量的可解释性研究

林星星邱晓枫刘扬虞梦夏祁晶康司辰《中文信息学报》1986,34(8):1-9

神经网络语言模型应用广泛但可解释性较弱,其可解释性的一个重要而直接的方面表现为词嵌入向量的维度取值和语法语义等语言特征的关联状况。先前的可解释性工作集中于对语料库训得的词向量进行知识注入,以及基于训练和任务的算法性能分析,对词嵌入向量和语言特征之间的关联缺乏直接的验证和探讨。该文应用基于语言知识库的伪语料法,通过控制注入语义特征,并对得到的词嵌入向量进行分析后取得了一些存在性的基础性结论: 语义特征可以通过控制注入到词嵌入向量中;注入语义特征的词嵌入向量表现出很强的语义合成性,即上层概念可以由下层概念表示;语义特征的注入在词嵌入向量的所有维度上都有体现。相似文献

20.

基于共享BERT和门控多任务学习的事件检测方法

王捷洪宇陈佳丽姚建民《中文信息学报》2021,35(10):101-109

事件检测任务的目标是从文本中自动获取结构化的事件信息。目前基于表示学习的神经事件检测方法能够有效利用潜在语义信息,但人工标注数据集的语义知识含量有限,制约了神经网络模型的认知广度。相对地,多任务表示学习框架,有助于模型同时学习不同任务场景中的语义知识,从而提升其认知广度。BERT预训练模型得益于大规模语言资源的充沛语义信息,具有高适应性(适应不同任务)的语义编码能力。因此,该文提出了一种基于BERT的多任务事件检测模型。该方法将BERT已经包含的语义知识作为基础,进一步提升多任务模型的表示、学习和语义感知能力。实验表明,该方法有效提高了事件检测的综合性能,其在ACE2005语料集上事件分类的F₁值达到了76.7%。此外,该文在实验部分对多任务模型的训练过程进行了详解,从可解释性的层面分析了多任务架构对事件检测过程的影响。相似文献