首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 22 毫秒
1.
古汉语信息处理的基础任务包括自动断句、自动分词、词性标注、专名识别等。大量的古汉语文本未经标点断句,所以词法分析等任务首先需要建立在断句基础之上。然而,分步处理容易造成错误的多级扩散,该文设计实现了古汉语断句与词法分析一体化的标注方法,基于BiLSTM-CRF神经网络模型在四种跨时代的测试集上验证了不同标注层次下模型对断句、词法分析的效果以及对不同时代文本标注的泛化能力。研究表明,一体化的标注方法对古汉语的断句、分词及词性标注任务的F1值均有提升。综合各测试集的实验结果,断句任务F1值达到78.95%,平均提升了3.5%;分词任务F1值达到85.73%,平均提升了0.18%;词性标注任务F1值达到72.65%,平均提升了0.35%。  相似文献   

2.
事件可信度表示文本中事件的真实状况,描述了事件是否是一个事实,或是一种可能还是不可能的情形,是自然语言处理中一个重要的语义任务。目前,大多数关于事件可信度分析的方法都集中在句子级,很少涉及篇章级。该文基于卷积神经网络,结合篇章中的句子级特征(包括句子的语义、语法以及线索词特征表示),使用对抗训练来识别篇章可信度。在中英文数据集上的结果显示,该文方法与最新的实验结果相比,微平均F1值分别提高了3.51%和6.02%,宏平均F1值分别提升了4.63%和9.97%。同时,该方法在训练速度上也提高了4倍。  相似文献   

3.
该文归纳了问句形式在问句语料筛选中的作用,探索了问句分类必需的形式特征,同时通过人工标注建设了中文问句分类语料库,并在此基础上进行了基于规则和统计的分类实验,通过多轮实验迭代优化特征组合形成特征规则集,为当前问答提供形式上的分类基础。实验中,基于优化特征规则集的有限状态自动机可实现宏平均F1值为0.94;统计机器学习中随机森林模型的分类效果较好,F1值宏平均达到0.98。  相似文献   

4.
法律文书命名实体识别是智慧司法领域的关键性和基础性任务。在目前法律文书命名实体识别方法中,存在实体定义与司法业务结合不紧密、传统词向量无法解决一词多义等问题。针对以上问题,该文提出一种新的法律文本命名实体定义方案,构建了基于起诉意见书的法律文本命名实体语料集LegalCorpus;提出一种基于BERT-ON-LSTM-CRF(Bidirectional Encoder Representations from Transformers-Ordered Neuron-Long Short Term Memory Networks-Conditional Random Field)的法律文书命名实体识别方法,该方法首先利用预训练语言模型BERT根据字的上下文动态生成语义向量作为模型输入,然后运用ON-LSTM对输入进行序列和层级建模以提取文本特征,最后利用CRF获取最优标记序列。在LegalCorpus上进行实验,该文提出的方法F1值达到86.09%,相比基线模型lattice LSTM F1值提升了7.8%。实验结果表明,该方法可以有效对法律文书的命名实体进行识别。  相似文献   

5.
古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求。该文提出了一种基于深层语言模型(BERT)的古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型。在诗、词和古文三种文体上,模型断句F1值分别达到99%、95%和92%以上。在表达较为灵活的词和古文文体上,模型较之传统双向循环神经网络方法的F1值提升幅度达到10%以上。实验数据显示,模型能较好地捕捉诗词表达的节奏感和韵律感,也能充分利用上下文信息,实现语序、语法、语义、语境等信息的编码。在进一步的案例应用中,该方法在已出版古籍的断句疑难误例上也取得了较好的效果。  相似文献   

6.
语言优美是学生写作能力中重要的一部分。该文提出一个面向作文自动评分的作文优美句识别任务,主要识别中学生中文作文中的优美句。相比传统文本分类任务,优美句识别更加难以用特征工程的方式解决。因此,该文提出一种基于卷积神经网络(CNN)和双向长短时记忆(BiLSTM)网络的混合神经网络结构进行优美句识别,并和CNN、BiLSTM网络进行了对比。实验证明,混合神经网络的准确率最高,达到89.23%,F1值与BiLSTM相当,达到75.39%。此外,该文将优美句子特征用于作文自动评分任务,可使计算机评分和人工评分的大分差比例下降21.41%。  相似文献   

7.
复句的关系识别是对分句间语义关系的甄别,是复句语义分析的关键,旨在从文本中识别句间的关系类型。非充盈态汉语复句存在隐式关系的特点给语义关系识别造成了困难。为了深度挖掘复句中隐含的语义信息,正确地实现关系分类,该文提出了一种基于句内注意力机制的多路CNN网络结构Inatt-MCNN。其中句内注意力机制模型是基于Bi-LSTM的,使其能够学习到句子的双向语义特征以及分句间的关联特征。同时,为了充分利用文本特征,联合使用卷积神经网络(CNN)对复句表示再次建模获得句子局部特征。与其他基于汉语复句语料库(CCCS)和清华汉语树库(TCT)的实验结果相比,该文方法的宏平均F1值为85.61%,提升约6.08%,平均召回率为84.87%,提升约3.05%。  相似文献   

8.
受限于标注语料的领域和规模以及类别不均衡,中文人名识别性能偏低。相比人名识别训练语料,人名词典获取较为容易,利用词典提升人名识别性能有待进一步研究。该文提取人名词典特征,融入到双向长短期记忆(Bi-LSTM)网络模型中,在损失函数中提高人名标签权重,设计加权条件随机场(WCRF)。从人名词典中获取姓和名相关的特征信息,Bi-LSTM网络捕获句子中上下文信息,WCRF提高人名识别的召回率。在《人民日报》语料和工程法律领域语料上进行实验,结果表明: 在领域测试语料上,与基于隐马尔可夫模型的方法相比,人名识别的F1值提高18.34%,与传统Bi-LSTM-CRF模型相比,召回率提高15.53%,F1提高8.83%。WCRF还可以应用到其他类别不均衡的序列标注或分类问题中。  相似文献   

9.
为了解决命名实体识别任务在面向新兴应用领域时,需要面对烦琐的模型重构过程和语料严重不足的问题,该文提出了一种基于注意力机制的领域自适应命名实体识别方法。首先,在通用领域数据集上构建了基于BERT(bidirectional encoder representations from transformers)预训练语言模型的双向长短时记忆条件随机场(BERT-BiLSTM-CRF)命名实体识别模型;接着,在古代汉语语料集上对原有模型进行微调的同时插入了基于注意力机制的自适应神经网络层;最后,在目标域内应用迁移学习方法训练模型进行对比实验。实验结果表明,自适应迁移学习方法减少了对目标域语料的依赖。该文提出的基于注意力机制的自适应神经网络模型相比通用域BERT-BiLSTM-CRF模型的命名实体识别结果F1值提高了4.31%,相比古代汉语域BERT-BiLSTM-CRF模型的命名实体识别结果F1值提高了2.46%,实验表明,该文方法能够提升源域模型迁移学习的效果,并完成跨领域命名实体识别模型的构建。  相似文献   

10.
司法舆情敏感信息识别主要是从海量网络文本中识别出与司法领域相关的敏感舆情。当前,面向司法舆情敏感信息识别的研究较少,相比通用领域的敏感信息识别任务,司法舆情敏感信息具有描述不规范、冗余信息多以及领域词汇过多等特点,这使得通用模型并不适用该任务。为此,该文提出融入领域术语词典的司法舆情敏感信息识别模型。首先使用双向循环神经网络和多头注意力机制对舆情文本进行编码,得到具有权重信息的文本表示;其次将领域术语词典作为分类的指导知识,与舆情文本表征构建相似矩阵,得到融入领域术语词典的司法敏感文本表征;然后利用卷积神经网络对其进行局部信息编码,再利用多头注意力机制获取具有敏感权重的局部特征;最后实现司法领域敏感信息识别。实验结果表明,相比Bi-LSTM Attention基线模型,F1值提升了8%。  相似文献   

11.
情感多分类标注对文本信息的敏感性远高于二分类问题。为了有效利用语义依赖距离和语义多层次进行情感多分类,提出一种多窗口多池化层的卷积神经网络模型。首先使用多窗口的卷积层提取上下文局部语义,然后通过多池化层降低特征维度,同时保留不同层次的语义,由多层次语义构成文本特征向量,最后送入全连接层完成多分类标注。采用斯坦福情感树库数据集验证所提模型的多分类标注效果。实验结果表明,在训练集含短语和未包含短语两种设定下,模型的短文本情感多分类正确率分别达到54.6%和43.5%。  相似文献   

12.
随着大数据技术的快速发展,多标签文本分类在司法领域也催生出诸多应用.在法律文本中通常存在多个要素标签,标签之间往往具有相互依赖性或相关性,准确识别这些标签需要多标签分类方法的支持.因此,文中提出融合标签关系的法律文本多标签分类方法.方法构建标签的共现矩阵,利用图卷积网络捕捉标签之间的依赖关系,并结合标签注意力机制,计算法律文本和标签每个词的相关程度,得到特定标签的法律文本语义表示.最后,融合标签图构建的依赖关系和特定标签的法律文本语义表示,对文本进行综合表示,实现文本的多标签分类.在法律数据集上的实验表明,文中方法获得较好的分类精度和稳定性.  相似文献   

13.
传统的多标签文本分类算法在挖掘标签的关联信息和提取文本与标签之间的判别信息过程中存在不足,由此提出一种基于标签组合的预训练模型与多粒度融合注意力的多标签文本分类算法。通过标签组合的预训练模型训练得到具有标签关联性的文本编码器,使用门控融合策略融合预训练语言模型和词向量得到词嵌入表示,送入预训练编码器中生成基于标签语义的文本表征。通过自注意力和多层空洞卷积增强的标签注意力分别得到全局信息和细粒度语义信息,自适应融合后输入到多层感知机进行多标签预测。在特定威胁识别数据集和两个通用多标签文本分类数据集上的实验结果表明,提出的方法在能够有效捕捉标签与文本之间的关联信息,并在F1值、汉明损失和召回率上均取得了明显提升。  相似文献   

14.
近年来,情感计算已经成为自然语言处理与人工智能领域的一个研究热点,而文本情感分析是情感计算的一个重要组成部分.提出了一个基于主题特征与三支决策理论相融合的多标记情感分类方法.首先采用基于主题的情感识别模型判断句子的多标记情感类别,在此基础上结合三支决策理论,最终实现对文本篇章的多标记情感分类.实验结果表明,该方法在文本篇章的多标记情感类别识别上取得了令人满意的结果.  相似文献   

15.
李华  李德玉  王素格  张晶 《计算机应用》2015,35(7):1939-1944
针对多标记数据特征提取方法中输出核函数没有准确刻画标记间的相关性的问题,在充分度量标记间相关性的基础上,提出了两种新的输出核函数构造方法。第一种方法首先将多标记数据转化为单标记数据,并使用标记集合来刻画标记间的相关性;然后从损失函数的角度出发定义新的输出核函数。第二种方法是利用互信息来度量标记间的两两相关性,在此基础上进一步构造新的输出核函数。3个多标记数据集上2种分类器的实验结果表明,与原有核函数对应的多标记特征提取方法相比,基于损失函数的输出核函数对应的特征提取方法性能最好,5个评价指标的性能平均提高了10%左右, 尤其在Yeast数据集上,Coverage指标下降幅度达到了30%左右;基于互信息的输出核函数次之,性能平均提高了5%左右。实验结果表明,基于新的输出核函数的特征提取方法能够更加有效地提取特征,并进一步简化分类器的学习过程,提高分类器的泛化性能。  相似文献   

16.
在多标记分类中,某个标记可能只由其自身的某些特有属性决定,这些特定属性称之为类属属性.利用类属属性进行多标记分类,可以有效避免某些无用特征影响构建分类模型的性能.然而类属属性算法仅从标记角度去提取重要特征,而忽略了从特征角度去提取重要标记.事实上,如果能从特征角度提前关注某些标记,更容易获取这些标记的特有属性.基于此,提出了一种新型类属属性学习的多标记分类算法,将从特征层面提取重要标记与从标记层面提取重要特征进行双向联合学习.首先,为了保证模型求解速度与精度都较为合理,采用极限学习机构建学习模型.随后,将弹性网络正则化理论添加到极限学习机损失函数中,使用互信息构建特征标记相关性矩阵作为L 2正则化项,而L 1正则化项即提取类属属性.该学习模型改进了类属属性在多标记学习中的不足,通过在标准多标记数据集上与多个先进算法对比,实验结果表明了所提模型的合理性和有效性.  相似文献   

17.
目前,对新闻情感分类问题的研究大部分是从新闻作者的角度进行的,而对读者反馈的真实情感分析的较少.本文从读者角度入手进行情感分析研究.提出一种基于补全矩阵的多标签相关性情感分类模型,采用LDA提取主题表示新闻文本,然后通过使用标签相关性矩阵对原始的标签矩阵进行补全,构造了一个增强的补全标签矩阵模型(CM-LDA).最后通过和原始矩阵的LDA模型进行比较,该模型使最终的多标签分类性能有了明显的提高,准确率达到了85.72%.  相似文献   

18.
情感分类对推荐系统、自动问答、阅读理解等下游应用具有重要应用价值,是自然语言处理领域的重要研究方向。情感分类任务直接依赖于上下文,包括全局和局部信息,而现有的神经网络模型无法同时捕获上下文局部信息和全局信息。文中针对单标记和多标记情感分类任务,提出一种循环卷积注意力模型(LSTM-CNN-ATT,LCA)。该模型利用注意力机制融合卷积神经网络(Convolutional Neural Network,CNN)的局部信息提取能力和循环神经网络(Recurrent Neural Network,RNN)的全局信息提取能力,包括词嵌入层、上下文表示层、卷积层和注意力层。对于多标记情感分类任务,在注意力层上附加主题信息,进一步指导多标记情感倾向的精确提取。在两个单标记数据集上的F1指标达到82.1%,与前沿单标记模型相当;在两个多标记数据集上,小数据集实验结果接近基准模型,大数据集上的F1指标达到78.38%,超过前沿模型,表明LCA模型具有较高的稳定性和较强的通用性。  相似文献   

19.
图像在日常生活中广泛存在,图像分类具有重要的现实意义。针对当前多标签图像分类中因神经网络模型复杂以及提取到的图像特征信息不足而导致分类准确率较低、计算复杂度高等问题,提出一种融合卷积神经网络与交互特征的多标签分类方法,即MLCNN-IF模型。MLCNN-IF模型主要分成2步,首先参考传统CNN基本结构搭建一个仅有9层的轻量级神经网络(MLCNN),用于处理图像数据并提取特征;其次基于MLCNN提取的特征,通过交互特征方法产生各独立特征的组合特征,以此获得新的更丰富的特征集。实验结果表明,MLCNN-IF模型对比AlexNet、GoogLeNet和VGG16在4种多标签图像数据集上取得了更好的分类结果,其准确率和精准率分别平均提高9%和4.8%;同时MLCNN网络结构相对更简洁,有效降低了模型参数量和时间复杂度。  相似文献   

20.
基于联合概率的多标签分类算法   总被引:1,自引:0,他引:1  
何朋  周丽娟 《计算机应用》2015,35(3):659-662
针对多标签k邻域(ML-kNN)算法忽略了多个标签间可能存在的相关性的问题,提出了一种基于联合概率的RML-kNN多标签分类算法。首先,在样本空间遍历求得每个标签的先验概率;其次,根据样本k邻域内某个标签的概率分布计算在该标签取值的条件下样本k邻域内有m个该标签出现的条件概率;然后,提出使用多个标签在k邻域的联合概率分布作为多标签分类模型的方法,并在样本空间进行计算;最后,以最大化后验概率的方法推导出RML-kNN多标签分类模型。理论分析和实验论证表明,在SubSet Accuracy上最高达到0.9612,相比ML-kNN最多有2.25%的提升;在Hamming Loss上比RM-kNN有明显降低,最低达到0.0022;在Micro-FMeasure上最高可达到0.9767,相比ML-kNN最高可有2.88%的提升。实验结果表明,RML-kNN充分考虑了标签间相关性,分类效果优于ML-kNN算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号