首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
事件抽取是自然语言处理的重要任务,而事件检测是事件抽取的关键步骤之一,其目标是检测事件的发生并对其进行分类。目前基于触发器识别的中文事件检测方法存在一词多义、词与触发词不匹配的问题,影响了事件检测模型的精度。针对此问题,提出基于双重注意力的无触发词事件检测模型(Event Detection Without Triggers based on Dual Attention, EDWTDA),该模型可跳过触发词识别过程,实现在无触发词标记情况下直接判断事件类型。EDWTDA利用ALBERT改善词嵌入向量的语义表示能力,缓解一词多义问题,提高模型预测能力;采用局部注意力融合事件类型捕捉句中关键语义信息并模拟隐藏的事件触发词,解决词与触发词不匹配的问题;借助全局注意力挖掘文档中的语境信息,解决一词多义问题;最后将事件检测转化成二分类任务,解决多标签问题。同时,采用Focal loss损失函数解决转化成二分类后产生的样本不均衡问题。在ACE2005中文语料库上的实验结果表明,所提模型相比最佳基线模型JMCEE在精确率、召回率和F1-score评价指标上分别提高了3.40%,3.90%,3.67...  相似文献   

2.
当前广为研究的在单个句子范围内的事件抽取方法,难以扩展到从分布在一篇文章里的多个句子中抽取同一事件的完整论元.对此,提出了一种基于深度学习的文档级事件抽取联合模型.首先,利用基于多头自注意力机制的实体识别模块逐句识别文档中的实体并输出其类型.然后,通过定义不同论元角色对事件类型的重要度训练事件类型检测模块,实现在无触发词条件下定位事件表述中心句并判断事件类型.最后,事件论元抽取模块通过在实体语义向量中嵌入实体的类型信息和实体到事件中心句的距离信息,并输入Transformer网络与上下文交换信息,实现在文档范围内抽取全部事件论元.通过对上述三个子模块进行联合训练,进一步实现了端到端的事件抽取,避免了管道式方法的误差传递.在公开数据集上的实验结果表明:在单事件条件下,该模型取得了86.3%的F1值,优于当前最佳的文档级事件抽取方法,并且具有优秀的模型训练速度.  相似文献   

3.
现有的生物医学事件触发词检测存在以下缺陷:保留了与触发词无关的冗余信息;忽略了实体与事件之间的潜在关联性;传统方法容易受到数据稀缺性的影响。针对上述问题,提出了一种两阶段问答范式的生物医学事件触发词检测方法。在事件类型识别阶段,采用基于句法距离的注意力捕获更有意义的上下文特征,排除无关信息的干扰;为了有效利用实体中的潜在特征,采用全局统计的单词-实体-事件共现特征,指导事件类型感知注意力挖掘词与事件之间的强关联性。在触发词定位阶段,根据识别出的事件类型,制定问题回答该事件对应的触发词索引,从而利用丰富的问答数据库实现数据增强。在MLEE语料库上的结果表明,两阶段问答范式、句法距离和事件类型感知注意力都有效地提升了模型性能,所提出的模型取得了81.39%的F1分数,并在多个事件类型上的详细结果均优于其他基线模型。  相似文献   

4.
传统事件触发词抽取方法在特征提取过程中对自然语言处理工具产生过度依赖的方法,耗费大量人力,容易出现错误传播和数据稀疏性等问题。为此,提出采用CNN-BiGRU模型进行事件触发词抽取的方法。将词向量和位置向量进行拼接作为输入,提取词级别特征和句子全局特征,提高触发词抽取效果,并通过CNN提取词汇级别特征,利用BiGRU获取文本上下文语义信息。在ACE2005英文语料库和中文突发事件语料库CEC上的实验结果表明,该模型事件触发词识别F1值分别达到74.9%和79.29%,有效提升事件触发词的抽取性能。  相似文献   

5.
触发词的识别在事件检测任务中起着至关重要的作用。目前没有越南语触发词标记语料,而中文触发词标记语料较为丰富,根据表达相同观点但语言不同的句子通常有相同或相似的语义成分这一特征,该文提出一种基于中文触发词指导的越南语新闻事件检测方法。首先采用对抗学习的方法将两种语言映射到同一语义空间下,然后将映射后的中文触发词嵌入指导模型识别越南语新闻中的触发词信息,最后进行事件类型的分类。通过在越南语新闻事件检测的实验结果表明,在中文触发词指导下的越南语新闻事件检测取得了较好的效果。  相似文献   

6.
事件抽取是信息抽取的主要任务之一,而触发词抽取是事件抽取的重要子任务.事件要素与事件触发词之间存在关联信息,现有的事件触发词抽取方法主要关注事件触发词本身,没有充分的利用事件要素信息.因此,提出一种事件要素注意力与编码层融合的事件触发词抽取模型,能够有效地利用事件要素信息,提高触发词抽取性能.通过事件要素与事件触发词之间的相关性来显示利用事件要素信息,同时利用编码层的多头自注意力机制间接学习事件要素与事件触发词之间的依赖关系,并将两个方法得到的输出向量进行处理,作为特征送入到编码层中进行训练.此外,通过词特征模型获取语义信息.该方法在ACE2005英文语料上对事件触发词抽取的F值达到71.95%.  相似文献   

7.
中文事件触发词的自动抽取研究*   总被引:1,自引:0,他引:1  
随着自然语言处理领域中信息抽取技术的不断发展,越来越多的学者开始关注事件的识别和抽取研究,其中触发词的识别和抽取是事件识别和抽取的关键。针对目前中文触发词抽取结果的 F值不够理想的情况,选用中文事件语料库C EC语料作为训练语料和测试语料,提出了一种基于触发词扩展表和机器学习相结合的触发词抽取方法,实验表明,该方法抽取效果比较理想,F值可达到69.7%。  相似文献   

8.
传统利用语义和句法信息进行生物事件抽取的方法,在触发词抽取阶段句法信息运用形式单一笼统,不能有效发挥作用。为此,提出一种基于深层句法分析的触发词抽取方法。该方法采用间接的句法信息模式,利用深层句法信息独立地进行边检测,将边检测结果融合于触发词抽取中,使深层句法信息得到更有效的利用。在BioNLP2009与2011共享任务语料上进行实验,结果表明,该方法的,值达到68.8%和67.3%,具有较好的触发词抽取性能。  相似文献   

9.
张先飞  郭志刚  刘嵩  程磊  田雨暄 《计算机科学》2010,37(3):212-214220
传统方法将事件检测任务看作分类问题,将词作为实例来训练分类器,容易导致训练正反例不平衡,同时,在语料库规模较小时存在一定的数据稀疏问题。首先避开以词为实例进行分类,在事件类别判断上引入聚类思想,在事件触发词的指导下,采用自相似度对K-means聚类算法中的K值进行自收敛,优化了聚类算法。然后结合命名实体及其位置信息,对事件类别进行详细定位,很好地解决了传统事件检测对类别模板的依赖性,所检测的事件在文本摘要、检索和主题检测与追踪上得到了很好的应用。  相似文献   

10.
生物医学事件触发词识别研究   总被引:1,自引:0,他引:1  
触发词的识别是生物医学事件抽取的一个关键步骤。传统的采用字典/规则的方法过于依赖字典或规则的建立,一般的机器学习方法则需设计复杂的特征,而且大多数系统采用串行的方法会导致错误的传播。因而采用了基于神经网络的事件触发词识别和事件类型判别联合结构预测模型,既简化人工干预,又减少错误传播。实验结果表明提出的方法取得了很好的性能,为生物事件的抽取奠定了可靠的基础。  相似文献   

11.
句子级别细粒度的事件检测任务旨在对触发词进行识别与分类。针对现有事件检测方法中存在的过度平滑及缺乏依存类型信息的问题,提出了一种基于图卷积网络融合依存信息的事件检测方法。该模型首先使用双向长短期记忆网络对句子进行编码,同时根据依存分析构建多阶句法图和依存句法图;然后利用图卷积网络融合句子的依存信息,从而有效地利用多跳信息和依存标签信息。在自动文本抽取数据集上进行实验,在触发词识别和分类这两个子任务中分别取得了81.7%和78.6%的F1值。结果显示,提出的方法能更加有效地捕获句子中的事件信息,提升了事件检测的效果。  相似文献   

12.
现有的关于在线新事件检测(ONED)系统的研究更多地关注如何提高检测的准确率而很少考虑对资源的利用率,使ONED系统在实际应用中存在性能低下的问题。该文分析了传统的事件检测系统存在的性能上的缺点,并在此基础上进行了改进,在基本不降低识别正确率的基础上,通过合理设定技术参数以及对链表索引机制进行预筛选,降低了文档比较过程中的存储和计算开销。实验结果表明,改进的系统提升了检测性能。  相似文献   

13.
网络入侵检测系统中的事件分析核心技术研究   总被引:2,自引:0,他引:2  
该文针对入侵检测系统中的核心组件———事件分析引擎,在对各种事件分析技术做出分析的基础之上,设计了一种以归纳学习获得判决模型的基于规则分类判决的事件分析引擎。分析了该IDS的分类模型及算法,并以DARPA入侵检测数据为基础做相应实验,得出几个有用的结论。实验结果表明,该事件分析引擎具有很高的检测概率和很低的虚警概率。  相似文献   

14.
环境监测是无线传感器网络的典型应用,事件边界检测是其中的重要内容。文中首先建立无线传感器网络数据的时空模型,提出基于线性神经网络的事件边界检测方法。该方法利用传感器数据流的时间相关性,基于线性神经网络预测与验证数据流,并确定异常数据集合。在此基础上,根据传感器节点之间的空间相关性进行事件边界检测,不仅可识别故障节点,而且能识别事件边界节点,从而准确估算事件发生的区域位置与大小。理论分析及实验表明,文中方法在获得较高的故障节点和事件边界节点的检测准确率的同时,保持较低的误判率。  相似文献   

15.
基于新闻要素的新事件检测方法研究   总被引:1,自引:0,他引:1  
薛晓飞  张永奎  任晓东 《计算机应用》2008,28(11):2975-2977
新事件检测(NED)的目标是检测出报道一个新闻话题种子事件的第一个新闻。考虑到新闻的基本要素在新闻中的作用,采用特征加权的方式对传统的词频和倒排文档频率(TF-IDF)模型进行改进,并在新闻报道中提取出时间信息和地点信息,分别对内容相似度、时间相似度和地点相似度进行计算,并将三者结合来检测新事件。实验证明这种方法有效。  相似文献   

16.
基于多示例学习的异常行为检测方法   总被引:3,自引:0,他引:3  
在基于轨迹分析的异常行为检测方法中,被标记为异常的轨迹往往仅在整条轨迹的某个局部存在异常,轨迹的其余部分都是正常行为。然而,传统的基于整条轨迹建模的方法很难检测轨迹的局部异常。针对上述问题,提出一种在多示例学习框架下基于轨迹分段的异常行为检测方法。该方法首先根据轨迹的曲率,将轨迹分割成若干相互独立的子段。然后采用层次狄利克雷过程-隐马尔科夫模型对每个子段建模。最后在多示例学习框架下,以整条轨迹为包,正常轨迹为负包,异常轨迹为正包,轨迹子段为包的示例进行学习。通过实验验证,该方法在准确率和召回率上都优于传统的基于轨迹建模的方法。  相似文献   

17.
面向大规模数据的在线新事件检测   总被引:1,自引:0,他引:1  
通过分析基于新闻要素的在线新事件检测算法的时间消耗,提出一种面向大规模数据环境的在线新事件检测算法。该算法利用基于倒排索引的高效相似报道搜索机制,有效减少单路径聚类算法中的相似度比较次数。通过对报道预处理、报道与事件比较以及索引搜索这3个过程的并行化,提高算法在多机环境下的运行效率和可伸缩性。实验结果表明,该算法在不影响漏检率和误检率的基础上,提高了新事件检测的速度,并且在千万到亿级别的报道规模下,其吞吐量达到150条/s~200条/s。  相似文献   

18.
为快速检测图片文字中的敏感词汇,引入深度学习的方法进行文字检测和识别。对图片预处理,对连通区域进行标记;利用两层限制玻尔兹曼机(RBM)对连通区域进行文字区域的判别和选取;利用水平投影和区域生长的方法对得到的文字区域进行字符的分割;用BP神经网络算法和深信度网络(DBN)算法结合对敏感信息进行检测。敏感文字检测理论分析和实验数据表明该方法的算法复杂度低,检测速度快。  相似文献   

19.
知识图谱表示学习旨在将实体和关系映射到一个低维稠密的向量空间中。现有的大多数相关模型更注重于学习三元组的结构特征,忽略了三元组内的实体关系的语义信息特征和三元组外的实体描述信息特征,因此知识表达能力较差。针对以上问题,提出了一种融合多源信息的知识表示学习模型BAGAT。首先,结合知识图谱特征来构造三元组实体目标节点和邻居节点,并使用图注意力网络(GAT)聚合三元组结构的语义信息表示;然后,使用BERT词向量模型对实体描述信息进行嵌入表示;最后,将两种表示方法映射到同一个向量空间中进行联合知识表示学习。实验结果表明,BAGAT性能较其他模型有较大提升,在公共数据集FB15K-237链接预测任务的Hits@1与Hits@10指标上,与翻译模型TransE相比分别提升了25.9个百分点和22.0个百分点,与图神经网络模型KBGAT相比分别提升了1.8个百分点和3.5个百分点。可见,融合实体描述信息和三元组结构语义信息的多源信息表示方法可以获得更强的表示学习能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号