首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
事件抽取作为信息抽取的重要一环,是非结构化文本转化为有价值的结构化文本的主要方式。针对目前事件抽取模型普遍训练时间长、模型体量大等问题,提出了一个基于ABBSAC的中文事件抽取模型。通过ALBERT预训练模型缩减模型体量,采用BiSRU++捕捉文本内部关联信息,并融合注意力机制提升模型精度,最后以CRF的输出作为抽取结果。基于新浪新闻自主构建了语料集,进行了对比实验。在获得较高准确率、召回率以及F1值的基础上,该模型训练速度提高了约10%,模型参数量裁剪了约82%,证明了所提模型的先进性。同时,在ACE05和DUEE基准测评数据集上,与前沿方法相比较,将触发词抽取的F1值分别提升了1.7%、0.3%,将论元角色抽取的F1值分别提升了5.4%、0.1%,有效提升了中文事件抽取任务的效能。  相似文献   

2.
王亚珅  黄河燕  冯冲  刘全超 《电子学报》2016,44(10):2459-2465
随着社交媒体的发展及成熟,每天在互联网环境中都会产生大量的用户评论信息。抽取评价短语、评价对象和观点持有者等情感要素,已经成为了中文观点挖掘和情感分析的重要先决任务。针对中文情感要素抽取任务,本文提出了一个统计和规则相结合的级联模型,主要贡献包括:(1)针对汽车领域评论信息,构建情感要素标注语料库和相关词典;(2)对于以往研究较少关注的中文评价短语,本文详细分析阐述其定义和分类;(3)结合统计和规则,分别针对评价短语和情感要素提出级联抽取策略。实验结果充分证明了该级联模型的有效性,相比较于其它基于规则的情感要素抽取算法有效提升了召回率,同时为后续社交媒体情感分析任务提供了有力的支持。  相似文献   

3.
搜索引擎已经成为Internet上非常有用的信息检索工具,而查询关键词的质量则是影响搜索效果的最重要的因素之一。相关词推荐技术可以通过向用户提供高质量的查询词,帮助用户缩小查询范围,提高搜索结果的查准率。文章提出一种新的基于概念抽取的相关词推荐模型,该模型克服了传统相关词推荐模型的一些不足,提供精确度更高的相关词作为二次搜索关键词,使信息搜索达到更好的效果。  相似文献   

4.
基于隐马尔可夫模型的中文文本事件信息抽取   总被引:2,自引:2,他引:2  
提出了一种基于隐马尔可夫模型的中文文本事件抽取方法,该方法首先通过触发词探测从文本中发现特定的候选事件语句,然后利用隐马尔可夫模型从这些语句中抽取每个候选事件的事件要素,为每一类事件要素构建一个独立的隐马尔可夫模型用于该类事件要素的抽取,构建模型的关键是模型结构的学习和参数估计。实验结果表明,该方法能较好地实现中文文本事件抽取,较其他方法有更好的抽取性能。  相似文献   

5.
基于特征组合的中文实体关系抽取   总被引:2,自引:0,他引:2  
结合中文关系抽取的要求,以ACE2005的中文语料为数据进行关系抽取实验.在抽取中文词法、实体、句法,语法基本特征后,提出采用特征组合方法,使用支持向量机的机器学习(SVM)方法,在上关系探测和关系大类上F值分别提高了1.36%和3.97%,达到72.77和61.03,并分析出各部分组合特征的贡献.实验数据表明词语和实体组合特征对中文关系抽取的作用较大.  相似文献   

6.
7.
在K.S.Chen et al.(2003)和M.T.Chao et al.(2005)研究理论的基础上,改变他们使用的单变量工序能力指数表达式,建立了基于成品率的多变量工序能力指数计算模型。该模型不要求工序的单个质量特性数据分布必须满足正态分布,并在一定程度上简化了计算过程,其理论基础对应用人员更容易被理解。同时,指出并改正当前对工序能力指数和成品率关系的错误应用,最后给出该多变量工序能力指数的应用分析。  相似文献   

8.
实体关系抽取能够从文本中提取事实三元组信息,这对于构建大规模的知识图谱是十分重要的。在现有的研究中,通常以先进行实体识别,而后进行关系分类或者进行统一标注的方式来完成这一任务,虽然这些方法能够使关系抽取任务变得更易实现,并且模型的网络框架灵活性更高,但是也存在误差积累和暴露误差等问题,且对于关系抽取中的关系重叠和实体嵌套等重难点问题不能够很好的处理。为了解决上述存在的问题,文章构建一种基于深度学习的中文实体关系联合抽取模型。该模型由基于评分的分类器和特定关系的角标记策略以及分区过滤网络构成,首先通过分区过滤网络,将输入的文本划分成三个分区,实体分区和关系分区以及共享分区,能够确保实体识别任务和关系抽取任务进行更好的双向交互;接着应用特定关系的角标记策略来解码实体信息,最后通过一个基于评分的分类器来输出事实关系三元组。实验表明,提出的方法能够改善传统方法带来的误差积累和交互缺失以及实体冗余等问题,提高了三元组抽取的准确率。  相似文献   

9.
当前的关系识别任务多采用基于词或字粒度单一特征进行,忽略了全局信息对于关系识别的重要性,而且现代汉语具有词类和句法成分关系复杂的特点,这使得特征选择成为中文文本处理中的重点与难点。文中所用多特征多注意力模型除事件自身特征外,充分地考虑到位置、事件要素和上下文三类额外特征,利用全局信息以解决模型特征矩阵语义表征不足的问题。该模型结合双向注意力机制、点积注意力机制和双向门控循环神经网络进行事件关系识别,结合注意力机制的神经网络模型来较好地提取文本中的深层语义信息。其中双向注意力从特征矩阵两个方向提取事件自身有效信息,点积注意力提取事件之间的对应关系,双向门控循环神经网络提取矩阵中的上下文特征。在CEC2.0中文突发事件语料库上的实验结果表明,文中方法以及所用模型均有较好的识别效果。  相似文献   

10.
针对单载体的信息隐藏算法的嵌入容量、不可见性和鲁棒性受载体数量限制无法进一步提升的问题,将载体体素化和秘密信息的嵌入结合三维模型凹凸结构特征,提出了一种基于三维模型凹凸结构特征的多载体信息隐藏算法。首先,对三维模型进行体素化,并根据体素化后获得的数据集提取三维模型的凹凸结构特征对载体库进行分类,转换得到凹凸度区间后对其编码;其次,根据载体分类数对秘密信息分段并进行置乱和优化,使载体和秘密信息的嵌入通过其分类及分段数有效地联系起来,分别通过凹凸度区间和体素化坐标点的编码数据双重嵌入秘密信息,进一步提升算法性能;最后,应用遗传算法对秘密信息进行最优调整后完成信息隐藏。实验表明,与基于单载体的高容量三维模型隐写算法相比,算法的不可见性、鲁棒性和容量性都有明显提升。  相似文献   

11.
随着信息技术的飞速发展,计算机已经融入到社会各个领域,网上提供的信息日益增多,其开放性日益增强,网络已经成为人们获取信息和自由交流信息的一个重要的途径。但由于网上信息没有统一的结构和管理,因此许多不健康甚至恶意的内容被引入。这些敏感信息,成为用户获得有效信息的障碍。文中将自然语言理解和Web数据挖掘技术相结合研究并设计了网上监控系统,该系统能有效控制敏感信息在网上的传播。  相似文献   

12.
樊汉超 《电子科技》2013,26(4):153-154,157
文字输入处理软件根据需要来设计并不断更新。作为输入编码的后处理部分,识别和选定输入的重码字符、词组,缩短平均码长,推进编码快捷化和规范化是输入软件智能化的目标。文中综述了基于理解的智能输入、基于语用统计的智能输入、基于模板匹配的智能输入和基于上下文关联的智能输入等4种类型的汉字键盘输入智能处理软件的原理、优点和亟待解决的问题。  相似文献   

13.
邵泽国 《电子科技》2013,26(5):166-168,171
使计算机具有人的语言能力,这一愿望驱使语言科学与计算机科学相结合,继而产生了一门新的交叉学科。在不同的学科视角下对这一新学科有不同的定义和命名。文中从语言科学的视角观察这一新学科--自然语言处理,解析了自然语言处理的概念,介绍了自然语言处理的发展历程以及现状,着重讨论了自然语言处理的意义及方法。  相似文献   

14.
基于项权值排序挖掘的跨语言查询扩展   总被引:1,自引:0,他引:1  
黄名选  蒋曹清 《电子学报》2020,48(3):568-576
为了改善自然语言处理应用中长期存在的主题漂移和词不匹配问题,本文首先提出一种加权项集支持度计算方法和基于项权值排序的剪枝方法,给出面向查询扩展的基于项权值排序的加权关联规则挖掘算法,讨论关联规则混合扩展、后件扩展和前件扩展模型,最后提出基于项权值排序挖掘的跨语言查询扩展算法.该算法采用新的支持度和剪枝策略挖掘加权关联规则,根据扩展模型从规则中提取高质量扩展词实现跨语言查询扩展.实验结果表明,与现有基于加权关联规则挖掘的跨语言扩展算法比较,本文扩展算法能有效遏制查询主题漂移和词不匹配问题,可用于各种语言的信息检索以改善检索性能,扩展模型中后件扩展获得最优检索性能,混合扩展的检索性能不如后件扩展和前件扩展,支持度对后件扩展更有效,置信度更有利于提升前件扩展和混合扩展的检索性能.本文挖掘方法可用于文本挖掘、商务数据挖掘和推荐系统以提高其挖掘性能.  相似文献   

15.
虚假新闻剥夺了人们获取真相的权利,也给社会和国家带来了许多危害。文中以虚假新闻文本为例,分析和验证了多种预训练语言模型在虚假新闻文本分类上的分类效果。经实验证明,相较于其他语言模型,Bert预训练语言模型取得了较好的结果,预测准确率为86.97%,召回率为88.12%,F1值为87.54%。  相似文献   

16.
句法分析是自然语言处理的基本问题,掌握句法分析的研究方法和研究现状是进一步深入研究的基础。首先介绍短语结构语法和依存语法的特点,对比基于规则、统计和组块的句法分析方法,并对汉语句法分析的现状和原因进行研究,最后指出汉语句法分析应采用多方法、多特征或多知识源相结合才能高效地进行分析。  相似文献   

17.
汉语句法分析研究综述   总被引:2,自引:0,他引:2  
郑伟发 《信息技术》2012,(7):72-74,78
句法分析是自然语言处理的基本问题,掌握句法分析的研究方法和研究现状是进一步深入研究的基础.首先介绍短语结构语法和依存语法的特点,对比基于规则、统计和组块的句法分析方法,并对汉语句法分析的现状和原因进行研究,最后指出汉语句法分析应采用多方法、多特征或多知识源相结合才能高效地进行分析.  相似文献   

18.
随着人机交互需求的提高,视频检索、机器翻译、文本挖掘、语音识别等技术越来越广泛地被使用,而这些技术经常与自然语言处理有关,因此也有越来越多的专利申请涉及自然语言处理.该类申请在发明专利的审查中常常被认为存在客体问题.结合具体案例,对涉及自然语言处理的发明专利申请人给出建议.  相似文献   

19.
变体垃圾短信被赌博类垃圾信息广泛使用。其使用同音字替换、形近字替换绕过垃圾短信监控系统的关键字审查。本文对变体垃圾短信的特点进行了深入研究,并结合人工智能技术,提出了有效翻译变体垃圾短信技术方法,并给出了应用于现网的识别方案。实验证明,本文提出的变体垃圾短信翻译方法能够对很多敏感关键词进行完整恢复,便于监控系统对内容进行关键字审查。  相似文献   

20.
    
Qing LI  Jiang ZHONG  Lili LI  Qi LI 《通信学报》2019,40(12):41-50
In the process of knowledge service,in order to meet the fragmentation management needs of intellectualization,knowledge ability,refinement and reorganization content resources.Through deep analysis and mining of semantic hidden knowledge,technology,experience,and information,it broke through the existing bottleneck of traditional semantic parsing technology from Text-to-SQL.The PT-Sem2SQL based on the pre-training mechanism was proposed.The MT-DNN pre-training model mechanism combining Kullback-Leibler technology was designed to enhance the depth of context semantic understanding.A proprietary enhancement module was designed that captured the location of contextual semantic information within the sentence.Optimize the execution process of the generated model by the self-correcting method to solve the error output during decoding.The experimental results show that PT-Sem2SQL can effectively improve the parsing performance of complex semantics,and its accuracy is better than related work.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号