首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
王勇超 《计算机应用研究》2021,38(4):1004-1007,1021
针对现有实体和关系联合抽取方法中存在的实体与关系依赖建模不足、实体发生重叠难以抽取其所涉及的多个关系的问题,设计了基于深度学习的联合抽取框架。首先针对依赖建模不足问题,从预训练语料中提取实体共现特征,建模了实体间的潜在语义关系和实体与关系之间的依赖关系。其次提出了新颖的指针标注方法,该标注方法可以通过指针表示关系类别,由于任一实体可以被多个指针指向,所以可以在一段文本中标注重叠的实体并抽取多个实体—关系三元组结果。最后,为了有效利用单词的丰富语义和指针之间依赖的信息,设计了一个标签感知注意力机制,融合了包括来自编码层的字词信息、相关的共现语义信息。与研究中前沿的联合提取方法相比,该方法在百度DuIE测试集上实现了F1值的增加。通过实验结果表明指针标注方法在一定程度上可以解决实体重叠问题。  相似文献   

2.
属性抽取可分为对齐和语义标注两个过程,现有对齐方法中部分含有相同标签不同语义的属性会错分到同一个组,而且为了提高语义标注的精度,通常需要大量的人工标注训练集.为此,文中提出结合主动学习的多记录网页属性抽取方法.针对属性错分问题,引入属性的浅层语义,减少相同标签语义不一致的影响.在语义标注阶段,基于网页的文本、视觉和全局特征,采用基于主动学习的SVM分类方法获得带有语义的结构化数据.同时在主动学习的策略选择方面,通过引入样本整体信息,构建基于不确定性度量的策略,选择语义分类预测不准的样本进行标注.实验表明,在论坛、微博等多个数据集上,相比现有方法,文中方法抽取效果更好.  相似文献   

3.
为了解决中文本体非分类关系抽取问题,提出了基于语义依存分析的非分类关系抽取方法.利用语义角色标注和依存语法分析思想,分析得到了文本句子的语义依存结构,提取其中具有语义依存关系的动词框架,通过计算语义相似度,发现了动词框架中概念间的非分类关系和关系名称.实验结果表明该方法能够有效地实现非分类关系的抽取和关系的语义标注.  相似文献   

4.
中医医案数据库的数据基础研究   总被引:2,自引:0,他引:2       下载免费PDF全文
探讨了中医医案数据库的构建,寻找对医案数据库进行规范化数据处理的可行性方法。针对医案文献数量巨大,收录散杂的问题,提出了对历代医案进行整理,建立数据库的方法。并且,针对词性标注容易引起语义缺失的问题,提出了以语义标注作为医案信息抽取规则的方案。通过研究,表明基于语义标注的医案信息抽取方式有一定的可行性和适用性。  相似文献   

5.
远程监督关系抽取作为关系抽取中常用的方法之一,其目的是通过远程监督自动构建大量数据进行文本的关系抽取,因此该项技术对降低人工标注数据成本从而提取更多文本信息有重要研究意义.针对传统的手工特征方法难以解决关系抽取的复杂语义问题,提出了大量基于深度学习的关系抽取方法,极大地推动了远程监督关系抽取的发展.为了进一步了解利用深度学习的方法处理远程监督关系抽取的问题,首先介绍了远程监督关系抽取的相关理论;然后从数据处理的角度分别对错误标注、长尾类数据和关系重叠这三类问题的处理方法进行了阐述,并对相关算法的特点进行分析;最后总结和提出了远程监督关系抽取的未来发展趋势.  相似文献   

6.
基于语义角色和概念图的信息抽取模型   总被引:3,自引:0,他引:3  
杨选选  张蕾 《计算机应用》2010,30(2):411-414
传统的信息抽取方法由于缺少语义信息的支持,抽取的准确率不高。针对这个问题提出了一种基于语义理解的信息抽取方法。一方面,把语义角色标注的浅层语义信息转换成概念图,无歧义地将抽取信息所包含的基本语义形式化;另一方面,通过概念图的相似度计算区分场景,并使用语义角色获取抽取模式,以提高抽取质量。实验结果表明,该方法取得了较好的效果。  相似文献   

7.
关系抽取任务是对句子中的实体对进行关系分类。基于远程监督的关系抽取是用预先构建的知识库来对齐朴素文本,自动标注数据,在一定程度上减少了人工标注的成本,缓解了藏文材料语料不足的问题。但是基于远程监督的实体关系抽取还存在错误标记、提取特征时出现噪声等问题。该文用远程监督方法进行藏文实体关系抽取,基于已经构建的藏文知识库,利用分段卷积神经网络结构,加入语言模型和注意力机制来改善语义歧义问题以及学习句子的信息;在训练过程中加入联合得分函数来动态修正错误标签问题。实验结果表明改进的模型有效提高了藏文实体关系抽取的准确率,且优于基线模型效果。  相似文献   

8.
基于本体集成的语义标注模型设计   总被引:1,自引:0,他引:1  
语义Web的全面实现需借助于语义标注,标注网页信息会涉及到多个本体.据此,通过研究桥本体,提出一个在本体集成的基础上建立起来的多本体语义标注模型.该模型利用桥本体集成顶层本体和多个领域本体,同时借助基于本体的信息抽取技术对网页进行语义标注,并将标注信息存入标注库,使标注信息与网页分离,提高语义检索的效率.通过举例说明了本模型的合理性.  相似文献   

9.
陈肖宇  王伟 《计算机应用》2022,42(8):2386-2393
针对科技领域文档语义信息获取不充分的问题,提出一套基于规则的数学领域相关文本的语义抽取方法。首先从文本中提取领域概念并实现数学实体与领域概念之间的语义映射;然后对数学符号的上下文进行分析,获取数学符号的实体指代或文字描述,进而抽取其语义;最后基于已抽取的数学符号语义实现表达式的语义分析。以线性代数文本为研究实例,构建了一个语义标注数据集并进行实验,实验结果表明所提方法对标识符、线性代数实体以及表达式的语义抽取具有93%以上的精确率和91%以上的召回率。  相似文献   

10.
文本信息抽取是处理海量文本数据的手段,事件信息抽取是其中最具挑战性的任务之一.提出了一种基于条件随机场的语义角色标注方法,该方法以浅层句法分析为基础,把短语或命名实体作为标注的基本单元,将条件随机场用于句子中谓词的语义角色标注.应用该方法对"职务变动"和"会见"两类事件的事件要素及其语义角色进行标注,在各自的测试集上分别获得了77.3%和74.2%的综合指标F值.  相似文献   

11.
李雄  丁治明  苏醒  郭黎敏 《计算机科学》2018,45(Z11):417-421, 438
本研究主要解决在大量文本数据中 抽取 关键语义信息的问题。文本是自然语言的信息载体,在分析和处理文本信息时,由于目标与方式不同,对文本信息的特征表达方式也各不相同。已有的语义抽取方法往往是针对单篇文本的,忽略了不同文本间的语义联系。为此,文中提出了基于词项聚类的文本语义标签提取方法。该方法以语义抽取为目标,以Hinton的分布式表示假说为文本信息的表达方式,并以最大化语义标签与原文本数据间的语义相似度为目标,使用聚类算法对语义标签进行聚类。实验表明,所提方法由于是基于全体词汇表对语义信息分布进行聚类计算的,因此在语义丰富度和表达能力上相比很多现有方法具有更好的表现。  相似文献   

12.
A novel approach is introduced in this paper for the implementation of a question–answering based tool for the extraction of information and knowledge from texts. This effort resulted in the computer implementation of a system answering bilingual questions directly from a text using Natural Language Processing. The system uses domain knowledge concerning categories of actions and implicit semantic relations. The present state of the art in information extraction is based on the template approach which relies on a predefined user model. The model guides the extraction of information and the instantiation of a template that is similar to a frame or set of attribute value pairs as the result of the extraction process. Our question–answering based approach aims to create flexible information extraction tools accepting natural language questions and generating answers that contain information extracted from text either directly or after applying deductive inference. Our approach also addresses the problem of implicit semantic relations occurring either in the questions or in the texts from which information is extracted. These relations are made explicit with the use of domain knowledge. Examples of application of our methods are presented in this paper concerning four domains of quite different nature. These domains are: oceanography, medical physiology, aspirin pharmacology and ancient Greek law. Questions are expressed both in Greek and English. Another important point of our method is to process text directly avoiding any kind of formal representation when inference is required for the extraction of facts not mentioned explicitly in the text. This idea of using text as knowledge base was first presented in Kontos [7] and further elaborated in [9,11,12] as the ARISTA method. This is a new method for knowledge acquisition from texts that is based on using natural language itself for knowledge representation.  相似文献   

13.
基于事件框架的信息抽取系统   总被引:8,自引:2,他引:8  
信息抽取技术能够提供高质量的检索服务。本文提出一种基于框架的信息抽取模式并建立统一的灾难性事件框架,利用框架的继承-归纳特性简化系统实现过程,概括事件信息,并提出按时间流顺序的线索性文件抽取的输出方式。本文使用这种方法建立了一个灾难性事件信息抽取系统。实验证明本文中的方法是有效的。  相似文献   

14.
手机短信3D动画自动生成系统是根据发送方短信的内容, 经过信息抽取、语义分析等一系列步骤, 最终生成一段与短信内容匹配的三维动画并发送给接收方. 信息抽取处于手机3D动画自动生成系统首要和关键的位置, 其目的是为3D动画自动生成系统的后续环节提供可动画的信息. 本文引入路径特征实现中文短信文本的关系抽取. 利用哈尔滨工业大学LTP-Cloud平台对短信进行预处理, 从处理结果中提取路径并泛化得到路径特征, 通过一阶归纳学习器组合特征, 得到匹配规则, 然后再通过匹配到的规则对短信进行预测, 从而抽取出短信中的关系类型及对应的关系组合.  相似文献   

15.
在利用本体进行信息抽取的基础上,提出了一个基于个人信息领域的语义信息抽取系统框架,将语义抽取从WEB领域扩展到个人信息领域;系统对个人信息领域内的网页,电子邮件,本地数据库和本地文件夹建立本体,根据本体之间的语义关联,实现个人信息领域内数据的交流。系统详细描述了语义信息抽取系统的实现过程,并以电子邮件为例重点介绍了语义信息抽取的算法。  相似文献   

16.
Learning Information Extraction Rules for Semi-Structured and Free Text   总被引:47,自引:0,他引:47  
Soderland  Stephen 《Machine Learning》1999,34(1-3):233-272
A wealth of on-line text information can be made available to automatic processing by information extraction (IE) systems. Each IE application needs a separate set of rules tuned to the domain and writing style. WHISK helps to overcome this knowledge-engineering bottleneck by learning text extraction rules automatically.WHISK is designed to handle text styles ranging from highly structured to free text, including text that is neither rigidly formatted nor composed of grammatical sentences. Such semi-structured text has largely been beyond the scope of previous systems. When used in conjunction with a syntactic analyzer and semantic tagging, WHISK can also handle extraction from free text such as news stories.  相似文献   

17.
俞璜悦  王晗  郭梦婷 《计算机应用》2017,37(11):3139-3144
目前,视频关键信息提取技术主要集中于根据视频低层特征进行关键帧的提取,忽略了与用户兴趣相关的语义信息。对视频进行语义建模需收集大量已标注的视频训练样本,费时费力。为缓解这一问题,使用大量互联网图像数据构建基于用户兴趣的语义模型,这些图像数据内容丰富、同时涵盖大量事件信息;然而,从互联网获取的图像知识多样且常伴随图像噪声,使用蛮力迁移将大幅影响视频最终提取效果,提出使用近义词联合权重模型衡量互联网中存在差异但语义相近的图像组,并利用这些图像组构建语义模型。通过联合权重学习获取语义权重,每一图像组在知识迁移中所起的作用由权重值决定。使用来自不同视频网站的多段视频对所提方法进行验证,实验结果表明对用户感兴趣的内容进行联合权重语义建模能更加全面、准确地获取信息,从而有效指导视频关键帧提取。  相似文献   

18.
冯礼  李芳  盛焕烨 《计算机工程》2009,35(3):45-47,4
在基于事件框架的新闻信息抽取中,针对事件侧面被框架结构所限定的问题,提出一种事件新侧面探测方法,并定义事件新侧面的2种类型。通过去除已有的侧面内容,实现LSA聚类探测,同时在文本特征选取部分采用词对特征模型,以充分利用有限文本中的语法信息。在原型系统中对该方法进行测试,实验结果表明,该方法是有效的。  相似文献   

19.
随着数据挖掘应用的深入,非结构化和半结构化数据的挖掘,将成为下一个数据挖掘应用的热点。文本挖掘是一种典型的非结构化数据挖掘,而Web挖掘则是典型的半结构化数据挖掘。所以将信息处理技术中的汉语分词、信息抽取、语义分析等技术应用到Web挖掘研究技术是必然的发展趋势。本文根据Web挖掘的特点,运用数据抽取进行数据结构转换并把语义分析技术应用到数据抽取的过程中的思想,以便使数据提取更加准确。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号