首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
基于合一句法和实体语义树的中文语义关系抽取   总被引:1,自引:0,他引:1  
该文提出了一种基于卷积树核函数的中文实体语义关系抽取方法,该方法通过在关系实例的结构化信息中加入实体语义信息,如实体类型、引用类型和GPE角色等,从而构造能有效捕获结构化信息和实体语义信息的合一句法和实体语义关系树,以提高中文语义关系抽取的性能。在ACE RDC 2005中文基准语料上进行的关系探测和关系抽取的实验表明,该方法能显著提高中文语义关系抽取性能,大类抽取的最佳F值达到67.0,这说明结构化句法信息和实体语义信息在中文语义关系抽取中具有互补性。  相似文献   

2.
在信息过载的背景下,如何从拥有共同主题的多篇文档中挖掘并组织核心概念及其语义连接已成为当前开放式信息抽取任务中的一项重要挑战。为此,提出了一个基于开放域抽取的多文档概念图构建模型。首先基于预定主题挖掘主题词,通过改进的TF-IDF算法对文档进行排序;然后通过共指消解、篇章权重计算、开放域抽取等一系列的方法从多篇文章中抽取出大量具有事实表达能力的三元组实例。为去除开放域方法本身的噪声以及提升信息抽取的准确率,提出一种事实过滤算法。通过该算法可有效提取置信度高且具有良好语义兼容性的显著事实知识集合,并构成多个概念子图。最后,将不同子图中等价的概念以及关系进行合并,形成一张具有主题表达能力的连通概念图。通过在signal media新闻数据集上进行验证,实验结果表明,所提出的模型能够跨文档挖掘并有效组织与特定主题相关的关键信息,形成的概念图在主题概念覆盖率、事实知识的兼容性等指标上均取得了较好的效果。除此之外,该模型对于自动文档摘要的应用也具有重要的参考价值。  相似文献   

3.
针对半结构化文本的信息抽取粒度较大,不能对抽取结果进行有效语义分析的问题,面向领域提出一种基于模式匹配的结构化信息二次抽取方法.该方法以Web文档形式呈现的半结构化文本为对象,对粗粒度抽取结果进行领域识别,根据识别结果加载相应领域词库.根据模式中各个角色的词性实现模式角色到分词序列词语的映射,从分词序列中抽取出结构化信息,为准确的语义分析提供支持.实验表明该方法能获得更准确的抽取结果.  相似文献   

4.
文本信息抽取是处理海量文本数据的手段,事件信息抽取是其中最具挑战性的任务之一.提出了一种基于条件随机场的语义角色标注方法,该方法以浅层句法分析为基础,把短语或命名实体作为标注的基本单元,将条件随机场用于句子中谓词的语义角色标注.应用该方法对"职务变动"和"会见"两类事件的事件要素及其语义角色进行标注,在各自的测试集上分别获得了77.3%和74.2%的综合指标F值.  相似文献   

5.
中文信息处理的发展迫切需要加强汉语语义理论的研究,尤其是汉语语义表示形式和语义计算的研究。针对目前汉语语义计算方法的计算结果并不准确的问题,提出了一种基于概念图的汉语语义计算方法。该方法以“知网”为语义知识资源,以概念图为知识表示方法,把自然语言文本转化为概念图,通过概念图的匹配实现语义计算,以改善语义计算的效果。实验结果表明该方法对汉语语义计算是有效的。  相似文献   

6.
作战文书关键信息抽取是实现自动标图系统的关键。现有研究多以文书处理流程设计为主,未深入分析军标用法,信息抽取不完整。为完整提取信息,提出了基于分词处理与语义角色标注(SRL)相结合的文书关键信息抽取方法,实验证明方法有效、可行。基于文中方法所设计的信息抽取系统,已在某集团军内推广、应用。  相似文献   

7.
本文针对传统搜索技术查全率和查准率不能满足用户日益增长的需求这一突出问题,提出一种基于概念图语义匹配的方法来计算两个本体中类之间的相似性,文中提到的本体是由实体类、这些类之间的语义关系和描述这些类的不同特征组成的.该模型首先将用户的查询信息转变为一个概念图,然后和已有的资源概念图进行匹配计算语义的相似性,实例表明该方法可以满足用户的需求,提高了检索效率.  相似文献   

8.
提出一种基于知网的汉语普通未登录词语义分析模型,该模型以概念图为知识表示方法,以2005版知网为语义知识资源,首先参照知网知识词典对普通未登录词进行分词;然后综合利用知网中的知识词典等知识,通过词性序列匹配消歧法、概念图相容性判定消歧法、概念图相容度计算消歧法及语义相似度计算消歧法对中文信息结构进行消歧;最后根据所选择的中文信息结构生成未登录词的概念图,从而实现未登录词的语义分析。该模型在语义分析过程中一方面确定了未登录词中每个已登录词的词义,另一方面构造了该未登录词的语义信息,实验结果证明它可以作为普通未登录词语义分析的原型系统。  相似文献   

9.
基于框架语义标注的自由文本信息抽取研究   总被引:1,自引:0,他引:1       下载免费PDF全文
信息抽取是从自由文本语料库构建数据库,实现信息自动收集的有效途径之一。提出了一种以框架语义标注为基础构建信息抽取规则的信息抽取方法。基于框架语义标注的信息抽取是用统一的方法来指导信息抽取过程。这种方法具有较细的处理粒度,对语义规则性强的领域有一定的普遍适用性。设计了基于框架语义的BAIE(图书内容简介信息抽取)系统,并对图书的内容简介试行信息抽取。抽取结果表明,基于框架语义的信息抽取方式有一定的可行性和适用性。  相似文献   

10.
传统的事件论元抽取方法把任务当作句子中实体提及的多分类或序列标注任务,论元角色的类别在这些方法中只能作为向量表示,而忽略了论元角色的先验信息。实际上,论元角色的语义和论元本身有很大关系。对此,该文提议将其当作机器阅读理解任务,把论元角色转换为自然语言描述的问题,通过在上下文中回答这些问题来抽取论元。该方法更好地利用了论元角色类别的先验信息,在ACE2005中文语料上的实验证明了该方法的有效性。  相似文献   

11.
基于概念图的信息检索的查询扩展模型   总被引:1,自引:0,他引:1  
针对传统的基于关键词匹配的信息检索存在的查全率和精确率不高的问题,提出一种基于概念图匹配的查询扩展方法:一方面通过知网对用户查询的词或者句子进行扩展后,将用户查询和文档生成概念图;另一方面利用概念图的不完全匹配和语义相似度的计算方法计算概念图的相似度,以提高检索效果。实验结果表明该方法取得了良好的效果。  相似文献   

12.
基于知识图的领域本体构建方法   总被引:1,自引:0,他引:1  
陈琨  张蕾 《计算机应用》2011,31(6):1664-1666
提出了一种基于知识图的领域本体半自动构建方法。以《知网》为语义知识资源,知识图为语义表示方法,采用成熟的软件工程流程,最终构建出的领域本体具有结构明确、语义清晰的特点。对于在其上的语义网、信息抽取等应用提供了有效支持。介绍了本体的概念、设计的准则、建模的流程,并对未来的本体的移植性进行展望。实验结果表明该方法在不确定性知识处理上优于传统本体构建方法。  相似文献   

13.
王艺  王英 《计算机工程》2021,47(10):67-74
语义图概要的目的是提取语义图的关键信息,形成原数据集的概要模型以解决大规模语义图的理解、查询、应用难题。为提升现有语义图概要方法效率,提出一种基于本体分割的概要方法。通过本体分割算法对语义图进行分割生成扩展子图。采用形式概念分析对每个扩展子图生成元素的偏序格(又称特征集格)。在此基础上,由所有子图的特征集格形成了原语义图的概要。在关联开放数据集和Berlin SPARQL Benchmark数据集上的实验结果表明,该方法具有较好的可扩展性,有效提高了概要方法的效率。  相似文献   

14.
The most fascinating advantage of the semantic web would be its capability of understanding and processing the contents of web pages automatically. Basically, the semantic web realization involves two main tasks: (1) Representation and management of a large amount of data and metadata for web contents; (2) Information extraction and annotation on web pages. On the one hand, recognition of named-entities is regarded as a basic and important problem to be solved, before deeper semantics of a web page could be extracted. On the other hand, semantic web information extraction is a language-dependent problem, which requires particular natural language processing techniques. This paper introduces VN-KIM IE, the information extraction module of the semantic web system VN-KIM that we have developed. The function of VN-KIM IE is to automatically recognize named-entities in Vietnamese web pages, by identifying their classes, and addresses if existing, in the knowledge base of discourse. That information is then annotated to those web pages, providing a basis for NE-based searching on them, as compared to the current keyword-based one. The design, implementation, and performance of VN-KIM IE are presented and discussed.  相似文献   

15.
相较于传统的依托词汇频率大小进行关键字提取技术,TextRank算法能够考虑词汇节点之间的相似性信息,却仍忽略了词汇上下文信息以及文章的语义结构等。在节点图权重迭代的基础上,本文利用文本上下文词汇的关联规则信息,引入关联熵的概念,自适应调整阻尼系数和滑动窗口大小,更贴近文本词汇的实际语义情况,能够较好地处理低词频和新词汇信息。实验表明,相较于TFIDF和TR等算法,本文算法在处理关键字提取时能够达到更准确的效果。  相似文献   

16.
在利用本体进行信息抽取的基础上,提出了一个基于个人信息领域的语义信息抽取系统框架,将语义抽取从WEB领域扩展到个人信息领域;系统对个人信息领域内的网页,电子邮件,本地数据库和本地文件夹建立本体,根据本体之间的语义关联,实现个人信息领域内数据的交流。系统详细描述了语义信息抽取系统的实现过程,并以电子邮件为例重点介绍了语义信息抽取的算法。  相似文献   

17.
针对传统特征加权方法未充分考虑词语之间的语义信息和类别分布信息的不足,提出了一种融合词语共现距离和类别信息的短文本特征提取方法。一方面,将同一短文本中两个词语之间的间隔词数作为共现距离,计算它们之间的相关度。通过计算这两个词语共同出现的频率,得到每个词的关联权重;另一方面,利用改进的期望交叉熵计算某个词在某个类别中的权重值,将两者整合,得到某个类别中所有词的权重值。对所有类别中的词按权重值的大小进行降序排序,选取前K个词作为新的特征词项集合。实验表明,该方法能够有效提高短文本特征提取的效果。  相似文献   

18.
郑学伟 《微机发展》2014,(12):64-68
语义网的研究中基于领域本体的构建研究方法基本上还处于手工阶段,如何在本体的设计中实现自动构建仍然是目前需要解决的问题,而采用基于图的构建原理,应用MCL聚类的本体自动构建算法进行概念提取和关系运算。将领域文本文档映射为文档概念图,在关系运算中采用基于频繁信息子图的gSpan算法任意关系提取算法,得到基于OWL-DL描述的领域本体,并通过评价反馈机制进行闭环校正是研究的核心思想。  相似文献   

19.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号