首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
当今互联网已成为一个巨大的开放式知识库,其中包含着许多有价值的信息。互联网信息呈现形式多样性的 特点,如何初步筛选出有价值的网页,是信息抽取的第一要务,也是构建知识库的基础。本文在建立互联网模型基础上,利用 Hadoop 平台下的Pagerank 算法,旨在研究如何在节省时间和空间基础上筛选出有价值的网页,为从互联网抽取有价值信息构 建知识库提供解决方案。  相似文献   

2.
文章描述了一个互联网舆情搜索分析系统的设计及实现方法。系统采用互联网搜索引擎(例如谷歌、百度、雅虎等)、RSS技术、网页信息结构化抽取等技术实现了对互联网敏感信息发现以及网络舆情信息的搜索分析。  相似文献   

3.
互联网上聚集了大量的文本、图像等非结构化信息,RDF作为W3C提出的互联网上的资源描述框架,非常适合于描述网络上的非结构化信息,因此形成了大量的RDF知识库,如Freebase、Yago、DBPedia等。RDF知识库中包含丰富的语义信息,可以对来自网页的名字实体进行标注,实现语义扩充。将网页上的名字实体映射到知识库中对应实体上称作实体标注。实体标注包括两个主要部分:实体间的映射和标注去歧义。利用海量RDF知识库的特性,提出了一种有效的实体标注方法。该方法采用简单的图加权及计算解决实体标注的去歧义问题。该方法已在云平台上实现,并通过实验验证了其准确度和可扩展性。  相似文献   

4.
指代消解是文本理解和信息抽取的一项重要任务。针对这一任务,提出了基于混合策略的藏文人称代词指代消解方法,通过对藏文人名、人称代词的形态特征和构词规律的研究,制定了三类消解规则和有效统计特征,采用基于规则、最大熵模型以及规则与最大熵模型相结合的三种方法实现了藏文人称代词的指代消解系统。在包含2?306个待消解对的藏文句子集上,经测试分别获得76.02%、86.21%和88.16%的F值。  相似文献   

5.
结合规则与语义的中文人称代词指代消解   总被引:1,自引:1,他引:0  
指代消解是一种为了确定文章中出现的指代词与前文中出现的内容是否为同一事物的技术,在海量信息文本智能处理中具有重要的作用,而人称代词在各种指代词集合中占有相当一部分比例。本文采用规则与语义相结合的方法对中文人称代词进行指代消解,在基础的语法过滤规则之上新增同位语规则过滤指代词的候选消解项;提出更精确的同义词距离计算方法,利用同义词词林和知网对人称代词的关联词与候选先行词的关联词进行语义关系计算,选择关联度最高的候选先行词作为最终的指代结果。通 过不同方法的对比实验和在真实语料数据集上的实验表明,本文所提方法获得了较好的效果。  相似文献   

6.
汉语中人称代词的消解研究   总被引:15,自引:0,他引:15  
人称代词的消解是自然语言处理中十分重要的问题,人称代词消解,就是确定人称代词与先行语之间的相互关系,从而明确人称代词究竟指代什么对象,现有的许多应用系统,如文本摘要、信息抽取等采取了从文本中直接抽取句子的做法,而结果可能会含有某些无先行语的人称代词,使理解变得非常困难,人称代词消解无疑可以解决类似的问题。该文主要结合句类基本知识,根据人称代词所在语义块中的语义角色和人称代词对应的先行语可能的语义角色,给出了消解人称代词的基本规则。同时,作者也从句法的角度,结合局部焦点法给出了优选性规则。  相似文献   

7.
互联网已成为全球最大的知识资源库,然而要从互联网上获取有用的知识却非常困难。本文提出一种基于互联网的词汇语义知识库构建框架,分为三个大模块:网页文本自动获取、知识获取和知识应用。该框架能实现在线获取海量网页文本,提取中文组合词并对其进行词标注,获取同义词集和词间语义关系,进而实现语义计算。词汇语义知识库的构建将为大量的知识应用提供基础。  相似文献   

8.
针对维吾尔语人称代词指代消解研究忽略了待消解项识别而引入了噪声的问题,提出一种基于深度置信网络(Deep Belief Networks,DBN)的维吾尔语人称代词待消解项识别方法。在分析维吾尔语人称代词语法特征和语言规则的基础上,总结出包含10项特征的维吾尔语人称代词待消解项特征集。所提方法首先通过逐层贪婪地训练每一层受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)网络,来保证特征向量映射到不同的特征空间,尽可能多地保留特征信息;并在最后一层设置BP网络,对RBM输出的特征向量进行分类,以有监督的方式训练整个网络并进行微调。实验结果表明,所提方法正确识别维吾尔语人称代词待消解项的准确率达到95.17%,比SVM算法提高了9%,从而验证了其有效性和可行性。  相似文献   

9.
针对词汇化树邻接法的歧义现象,利用《知网-信息结构库》作为知识库,并引入概率方法提出了一种有效的句法树消歧方法。中阐述了如何利用知网信息结构模式对句法树进行筛选,并提出了基于概率的信息结构抽取的计算方法。  相似文献   

10.
基于树核函数的英文代词消解研究   总被引:1,自引:1,他引:0  
该文提出了一种基于树核的英文代词消解方法。针对结构化信息在指代消解中的重要作用,该文使用SVM提供的卷积树核函数自动获取句法结构信息,将句法树作为一个特征,和其他基本特征相结合。该文系统的分析了训练用例的过滤及不同的剪枝策略对模型性能的影响,同时还分析了树核函数对于几句之内的代词消解有比较好的结果。在ACE2004 NWIRE基准数据上进行实验的结果说明树核能显著地提高代词消解系统的性能,并且对一句之内的代词消解有较好的效果。  相似文献   

11.
指代消解是文本信息处理中的一项重要任务,针对这一任务过于复杂,本文分析了中文突发事件语料中人称代词的特点, 提出一种基于语料库,运用规则预处理与最大熵模型相结合的人称代词消解方法。在ACE05 bnews中文测试语料上,分别与仅用基于规则和仅用统计方法进行了对比实验,结果表明该方法分别在召回率、准确率和F值上有一定的提高,本方法是中文人称代词指代消解的较好平台。  相似文献   

12.
针对深度神经网络模型学习照应语和候选先行语的语义信息忽略了每一个词在句中重要程度, 且无法关注词序列连续性关联和依赖关系等问题, 提出一种结合语境多注意力独立循环神经网络(Contextual multi-attention independently recurrent neural network, CMAIR) 的维吾尔语人称代词指代消解方法. 相比于仅依赖照应语和候选先行语语义信息的深度神经网络, 该方法可以分析上下文语境, 挖掘词序列依赖关系, 提高特征表达能力. 同时, 该方法结合多注意力机制, 关注待消解对多层面语义特征, 弥补了仅依赖内容层面特征的不足, 有效识别人称代词与实体指代关系. 该模型在维吾尔语人称代词指代消解任务中的准确率为90.79 %, 召回率为83.25 %, F值为86.86 %. 实验结果表明, CMAIR模型能显著提升维吾尔语指代消解性能.  相似文献   

13.
孔芳  周国栋 《软件学报》2012,23(5):1085-1099
基于树核函数,提出了从使用中心理论、集成竞争者信息和融入语义角色相关信息这3个方面对结构化句法树进行动态扩展来提升中英文代词消解的性能.首先探索了3种基本结构化句法树捕获方案,并使用SVMLight 中提供的卷积树核函数直接进行基于结构化句法树的相似度计算,从而完成指代消解任务;其次,在分析3种结构化句法树捕获方案的基础上,从中心理论、竞争者信息和语义角色相关信息等几方面对捕获的结构化句法树进行了扩 展;最后,通过ACE 2004 NWIRE英文语料和ACE 2005 NWIRE中文语料上的实验,说明了这些扩展能够提升代词消解的性能.  相似文献   

14.
基于Web的文本挖掘   总被引:22,自引:1,他引:22  
万维网是一个巨大的、分布广泛的、全球性的信息服务中心,它包含了丰富的信息资源。在茫茫的信息海洋如何快速有效地获取所需要的信息,一直是困绕着网上用户的难题。而Web挖掘可以从这个信息海洋中提取出所需要的有用知识,在一定程度上解决了用户的困绕。该文主要介绍了Web挖掘基本情况,并在此基础上对基于Web的文本挖掘进行了分析研究;给出了一个基于Web的文本挖掘的结构模型图。同时,在Web挖掘和数据挖掘研究的基础上,提出了一个智能化、个性化的现代远程教育系统结构模型。它比传统的远程教育系统具有更大的发展前景。  相似文献   

15.
篇章消解,即识别篇章中对现实世界中同一实体不同表达的过程,包括指代消解和同指消解两个方面。作为信息抽取的重要环节,它在信息检索、自动文摘及文本挖掘等领域有着广阔的应用前景。本文分析并总结了消解过程中常用的语言知识,介绍了上世纪90年代以来具代表性的算法,并指出了篇章消解未来的发展趋势。  相似文献   

16.
Anaphora is a discourse-level linguistic phenomenon.There is consensus that anaphora resolution shouldrely on prior sentences within the context of thediscourse. We propose to cast anaphora resolution asa semantic inference process in which a combination ofmultiple strategies, each exploiting different aspectsof linguistic knowledge, is employed to provide acoherent resolution of anaphora. A framework whichencompasses several salient linguistic parameters suchas grammatical role, proximity, repetition, sentencerecency and semantic cues is demonstrated. This workalso shows how an anaphora-resolution algorithm can beembedded within a framework which captures all theabove salient parameters, as well as remedies some ofthe inadequacies found in any monolithic resolutionsystem. A language-neutral semantic representationcharacterized by semantic cues is presented in orderto capture the distilled information after resolution.The effectiveness of the language-neutralrepresentation, both for machine translation andanaphora resolution, is demonstrated through a set ofsimulations and evaluations.  相似文献   

17.
指代消解的基本方法和实现技术   总被引:18,自引:11,他引:18  
指代是自然语言中常见的语言现象,大量出现在篇章或对话中。随着篇章处理相关应用日益广泛,指代消解也显示出前所未有的重要性,并成为自然语言处理上热门的研究问题。针对指代和指代消解的有关问题,本文对基本概念作了说明,分析了语言中典型的指代现象和指代消解所需的基本语言知识;同时,介绍了指代消解中有代表性的几种计算模型和近10年来采用的若干实现技术。  相似文献   

18.
Anaphora resolution in machine translation involves two aspects:(1) the identification of the antecedent, i.e., the determinationof co-reference relations between anaphor and antecedent; and (2)the translation of the anaphor, i.e., the selection of theappropriate target-language equivalent. The identification ofthe antecedent is essentially a monolingual, language-pairindependent problem which is usually solved during analysis. Theselection of the target-language equivalent, on the other hand,can be regarded as a language-pair dependent task which has to betackled during transfer and generation. In this paper, theproblems of anaphora translation are discussed for the languagepair Russian–German. Although in most cases source-languageanaphoric pronouns correspond to target-language anaphoricpronouns, in some cases this straightforward equation does nothold. Two cases of such translation discrepancies are treatedhere: zero anaphora and pronominal PPs. The differences in thedistribution of zero anaphora and pronominal PPs in Russian andGerman are described, and solutions to these translation problems basedon the Russian–German MT system T1 are presented.  相似文献   

19.
指代消解是自然语言处理中语篇理解的关键问题之一。近年来对于树核函数的研究为指代消解提出了新的思路。基于树核函数,提出了一种新的中文代词的消解方法。将句法树作为一个特征,使用SVM提供的树核函数自动获取句法信息。在ACE2005 NWIRE基准数据上进行实验的结果表明树核对中文代词的消解能起到显著的作用,其中F值达到了75.8%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号