首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 250 毫秒
1.
部分整体关系获取是知识获取中的重要组成部分。Web逐步成为知识获取的重要资源之一。搜索引擎是从Web中获取部分整体关系知识的有效手段之一,我们将Web中包含部分整体关系的检索结果集合称为部分整体关系语料。由于目前主流搜索引擎尚不支持语义搜索,如何构造有效的查询以得到富含部分整体关系的语料,从而进一步获取部分整体关系,就成为一个重要的问题。该文提出了一种新的查询构造方法,目的在于从Web中获取部分整体关系语料。该方法能够构造基于语境词的查询,进而利用现有的搜索引擎从Web中获取部分整体关系语料。该方法在两个方面与人工构造查询方法和基于语料库查询构造查询方法所获取的语料进行对比,其一是语料中含有部分整体关系的语句数量;二是从语料中进一步获取部分整体关系的难易程度。实验结果表明,该方法远远优于后两者。  相似文献   

2.
简称是自然语言词汇的重要组成部分,其获取是自然语言处理中的一个基本而又关键的问题。提出了一种根据汉语全称从Web中获取对应汉语简称的方法。该方法包括获取和验证两个步骤。获取步骤通过选择查询模式从Web上获得候选简称集合。为了验证候选简称,定义了全简称关系约束,分别定性和定量地表示全称和对应简称之间的约束,构建了全简称关系图来表示所有全称和简称之间的联系,在验证过程中,先分别用约束公理和关系图对候选简称进行过滤,再用约束函数对候选简称分类,并以分类类别、语料标记和约束函数值作为属性构建决策树,利用决策树对候选简称进行验证。实验结果表明,获取方法的最终准确率为94.63%,召回率为84.09%,验证方法的准确率为94.81%。  相似文献   

3.
姜琳  李宇  卢汉  曹存根 《计算机科学》2007,34(12):151-156
文本知识获取(Knowledge acquisition from text,简称KAT)是知识工程中的一个重要研究课题。重点研究如何从大规模Web网页文本中获取地理实体概念及其位置关系知识,本文首先介绍了如何自动和半自动地获取这些地理实体概念及其位置关系的文法模式,建立文法模式库;然后基于文法模式库获取例句来抽取候选概念并进行概念验证;最后利用基于图论的方法构造位置关系图,利用地理领域特定规则进行分析验证。作为统一概念图管理下概念空间的一个重要组成部分,地理实体概念及其位置关系本身不仅是知识库的一个重要部分,还可为知识库中其它领域的知识提供支持。  相似文献   

4.
部分整体关系是一种基础而重要的语义关系,从文本中自动获取部分整体关系是知识工程的一项基础性研究课题。该文提出了一种基于图的从Web中获取部分整体关系的方法,首先利用部分整体关系模式从Google下载语料,然后用并列结构模式从中匹配出部分概念对,据此形成图,用层次聚类算法对该图进行自动聚类,使正确的部分概念聚集在一起。在层次聚类基础上,我们挖掘并列结构的特性、图的特点和汉语的语言特点,采用惩罚逗号边、去除低频边、奖励环路、加重相同后缀和前缀等5种方法调整图中边的权重,在不损失层次聚类的高准确率条件下,大幅提高了召回率。  相似文献   

5.
余蕾  曹存根 《计算机科学》2007,34(2):161-165
互联网网页中存在大量的专业知识。如何从这些资源中获取知识已经成为10多年来的一个重要的研究课题。概念和概念间的关系是知识的基本组成部分,因此如何获取并验证概念,成为从文本到知识的过程中的重要步骤。本文提出并实现了一种自动从Web语料中获取概念的方法,该方法利用了规则、统计、上下文信息等多种方法和信息。实验结果表明,该方法达到了较好的效果。  相似文献   

6.
实体关系抽取在信息检索、自动问答、本体学习等领域都具有重要作用。提出了基于弱监督学习的关系抽取框架。首先利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料;针对训练语料数量较少导致特征不足的问题,采用基于朴素贝叶斯的句子分类器和基于自扩展的训练方法,从未标注数据中获取更多的训练语料;然后利用条件随机场模型训练关系抽取器。实验结果表明所提方法的有效性,有现有方法相比,文中方法获得较高的准确率。  相似文献   

7.
针对从中文百科中抽取属性关系时所面临的训练语料匮乏问题,提出一种利用极少人工参与的弱监督自动抽取方法。首先,利用中文百科条目信息模板中的半结构化属性关系回标条目文本自动获取训练语料;然后,根据朴素贝叶斯分类原理优化训练语料;最后,基于条件随机场(CRF)建立属性关系抽取模型。在互动百科中采集的数据集上进行实验,综合评价F值达到了80.9%。结果表明该方法能够获得质量较高的训练语料,并取得良好的抽取性能。  相似文献   

8.
Web数据库用户通常使用他们熟知的关键字表达查询意图,这可能导致获取的结果不能很好满足其查询需求,因此为他们提供top-k个与初始查询语义相关且多样化的候选查询有助于用户扩展知识范围,从而更准确完善地表达其查询意图.提出一种top-k多样性关键字查询推荐方法.1)利用不同关键字在查询历史中的同现频率和关联关系评估关键字之间的内耦合和间耦合关系;2)根据关键字之间的耦合关系构建语义矩阵,进而利用语义矩阵和核函数方法评估不同关键字查询之间的语义相关度.为了快速返回top-k个与初始查询相关且多样性的候选查询,根据查询之间的语义相关度,利用概率密度函数分析查询的典型程度,并利用近似算法从查询历史中找出典型查询.对于所有的典型查询,从中选出少数代表性查询,根据其他典型查询与代表性查询之间的语义相关度,为每个代表性查询构建相应的查询序列;当一个新的查询到来时,评估其与代表性查询之间的语义相关度,然后利用阈值算法(threshold algorithm, TA)在预先创建的查询序列上快速选出top-k个与给定查询语义相关的多样性候选查询.实验结果和分析表明:提出的关键字之间耦合关系计算和查询之间的语义相关度评估方法具有较高准确性,top-k多样性选取方法具有较好效果和较高执行效率.  相似文献   

9.
针对从中文百科中抽取属性关系时所面临的训练语料匮乏问题,提出一种利用极少人工参与的弱监督自动抽取方法。首先,利用中文百科条目信息模板中的半结构化属性关系回标条目文本自动获取训练语料;然后,根据朴素贝叶斯分类原理优化训练语料;最后,基于条件随机场(CRF)建立属性关系抽取模型。在互动百科中采集的数据集上进行实验,综合评价F值达到了80.9%。结果表明该方法能够获得质量较高的训练语料,并取得良好的抽取性能。  相似文献   

10.
属性是一种用于描述概念和鉴别概念的特殊知识。属性名称是表示属性的专有名词。该文提出了一种基于前后缀迭代的方法,从Web网页中获取概念的属性名称。该方法的每一次迭代分为两个阶段: (1) 从现有种子属性集中选择合适的前后缀,构造词汇-句法模式,从Web网页中提取候选属性;(2) 采用基于相似性的验证模型对候选属性进行验证,以扩充现有属性集合。该文提出了一组验证模型对候选属性进行验证,比较各个模型的优缺点,并在地域类和商业主体类概念上分别得到了平均92.9%和90.7%的准确率,以及对原有种子属性集合近100倍的扩充率。  相似文献   

11.
"isa"关系是知识获取中一种基本的语义关系,给出了中文"isa"关系的模式表示和获取方法。提出基于模式特征的种子选取算法和基于特征词的种子驱动的模式学习算法。实验说明了方法的有效性。  相似文献   

12.
刘磊  曹存根 《计算机工程》2008,34(14):12-13
上下位关系的自动验证是知识获取中的一个关键问题。提出一种基于混合特征的迭代上下位关系验证方法,从语义、语境、空间结构角度,给出一组上下位关系特征,根据抽样数据分析,将所有特征转化为用于验证的产生式规则,利用这些规则对基于模式获取的上下位关系进行循环迭代验证。实验结果说明了该方法的有效性。  相似文献   

13.
从文本中获取植物知识方法的研究   总被引:1,自引:0,他引:1  
知识获取一直是人工智能中的一个关键问题.当前,知识的文本挖掘(KAT)已经成为计算机领域的一个重要的研究课题.本文中,给出了基于植物本体的从海量网页文本库中自动获取植物领域知识的方法.该方法包括两个部分,一是植物本体(Botanical Ontology),它是顾芳博士等建立的生物本体的扩展.第二部分是以植物本体为基础,在网络文本库中进行文本挖掘(Text Mining),自动获取植物知识.实验证明,基于本体的文本挖掘是一种有效的知识获取方法.  相似文献   

14.
无指导的中文开放式实体关系抽取   总被引:1,自引:0,他引:1  
传统的实体关系抽取需要预先定义关系类型体系,然而定义一个全面的实体关系类型体系是很困难的.开放式实体关系抽取技术解决了预先定义关系类型体系的问题,但是在中文上的研究还比较少.提出面向大规模网络文本的无指导开放式中文实体关系抽取方法,首先使用实体之间的距离限制和关系指示词的位置限制获取候选关系三元组;然后采用全局排序和类型排序的方法来挖掘关系指示词;最后使用关系指示词和句式规则对关系三元组进行过滤.在获取大量关系三元组的同时,还保证了80%以上的微观平均准确率.  相似文献   

15.
在文本知识获取中,上下位关系的获取是一个基本而又关键的问题。针对基于模式上下位关系获取中遇到的下位概念获取问题,本文结合我们的研究工作,给出一种从符合“是一个”模式的句子中获取下位概念的方法,这里主要利用半自动获取的词典和句型对“是一个”模式进行分析,然后根据不同的规则,分流获取下位概念。在实验分析中,此方法显示了较好的效果。  相似文献   

16.
查询扩展技术中引入语义计算是一个重要的研究方向.针对现有解决方法普遍存在缺少主题知识、引入无关词以及筛选函数不恰当的问题,提出了一种结合主题选取与局部反馈方法的语义关联树模型,从语义的角度进行分类查询扩展.在传统方法基础上结合Web文本分类语料库进行了有主题的分类扩展,并改进了扩展词筛选函数,增加了阈值限定,有效控制了噪音.结合用户交互与局部反馈的方法不但减少了传统相关反馈中用户的工作量而且弥补了单纯局部反馈高度依赖于初次检索结果的缺陷.在SMART平台的实验结果表明,该方法相比一般的查询扩展算法查全率及查准率均有所提高.  相似文献   

17.
This paper deals with the conceptual part-whole relation as it occurs in language processing, visual perception, and general problem solving. One important long-term goal is to develop a naive or common sense theory of the mereological domain, that is the domain of parts and wholes and their relations. In this paper, we work towards such a theory by presenting a classification of part-whole relations that is suitable for different cognitive tasks and give proposals for the representation and processing of these relations. In order to be independent of specific tasks like language understanding or the recognition of objects, we use structural properties to develop our classification.The paper starts with a brief overview of the mereological research in different disciplines and two examples of the role of part-whole relations in linguistics (possessive constructions) and knowledge processing (reasoning about objects). In the second section, we discuss two important approaches to mereological problems: the "Classical Extensional Mereology" as presented by Simons and the meronymic system of part-whole relations proposed by Winston, Chaffin and Hermann. Our own work is described in the third and last section. First, we discuss different kinds of wholes according to their inherent compositional structure; complexes, collections, and masses. Then partitions induced by or independent of the compositional structure of a whole are described, accompanied by proposals for their processing.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号