首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
姜琳  李宇  卢汉  曹存根 《计算机科学》2007,34(12):151-156
文本知识获取(Knowledge acquisition from text,简称KAT)是知识工程中的一个重要研究课题。重点研究如何从大规模Web网页文本中获取地理实体概念及其位置关系知识,本文首先介绍了如何自动和半自动地获取这些地理实体概念及其位置关系的文法模式,建立文法模式库;然后基于文法模式库获取例句来抽取候选概念并进行概念验证;最后利用基于图论的方法构造位置关系图,利用地理领域特定规则进行分析验证。作为统一概念图管理下概念空间的一个重要组成部分,地理实体概念及其位置关系本身不仅是知识库的一个重要部分,还可为知识库中其它领域的知识提供支持。  相似文献   

2.
Wikipedia一方面能够提供关于特定百科条目的概念性描述;另一方面,也通过分类系统将这些百科条目组织成一个概念网络.它对信息的广泛覆盖和有效组织使其成为了自动化知识获取的常用信息源.然而,仅仅依靠Wikipedia自身的信息,还不足以准确地刻画其内部概念间的关联性知识,而这是符号化知识表述的一个重要组成部分.因此,提出了一种基于多Web信息源的主题概念网络获取方法.它以Wikipedia的分类系统为基础,同时利用搜索引擎收集相关的Web信息作为关联性知识验证和发现的参照系,并通过集成信息检索和自然语言处理等领域的方法,实现了以给定的主题词为核心,在Wikipedia分类系统对应的概念网络中获取面向该主题的概念网络,同时网络内的概念间关系得到识别和标注.我们基于不同领域的主题词进行了实验,对实验结果的经验性评估展示了所获取的主题概念网络既能满足面向主题的要求,其内部的概念关联性知识又具备了一定的精度要求.  相似文献   

3.
在文本知识获取中,上下位关系的获取是一个基本而又关键的问题。针对基于模式上下位关系获取中遇到的下位概念获取问题,本文结合我们的研究工作,给出一种从符合“是一个”模式的句子中获取下位概念的方法,这里主要利用半自动获取的词典和句型对“是一个”模式进行分析,然后根据不同的规则,分流获取下位概念。在实验分析中,此方法显示了较好的效果。  相似文献   

4.
部分整体关系获取是知识获取中的重要组成部分。Web逐步成为知识获取的重要资源之一。搜索引擎是从Web中获取部分整体关系知识的有效手段之一,我们将Web中包含部分整体关系的检索结果集合称为部分整体关系语料。由于目前主流搜索引擎尚不支持语义搜索,如何构造有效的查询以得到富含部分整体关系的语料,从而进一步获取部分整体关系,就成为一个重要的问题。该文提出了一种新的查询构造方法,目的在于从Web中获取部分整体关系语料。该方法能够构造基于语境词的查询,进而利用现有的搜索引擎从Web中获取部分整体关系语料。该方法在两个方面与人工构造查询方法和基于语料库查询构造查询方法所获取的语料进行对比,其一是语料中含有部分整体关系的语句数量;二是从语料中进一步获取部分整体关系的难易程度。实验结果表明,该方法远远优于后两者。  相似文献   

5.
一种概念获取算法CAP及其应用   总被引:1,自引:1,他引:1  
本文提出以实例空间中状态出现的概率大小作为启发式信息,以提供的正例集为依据进行分类的概念获取算法CAP.该算法是一种二叉树的分类方法,输出的分类规则是一个谓词演算表达式.CAP算法既适用于给定概念的正例集,也适用于仅提供正例集的情况,并能根据用户对精度的不同要求得到不同精度的分类规则.本文还给出CAP算法应用实例,并和著名的ID3算法进行了比较,CAP可用于一个自动知识获取系统.  相似文献   

6.
常识知识是一类重要的人类知识,对自然语言分析、机器智能研究和自动推理研完等都有重要的意义。本文围绕心理常识,主要讨论与心理相关的常识概念的表示、获取和分析的方法。针对现有的概念模型中的概念主要由手工获取.缺乏自动方法,使得概念获取的非冗余性、一致性不能得到保证的问题,本文提出了获取心理常识概念的基本策略:依据心理学中的心理范畴手工获取心理常识的基础概念及概念间关系;根据属性的心理特征手工得到心理属性和属性问关系;以心理常识基础概念和心理常识属性为语义成分,通过“子类生成规则”自动完成获取和组织心理常识概念的任务。并且通过“子类检查规则”检查和分析新加入概念库的常识概念的冗余性和一致性。  相似文献   

7.
以自身具有不确定信息的多值信息系统作为研究背景,分析研究构建领域多层次概念方法.讨论属性值的近似表示和相容信息粒的生成,提出基于粒计算从具有不确定信息的多值信息系统中获取多级概念的框架和算法.用一个实例和测试比较来说明该算法是可行有效的.  相似文献   

8.
吴昱明  曹存根 《计算机科学》2008,35(11):139-143
基于模式的知识获取方法研究是当前文本知识获取的重点研究之一,如何获得文本知识模式是该研究中的一个重要研究内容。提出一种新的基于介词和动词模式(称为PV模式)的获取方法。首先构造出一个候选的动词介词组合(称为PV组合),使用统计方法对其进行过滤。度量PV组合好坏有两个标准:一个是模式词的表示能力,另一个是模式词与概念词之间及多个概念词之间的相关性。依据这两个标准构造了6个数值特征,通过训练产生了3个分类器,采用交叉验证的方式估计出3个分类器的精度分别达到0.853,0.862和0.856。这些分类器为从PV组合中自动挑选PV模式提供依据。  相似文献   

9.
基于领域本体网络模型的知识获取技术   总被引:1,自引:0,他引:1       下载免费PDF全文
知识获取一直是人工智能的瓶颈,如何有效地从文本中提取知识是知识工程所关注的问题。该文提出并构建了领域本体网络模型,将其用于中医领域文本的知识获取,分析了领域本体的数据结构、本体概念的实例化以及语义场的结构与组织方法。基于中文信息处理技术,提出了获取文本知识的框架,实现了原型系统,并用于中医医案知识的获取,取得了较好的效果。  相似文献   

10.
一种面向非结构化信息的知识获取框架   总被引:1,自引:0,他引:1  
在文本、图片、音频等非结构化信息中蕴含着大量的知识,如何从海量非结构化信息中,自动获取这些知识是一个亟待解决的问题。该文提出一种非结构化信息知识获取框架KAFUI,该框架以非结构化信息管理架构UIMA为基础,支持异构的非结构化信息资源的接入,可整合和复用多种分析引擎,分析结果中标注了非结构化信息中的实体及其关系,这些实体和关系,进一步转换为以OWL描述的知识,并可通过推理发现新的事实。该框架的原型已在实际场景中应用,其实验情况表明是可行而有效的。  相似文献   

11.
Currently, most of the information available in the Web is adapted primarily for human consumption, but there is so much information that can no longer be processed by a person in a reasonable time, either in digital or physical formats. To solve this problem, the idea of the Semantic Web arose. The Semantic Web deals with adding machine-readable information to Web pages. Ontologies represent a very important element of this web, as they provide a valid and robust structure to represent knowledge based on concepts, relations, axioms, etc. The need for overcoming the bottleneck provoked by the manual construction of ontologies has generated several studies and research on obtaining semiautomatic methods to learn ontologies. In this sense, this paper proposes a new ontology learning methodology based on semantic role labeling from digital Spanish documents. The method makes it possible to represent multiple semantic relations specially taxonomic and partonomic ones in the standardized OWL 2.0. A set of experiments has been performed with the approach implemented in educational domain that show promising results.  相似文献   

12.
面向知识网格的本体学习研究   总被引:12,自引:1,他引:11  
网格计算正在从单纯的面向大型计算的分布式资源共享发展为一种面向服务的架构,以实现透明而可靠的分布式系统集成。网格智能是指如何获取、预处理、表示和集成不同层次的网格服务(如HTML/XML/RDF/OWL文档、服务响应时间和服务质量等)的数据和信息,并最终转换为有用的智能(知识)。因为高层知识将在未来的网格应用起到越来越重要的作用,本体是知识网格实现的关键。文章提出了一种实现从Web文档中本体(半)自动构建的本体学习框架WebOntLearn,并讨论了本体学习中领域概念的抽取、概念之间关系的抽取和分类体系的自动构建等关键技术。  相似文献   

13.
建立了面向观点挖掘的汽车评价本体知识库,可为挖掘汽车整体信息和特性信息观点提供强大的数据资源.以汽车领域知识为背景,根据汽车知识的关系,构建了汽车评价本体知识库的概念关系.在此基础上,利用Web汽车评论真实语料库,自动获取了本体知识库中的核心概念.最后,采用OWL描述语言,构建了面向观点挖掘的本体知识库.  相似文献   

14.
一种互联网信息智能搜索新方法   总被引:10,自引:1,他引:9  
提出了一种互联网信息智能搜索新方法。该方法能够从组织结构和内容描述类似的同类网站中,准确有效搜索出隐藏于其内部的目标网页。为此它采用了将网页间相互关联特征与网页内容特征描述有机结合而形成的一种新的搜索知识表示方法。基于这种知识表示方法及其所表示的知识;该智能搜索方法不仅能够对风站中网页进行深度优先的智能搜索,而且还能够通过对其搜索过程和结果的自学习来获取更多更好的搜索知识。初步实验结果表明,这种智能搜索新方法在对同类型网站的目标网页搜索中具有很强的深度网页搜索能力。  相似文献   

15.
基于本体实现对网页文本的自动主题分类   总被引:11,自引:0,他引:11  
提出了一种实现对中文网页进行自动分类的平衡差值法,它利用本体中主题概念的层次结构和主题词、特征项的各种语义关系,降低了分类算法的复杂性和计算量。试验表明,该方法可以获得85%以上的网页分类准确率。  相似文献   

16.
《Computer》2005,38(11):97-99
Looks at the custom tool developed by the author that leverages the Google Web search API (or a similar search service) to discover a list of Web pages matching a given topic; identify and extract trends and patterns from these Web pages' text; and transform those trends and patterns into an understandable, useful, and well-organized information resource. The tool accomplishes these tasks using four main components. First, a search engine client discovers a list of relevant Web pages using the Google Web search API. An information extraction engine then mines concepts and associated text passages from these Web pages. Next, a clustering engine organizes the most significant concepts into a hierarchical taxonomy. Finally, a knowledge base generator uses this taxonomy to generate a hypertext knowledge base from the extracted concepts and text passages.  相似文献   

17.
随着语义网的不断发展,网页语义的研究也在不断的进步。但现阶段的网络结构中,非语义化网页仍旧占据了信息系统最主要的部分。信息系统在整合的过程中,也需要了解网页的语义结构以完成信息的获取和分析。提出一种基于视觉特征筛选的网页语义结构分析方法。该方法可以在忽略网页语义的情况下,通过网页结构的视觉特性和内容特性分析网页中不同结构的语义关系,使用聚类分析方法来推定网页中半结构化信息的语义结构,并通过该方法对一组随机网页进行了分析,结果证明该方法具有比较好的分析能力。  相似文献   

18.
基于概念格的Web日志路径挖掘算法   总被引:1,自引:0,他引:1  
杨飞 《计算机科学》2004,31(3):115-117
路径挖掘适用于探索用户沿超连接寻找和浏览网页的规律,而Web日志的完美结构使挖掘更加容易和有效。由二元关系导出的概念格作为一种非常有用的形式化工具,体现了概念内涵和外延的统一,反映了对象和特征间的联系以及概念的泛化与例化关系,因此非常适于发现数据中潜在的信息。本文通过概念格模型,提出了一种Web日志的路径挖掘算法,并进行了相关的分析与展望。  相似文献   

19.
Ontologies play a very important role in knowledge management and the Semantic Web, their use has been exploited in many current applications. Ontologies are especially useful because they support the exchange and sharing of information. Ontology learning from text is the process of deriving high-level concepts and their relations. An important task in ontology learning from text is to obtain a set of representative concepts to model a domain and organize them into a hierarchical structure (taxonomy) from unstructured information. In the process of building a taxonomy, the identification of hypernym/hyponym relations between terms is essential. How to automatically build the appropriate structure to represent the information contained in unstructured texts is a challenging task. This paper presents a novel method to obtain, from unstructured texts, representative concepts and their taxonomic relationships in a specific knowledge domain. This approach builds a concept hierarchy from a specific-domain corpus by using a clustering algorithm, a set of linguistic patterns, and additional contextual information extracted from the Web that improves the discovery of the most representative hypernym/hyponym relationships. A set of experiments were carried out using four different corpora. We evaluated the quality of the constructed taxonomies against gold standard ontologies, the experiments show promising results.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号