首页 | 本学科首页   官方微博 | 高级检索  
 共查询到20条相似文献,搜索用时 140 毫秒
一种面向非结构化信息的知识获取框架   总被引:1,自引:0,他引:1  
在文本、图片、音频等非结构化信息中蕴含着大量的知识,如何从海量非结构化信息中,自动获取这些知识是一个亟待解决的问题。该文提出一种非结构化信息知识获取框架KAFUI,该框架以非结构化信息管理架构UIMA为基础,支持异构的非结构化信息资源的接入,可整合和复用多种分析引擎,分析结果中标注了非结构化信息中的实体及其关系,这些实体和关系,进一步转换为以OWL描述的知识,并可通过推理发现新的事实。该框架的原型已在实际场景中应用,其实验情况表明是可行而有效的。  相似文献   

由于当前非结构信息管理技术的落后,企业对其内部越来越多的非结构信息资源的利用效率非常低。此外,伴随着知识管理、协同商务等新兴管理思想的发展,企业对其非结构化信息资源的高效管理和应用的需求激增。论文提出了一种新的非结构信息资源管理的方法并且介绍了实现这一方法的关键技术UIMA。介绍了面向用户的企业非结构信息资源管理系统的应用模式及其系统体系结构,通过一个原型系统实例证明了基于UIMA的企业非结构信息资源管理系统的可行性。  相似文献   

8月22日获悉,IBM宣布通过开源资源提供其非结构化信息管理架构(UIMA)的计划,这种技术支持的全新软件应用主要用来处理文档和其它内容源中的文本信息,目的在于帮助深入了解内容的潜在含义、相互关系及其相关事实。企业内部和网络上的“非结构化”信息呈“爆炸之势”,其形式多样,包括文档、图像、注释和注释字段、电子邮件、甚至如视频和音频这样的多媒体等多种样式。然而,支持软件搜索和识别不同格式数据的技术至今尚未出现。针对这一需求,UIMA提供了一种具有标准界面的开放软件框架,以便为任何应用添加非结构化的信息分析能力。这样,客…  相似文献   

研究了Lucene搜索引擎框架在烟草行业的信息获取和搜索方面的系统应用。如何在异构的海量数据中获取与烟草行业相关的数据是实现烟草行业信息化管理技术的一个重要分支。通过对不同文件格式的数据处理、烟草行业相关站点的数据抓取、搜索引擎创建和数据检索四个模块框架来实现系统。Web页面基于Heritrix烟草信息数据抓取,其中的非结构化数据或者半结构化数据和不同的文件格式通过Tika工具统一转为为文本,通过Lucene对结构化和非结构化数据创建索引以实现数据检索,由此实现烟草信息搜索引擎系统的实现。  相似文献   

基于企业概念本体的Web知识获取   总被引:1,自引:0,他引:1  
当今生产制造型企业的知识十分丰富、复杂,知识获取成了基于知识系统开发过程中的一个“瓶颈”,万维网是信息获得的一个主要来源,但其非结构化、异构、海量的信息资源给人们寻求合适的信息造成了困难。该文分析了Web的知识获取的过程,并提出了基于企业概念本体的知识获取,并在最后阐述了这个知识获取系统的整体框架及其特点。  相似文献   

随着信息技术的不断发展及广泛应用,企业内部的非结构化历史数据越来越多。一方面,企业可利用资源,可借鉴经验不断增加,另一方面,由于当前非结构化数据管理,检索的的技术非常落后,使得企业在非结构化数据管理检索等方面,利用方面举步唯艰。在针对特定领域的垂直搜索引擎的基础上,更加高效的智能化的搜索引擎的研究也就成为发展的必然。论文提出了一种新的非结构化数据检索管理方法,并介绍了实现该方法相关的技术:UIMA和OEE。  相似文献   

基于本体的XML查询及其优化机制   总被引:2,自引:2,他引:0  
介绍一种基于本体的非结构化信息访问机制,为现有系统应用中的非结构化信息提取提供统一的语义级解决方案。该方案克服了目前基于关键词检索方法所引起的信息冗余和信息不足,提供更为合理且更符合人们思维的查询方法与结果,从而有效地提高系统性能及其实际应用价值。介绍了该信息访问机制的整体框架,并重点介绍了信息访问语言FLPlus、推理引擎及优化算法的实现。  相似文献   

为了将P2P中对等体的资源描述为结构化的知识,以提高资源共享,本文提出一个基于本体论的知识管理框架模型。从知识的建立和知识的检索两方面分析了模型的实现技术。探讨了相互协作的对等体按预定义查询模式和本体论匹配的语义技术实现信息搜索和知识获取的过程。  相似文献   

提出一种宠物知识图谱的构建框架。通过自顶向下的方式设计并构建了schema(概念)层,从半结构化和非结构化数据中进行知识抽取构建了数据层。在对非结构化数据的实体抽取方面,提出了一种条件随机场(CRF)与宠物症状词典相结合的症状命名实体识别方法。该方法利用症状词典对文本进行识别,获取语义类别信息,CRF结合语义信息实现对症状实体的识别抽取。实验结果表明了该方法的有效性。在知识表示方面,选用OrientDB数据库支持的属性图模型来表示。知识图谱采用OrientDB图数据库来完成知识的存储,并实例展示了构建的宠物知识图谱。  相似文献   

研究了基于案例推理的通信对抗指挥智能决策支持系统开发技术。在分析通信对抗指挥决策流程的基础上,基于案例推理的设计思想,提出了一个通信对抗指挥智能决策支持系统的技术框架。该框架划分为应用层、处理层、管理层、信息层和通信层,同时讨论了各层的功能及详细内容。该系统克服了传统的基于规则推理系统的军事知识难于获取、表示和推理的脆弱性等缺陷,能有效地处理通信对抗指挥中面临的半结构化或非结构化问题,提高了制定通信对抗方案的时效性和科学性。  相似文献   

基于本体的Web使用知识发现模型及应用   总被引:3,自引:0,他引:3       下载免费PDF全文
何丽  严冬梅  韩文秀 《计算机工程》2006,32(14):169-171
本体在Web上的应用能够有效解决Web信息共享的语义问题。该文提出了基于Web本体和服务器日志文件的知识发现模型,主要讨论了用户访问行为的表示、语义用户分布的定义及发现算法。最后介绍了Web使用知识发现模型在Web个性化系统中的应用。  相似文献   

知识发现在互联网情报收集与处理中的应用   总被引:2,自引:0,他引:2  
论文系统地研究了知识发现技术在互联网情报收集与处理中的应用。将知识发现技术应用于情报收集、情报管理、情报分析等各个阶段,在不同层次上促进了情报工作的深入与相应问题的解决。说明了知识发现技术对于情报领域的深入发展具有相当的促进作用,应该进一步研究并扩展知识发现在情报领域的应用,丰富完善情报体系。  相似文献   

EDM: A general framework for Data Mining based on Evidence Theory   总被引:16,自引:0,他引:16  
Data Mining or Knowledge Discovery in Databases [1, 15, 23] is currently one of the most exciting and challenging areas where database techniques are coupled with techniques from Artificial Intelligence and mathematical sub-disciplines to great potential advantage. It has been defined as the non-trivial extraction of implicit, previously unknown and potentially useful information from data. A lot of research effort is being directed towards building tools for discovering interesting patterns which are hidden below the surface in databases. However, most of the work being done in this field has been problem-specific and no general framework has yet been proposed for Data Mining. In this paper we seek to remedy this by proposing, EDM — Evidence-based Data Mining — a general framework for Data Mining based on Evidence Theory.

Having a general framework for Data Mining offers a number of advantages. It provides a common method for representing knowledge which allows prior knowledge from the user or knowledge discoveryd by another discovery process to be incorporated into the discovery process. A common knowledge representation also supports the discovery of meta-knowledge from knowledge discovered by different Data Mining techniques. Furthermore, a general framework can provide facilities that are common to most discovery processes, e.g. incorporating domain knowledge and dealing with missing values.

The framework presented in this paper has the following additional advantages. The framework is inherently parallel. Thus, algorithms developed within this framework will also be parallel and will therefore be expected to be efficient for large data sets — a necessity as most commercial data sets, relational or otherwise, are very large. This is compounded by the fact that the algorithms are complex. Also, the parallelism within the framework allows its use in parallel, distributed and heterogeneous databases. The framework is easily updated and new discovery methods can be readily incorporated within the framework, making it ‘general’ in the functional sense in addition to the representational sense considered above. The framework provides an intuitive way of dealing with missing data during the discovery process using the concept of Ignorance borrowed from Evidence Theory.

The framework consists of a method for representing data and knowledge, and methods for data manipulation or knowledge discovery. We suggest an extension of the conventional definition of mass functions in Evidence Theory for use in Data Mining, as a means to represent evidence of the existence of rules in the database. The discovery process within EDM consists of a series of operations on the mass functions. Each operation is carried out by an EDM operator. We provide a classification for the EDM operators based on the discovery functions performed by them and discuss aspects of the induction, domain and combination operator classes.

The application of EDM to two separate Data Mining tasks is also addressed, highlighting the advantages of using a general framework for Data Mining in general and, in particular, using one that is based on Evidence Theory.  相似文献   

Cognitive informatics and granular computing are two emerging fields of study concerning information and knowledge processing. A central notion to this processing is information and knowledge granularity. Concepts, as the basic units of thought underlying human intelligence and communication, may play a fundamental role when integrating the results from the two fields in terms of information and knowledge coding, representation, communication, and processing. While cognitive informatics focuses on information processing in the abstract, in machines, and in the brain, granular computing models such processing at multiple levels of granularity. In this paper, we examine a conceptual framework for concept learning from the viewpoints of cognitive informatics and granular computing. Within the framework, we interpret concept learning based on a layered model of knowledge discovery.   相似文献   

信息提取的能力与效率已成为限制遥感应用发展的瓶颈问题。数据开采(DM)与知识发现(KDD)概念的提出及其理论体系的建立为解决这一问题提供了一种全新的视角。基于对DM和KDD的过程分析和对卫星遥感数据的信息论理解,提出了针对地质应用的卫星遥感数据开采与知识发现的技术框架。以此为主线,把时相选择考虑为知识发展过程的一个特定步骤;在研究地质遥感信息的时间效应基础上,探讨了目标知识发现的“微差信息处理”方法和信息融合技术,应用实例证明该框架的合理性及其相应方法的实际意义。  相似文献   

空间数据挖掘及其与智能系统的集成框架   总被引:4,自引:1,他引:4  
空间数据挖掘是指从空间数据库中抽取隐含的知识、空间关系和非显式地存储在空间数据库 中有意义的特征或模式.它在遥感、地理信息系统、医疗影像、信息融合系统等领域具有广 阔的应用前景,因此日渐受到关注和重视.本文从知识发现、认知科学与智能系统交叉结合的 角度,提出了基于数据库和知识库双库协同机制的空间数据挖掘模型,并系统地介绍了从空间 数据库中可发现的知识类型及挖掘方法,然后提出了基于空间数据挖掘的新型智能系统总体 框架和系统开发基本原则,最后探讨了空间数据挖掘的发展方向.  相似文献   

Abstract: Although data mining and knowledge discovery techniques have recently been used to diagnose human disease, little research has been conducted on disease diagnostic modelling using human gene information. Furthermore, to our knowledge, no study has reported on diagnosis models using single nucleotide polymorphism (SNP) information. A disease diagnosis model using data mining techniques and SNP information should prove promising from a practical perspective as more information on human genes becomes available. Data mining and knowledge discovery techniques can be put to practical use detecting human disease, since a haplotype analysis using high-density SNP markers has gained great attention for evaluating human genes related to various human diseases. This paper explores how data mining and knowledge discovery can be applied to medical informatics using human gene information. As an example, we applied case-based reasoning to a cancer detection problem using human gene information and SNP analysis because case-based reasoning has been applied in medicine relatively less often than other data mining techniques. We propose a modified case-based reasoning method that is appropriate for associated categorical variables to use in detecting gastric cancer.  相似文献   

基于Web语料库的知识发现设计与研究   总被引:1,自引:0,他引:1  
提出了Web语料库的概念,并且通过讨论Web信息的抽取、分类及语料的标注等来讲述语料库的构建。在此基础上,进一步阐述了基于Web语料库的知识发现的实现原理及具体设计思想,分析了应用实例的架构、算法及其局限性。阐述了用于挖掘语料库信息的索引设计、知识发现过程及知识的表现等。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号