首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 151 毫秒
1.
基于HMM的百科辞典文本中句子的知识点分类   总被引:2,自引:0,他引:2  
在百科全书条目文本中,往往以几个不同的侧面说明一个条目,一个侧面构成有关这一条目的一个知识点。知识点是一般文本处理领域中话题这一概念在百科全书文本中的具体表现。属于同一个类型的条目文本中总是重复出现有限的几个知识点,这些知识点构成了有关该类型的知识点集合,并且这些知识点在该类型不同的条目文本中的分布有较强的规律性。在条目文本中识别出对应的知识点序列是百科全书中知识提取过程的重要一环。该文提出了一种基于隐马尔科夫(HMM)模型的方法,利用知识点在条目文本中的转移规律以及知识点的词特征分布来判断每个句子的知识点类别。实验表明这个方法能取得较好的结果,在《中国大百科全书》地理卷的中国县市类型的条目文本中的实验结果的正确率为91.8%。  相似文献   

2.
基于HMM的百科辞典文本中旬子的知识点分类   总被引:1,自引:0,他引:1  
在百科全书条目文本中,往往以几个不同的侧面说明一个条目,一个侧面构成有关这一条目的一个知识点。知识点是一般文本处理领域中话题这一概念在百科全书文本中的具体表现。属于同一个类型的条目文本中总是重复出现有限的几个知识点,这些知识点构成了有关该类型的知识点集合,并且这些知识点在该类型不同的条目文本中的分布有较强的规律性。在条目文本中识别出对应的知识点序列是百科全书中知识提取过程的重要一环。该文提出了一种基于隐马尔科夫(HMM)模型的方法,利用知识点在条目文本中的转移规律以及知识点的词特征分布来判断每个句子的知识点类别。实验表明这个方法能取得较好的结果,在《中国大百科全书》地理卷的中国县市类型的条目文本中的实验结果的正确率为91.8%。  相似文献   

3.
知识获取是知识工程中关键的一环,而从文本知识源中获取专业知识是一种重要而常用的途径。而不同文本知识源对同一对象描述往往有所不同,为了获取完备的高精度和细粒度的知识,给出了一种从多种文本知识源中获取历史知识的方法。其基本思想是:将不同文本知识源的知识自动翻译成框架知识;对描述相同对象的不同框架进行不一致性检测并修正;合并知识框架。实验表明,该方法能获取到高精度和细粒度的历史知识,是可行和有效的,并为下一步的知识服务奠定重要的基础。  相似文献   

4.
知识获取是文本挖掘中必要且重要的步骤之一,从文本中获取知识已成为了一种常用途径,然而不同文本知识源可能引起知识的不一性问题。为了保证所获取知识的一致性和精确性,分析了文本知识的不一致性类型,并提出了基于框架的不一致性检测和修正算法,为下一步的知识服务奠定了基础。实验结果表明所提出的不一致性处理方法是可行和有效的。  相似文献   

5.
从文本中获取植物知识方法的研究   总被引:1,自引:0,他引:1  
知识获取一直是人工智能中的一个关键问题.当前,知识的文本挖掘(KAT)已经成为计算机领域的一个重要的研究课题.本文中,给出了基于植物本体的从海量网页文本库中自动获取植物领域知识的方法.该方法包括两个部分,一是植物本体(Botanical Ontology),它是顾芳博士等建立的生物本体的扩展.第二部分是以植物本体为基础,在网络文本库中进行文本挖掘(Text Mining),自动获取植物知识.实验证明,基于本体的文本挖掘是一种有效的知识获取方法.  相似文献   

6.
王海涛  曹存根  高颖 《计算机学报》2005,28(12):2010-2018
文章介绍了一种新的基于领域本体的文本知识自动获取方法的设计和实现.通过引入领域本体,实现了半结构化文本知识的完全自动获取.该方法具有较好的通用性,把人们从繁重的手工劳动中解放出来,并能极大地提高知识获取的效率.已经设计并实现了:基于领域本体的知识获取方法OMKast;一种参数化的知识编程语言ePKPL,用以实现OMKast、ePKPL虚拟机VM(即ePKPI,运行环境).目前,这项工作已经在中草药、音乐、西医等领域进行了应用,取得了满意的结果.  相似文献   

7.
一、界定在《中国大百科全书·教育》中“知识”概念是这样表述的:“所谓知识,就它反映的内容而言,是客观事物的属性与联系的反映,是客观世界在人脑中的主观映象。就它的反映活动形式而言,有时表现为主体对事物的感性知觉或表象,属于感性知识,有时表现为关于事物的概念或规  相似文献   

8.
余蕾  曹存根 《计算机科学》2007,34(2):161-165
互联网网页中存在大量的专业知识。如何从这些资源中获取知识已经成为10多年来的一个重要的研究课题。概念和概念间的关系是知识的基本组成部分,因此如何获取并验证概念,成为从文本到知识的过程中的重要步骤。本文提出并实现了一种自动从Web语料中获取概念的方法,该方法利用了规则、统计、上下文信息等多种方法和信息。实验结果表明,该方法达到了较好的效果。  相似文献   

9.
基于PADL的古代人物简历知识获取   总被引:2,自引:0,他引:2  
领域文本知识获取是目前人工智能中的一个关键问题。本文探讨如何从人物简介中获取人物知识。由于自然语言技术目前尚不足支持自动的知识获取,某种形式的人机交互或半自动方法是一种可行的折衷方案。本文在总结人物知识描述的特点基础上,提出了一种中问标记语言,它是自然语言到目标知识表示语言的过渡桥梁。同时,我们还介绍使用该方法在宗教古代人物知识获取中的应用。  相似文献   

10.
文本切分知识获取及其应用   总被引:2,自引:0,他引:2  
文章描述了一种从熟语料中自动获取文本切分知识的机器学习的方法。该方法从已切分标注加工的熟语料中自动获取错误的文本切分形式及其相应的上下文信息,以及正确的切分形式,形成知识库,并将获取的知识再应用到新语料的加工过程,从而进一步提高机器切分的正确率;同时,采用滚动式的方法,建造具有较高加工质量的大规模语料库。  相似文献   

11.
面向事件的本体研究   总被引:9,自引:2,他引:7  
世界是物质的,物质的世界是运动的,运动是绝对的,静止是相对的.事件作为人类知识的单元,反映了事物的运动,受到了学术界多领域专家的高度重视.在研究面向事件的知识表示的基础上,给出了事件定义及其六元组的形式化表示,并提出了事件本体模型;最后,以基于事件本体的篇章理解为例,简要说明了篇章与句子的事件网络表示、生成及其应用.与传统本体相比,事件本体以更高粒度的事件作为知识表示单元,更符合客观实际,更便于计算机模拟大脑工作.  相似文献   

12.
该文研究了一种基于多特征表示的本体概念挂载方法。以中国大百科知识体系作为本体体系结构,抽取网络知识库条目作为本体概念,通过分析条目中文本内容、语义标签和半结构化信息获得本体概念间层级关系。该文将中国大百科知识体系扩展为百万级概念的多领域中文本体,为进一步抽取本体概念的属性、概念之间的非层级关系以及支持问答服务等应用建立了良好的基础。实验证明该方法相对于单一特征方法能够提高11.8%的挂载精度。  相似文献   

13.
自然语言处理中的逻辑词   总被引:4,自引:0,他引:4  
词是自然语言处理中最基本的单位,在当今知识表示领域,知识图作为自然语言理解的语义模型有其独到之处。本文从语言学和逻辑学的角度,首次提出并探讨了逻辑词研究逻辑词分类及如何用知识图表示各类逻辑词的结构。对自然语言处理中研究复句和篇章的理解提供了一种新的途径。  相似文献   

14.
There is an urgent need to automatically identify information in legal texts. In this paper, we argue that discourse analysis yields valuable knowledge to be incorporated in text processing systems. Knowledge about discourse patterns has already been applied in legal text generation systems. But, it is equally important to incorporate this kind of knowledge in legal information extraction systems. This knowledge is helpful for locating information in texts. Also, we demonstrate the need for adequate, maintainable, and possibly sharable knowledge representations of discourse patterns. The findings are illustrated by explicating the role discourse analysis played when building the SALOMON system, a system that automatically abstracts Belgian criminal cases.  相似文献   

15.
This research aimed to investigate what role heavy users attribute to the Professional Technology Temple (PTT) Bulletin Board Service (BBS) article commendation and criticism (ACAC) scheme, especially in terms of discussion and knowledge construction. Data collection took place through a structured questionnaire anonymously administered to 120 heavy users as well as text analysis of the ACAC scheme usage for the two most frequented boards by these heavy users during a one-week time period. The construct of students' perceptions of the ACAC scheme was ensured through factor analysis and reliability analysis. Three factors were extracted including Knowledge Integration, Knowledge Sharing, and Participation. The ACAC scheme usage for the non-academic “gossip” board was much higher than that of the academic “education” board. Questionnaire responses by Taiwanese university student heavy users accessing the PTT BBS mainly for non-academic purposes were found to be significantly different than those of the other four between subject groups including work, academic, and both academic and non-academic. Interpretations of these findings are given and their pedagogical implications are discussed.  相似文献   

16.
Two key aspects of the Knowledge Society are the interconnection between the actors involved in the decision making processes and the importance of the human factor, particularly the citizen’s continuous learning and education. This paper presents a new module devoted to knowledge extraction and diffusion that has been incorporated into a previously developed decision making tool concerning the Internet and related with the multicriteria selection of a discrete number of alternatives (PRIOR-Web). Quantitative and qualitative procedures using data and text mining methods have been employed in the extraction of knowledge. Graphical visualisation tools have been incorporated in the diffusion stage of the methodological approach suggested when dealing with decision making in the Knowledge Society. The resulting collaborative platform is being used as the methodological support for the cognitive democracy known as e-cognocracy.  相似文献   

17.
意图分类是一种特殊的短文本分类方法,其从传统的模板匹配方法发展到深度学习方法,基于BERT模型的提出,使得大规模的预训练语言模型成为自然语言处理领域的主流方法。然而预训练模型十分庞大,且需要大量的数据和设备资源才能完成训练过程。提出一种知识蒸馏意图分类方法,以预训练后的BERT作为教师模型,文本卷积神经网络Text-CNN等小规模模型作为学生模型,通过生成对抗网络得到的大量无标签数据将教师模型中的知识迁移到学生模型中。实验数据包括基于真实场景下的电力业务意图分类数据集,以及通过生成对抗网络模型生成的大量无标签文本作为扩充数据。在真实数据和生成数据上的实验结果表明,用教师模型来指导学生模型训练,该方法可以在原有数据资源和计算资源的条件下将学生模型的意图分类准确率最高提升3.8个百分点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号