首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
姜琳  李宇  卢汉  曹存根 《计算机科学》2007,34(12):151-156
文本知识获取(Knowledge acquisition from text,简称KAT)是知识工程中的一个重要研究课题。重点研究如何从大规模Web网页文本中获取地理实体概念及其位置关系知识,本文首先介绍了如何自动和半自动地获取这些地理实体概念及其位置关系的文法模式,建立文法模式库;然后基于文法模式库获取例句来抽取候选概念并进行概念验证;最后利用基于图论的方法构造位置关系图,利用地理领域特定规则进行分析验证。作为统一概念图管理下概念空间的一个重要组成部分,地理实体概念及其位置关系本身不仅是知识库的一个重要部分,还可为知识库中其它领域的知识提供支持。  相似文献   

2.
基于词序列频率有向网的中文组合词提取算法*   总被引:2,自引:1,他引:1  
随着人类知识体系的不断拓展和深化,很多组合词(多个词或语素组成的词)被创造出来用于表达新的概念。由于无法及时把组合词收录进词库,分词系统无法识别它们。为此,从文本中提取组合词成为智能计算领域的一个热门的研究方向。借鉴人类的认知心理模式,提出一种基于词序列频率有向网的组合词抽取算法,以识别自由文本中的组合词。算法首先建立描述文本中的词序列出现频率的有向网,然后通过独特的矩阵运算,逐步把组合词提取出来。算法的优点是无须借助专业的语言知识,在实验分析中,算法显示了较好的效果。  相似文献   

3.
在文本知识获取中,上下位关系的获取是一个基本而又关键的问题。针对基于模式上下位关系获取中遇到的下位概念获取问题,本文结合我们的研究工作,给出一种从符合“是一个”模式的句子中获取下位概念的方法,这里主要利用半自动获取的词典和句型对“是一个”模式进行分析,然后根据不同的规则,分流获取下位概念。在实验分析中,此方法显示了较好的效果。  相似文献   

4.
一种高性能的两类中文文本分类方法   总被引:35,自引:0,他引:35  
提出了一种高性能的两类中文文本分类方法.该方法采用两步分类策略:第1步以词性为动词、名词、形容词或副词的词语作为特征,以改进的互信息公式来选择特征,以朴素贝叶斯分类器进行分类.利用文本特征估算文本属于两种类型的测度X和Y,构造二维文本空间,将文本映射为二维空间中的一个点,将分类器看作是在二维空间中寻求一条分割直线.根据文本点到分割直线的距离将二维空间分为可靠和不可靠两部分,以此评估第1步分类结果,若第1步分类可靠,做出分类决策;否则进行第2步.第2步将文本看作由词性为动词或名词的词语构成的序列,以该序列中相邻两个词语构成的二元词语串作为特征,以改进互信息公式来选择特征,以朴素贝叶斯分类器进行分类.在由12600篇文本构成的数据集上运行的实验表明,两步文本分类方法达到了较高的分类性能,精确率、召回率和F1值分别为97.19%,93.94%和95.54%.  相似文献   

5.
部分整体关系获取是知识获取中的重要组成部分。Web逐步成为知识获取的重要资源之一。搜索引擎是从Web中获取部分整体关系知识的有效手段之一,我们将Web中包含部分整体关系的检索结果集合称为部分整体关系语料。由于目前主流搜索引擎尚不支持语义搜索,如何构造有效的查询以得到富含部分整体关系的语料,从而进一步获取部分整体关系,就成为一个重要的问题。该文提出了一种新的查询构造方法,目的在于从Web中获取部分整体关系语料。该方法能够构造基于语境词的查询,进而利用现有的搜索引擎从Web中获取部分整体关系语料。该方法在两个方面与人工构造查询方法和基于语料库查询构造查询方法所获取的语料进行对比,其一是语料中含有部分整体关系的语句数量;二是从语料中进一步获取部分整体关系的难易程度。实验结果表明,该方法远远优于后两者。  相似文献   

6.
用Matlab语言建构贝叶斯分类器   总被引:2,自引:1,他引:2  
文本分类是文本挖掘的基础与核心,分类器的构建是文本分类的关键,利用贝叶斯网络可以构造出分类性能较好的分类器。文中利用Matlab构造出了两种分类器:朴素贝叶斯分类器NBC,用互信息测度和条件互信息测度构建了TANC。用UCI上下载的标准数据集验证所构造的分类器,实验结果表明,所建构的几种分类器的性能总体比文献中列的高些,从而表明所建立的分类器的有效性和正确性。笔者对所建构的分类器进行优化并应用于文本分类中。  相似文献   

7.
该文基于朴素贝叶斯分类器对朝鲜语文本分类进行了研究。首先,利用基于类别选择的特征选择方法对朝鲜语文本进行特征选择,并使用类TF-IDF估算方法计算权重;其次,构造朴素贝叶斯分类器;最后,利用分类器实现对朝鲜语文本的分类。实验表明,该方法在朝鲜语文本分类中具有较好的效果,为朝汉结合文本分类提供了一定的依据。  相似文献   

8.
在语种识别中,传统的N-Gram方法对文本长度依赖度高,因而无法有效地对短文本进行语种识别。现有的基于神经网络的模型无法同时考虑词本身信息和词间组合信息,从而降低了短文本语种识别的质量。针对以上问题,提出一种基于深度学习的字符级短文本语种识别方法。采用卷积神经网络从字符向量中获取词中字符组合信息;通过长短期记忆网络获取词与词之间的特征信息;使用全连接网络实现相似语言的语种识别。在维吾尔语、哈萨克语以及DSL2017数据集上的实验结果表明,该方法可以有效地提高相似语言短文本的识别精度。  相似文献   

9.
樊康新 《计算机工程》2009,35(24):191-193
针对朴素贝叶斯(NB)分类器在分类过程中存在诸如分类模型对样本具有敏感性、分类精度难以提高等缺陷,提出一种基于多种特征选择方法的NB组合文本分类器方法。依据Boosting分类算法,采用多种不同的特征选择方法建立文本的特征词集,训练NB分类器作为Boosting迭代过程的基分类器,通过对基分类器的加权投票生成最终的NB组合文本分类器。实验结果表明,该组合分类器较单NB文本分类器具有更好的分类性能。  相似文献   

10.
本文提出基于GEP的文本分类器、复合判别模式的定义;给出基于GEP的文本分类算法,并进行了试验验证。在给定试验数据集上的试验结果表明,该算法的综合性能指标F—β值为71.70%,较遗传算法和KNN算法分别提高了3.25%和0.12%。试验证明了GEP可以用于文本分类,并具有较好的分类效果。  相似文献   

11.
12.
基于双语模型的汉语句法分析知识自动获取   总被引:2,自引:0,他引:2  
提出了一种汉语句法分析知识自动获取的新方法。该方法以双语语料库为基础,在双语语言模型的指导下,利用英语句法分析和双语词汇对齐得到汉语句子分析结果。根据得到的句子分析可以提取汉语组块边界信息和简单的句法分析规则。实验结果表明,自动获取的组块分析边界和已有的汉语句法分析体系取得了很好的一致性,证明了该方法的可行性和有效性。文中提出的方法充分利用现有的英语地研究成果,为汉语句法分析研究提出了一个崭新的思路。  相似文献   

13.
Much recent research effort in the field of knowledge acquisition (KA) has focussed on extending knowledge acquisition techniques and processes to include a wider array of participants and knowledge sources in a variety of knowledge acquisition scenarios. As the domain of expert systems applications and research has expanded, techniques have been developed to acquire and incorporate knowledge from groups of experts and from various sources such as text, video, and audio tapes. However, the dominant participant-role model remains that of the knowledge engineer eliciting knowledge from one or more human experts. This conceptual gap has contributed to the major divisions in the KA field between researchers interested in manual KA and those developing tools for automated KA. This article considers the wide variety of possible KA scenarios and presents a meta-view of KA participants and the roles they may assume.We suggest that it is more appropriate to think of knowledge acquisition participants as playing one or more roles. These include knowledge sources, agents and targets for KA processes. We also present a participant model drawn from research in decision support systems that more accurately characterizes the diversity of the entities participating in the KA process. This view is more inclusive as it allows us to consider both human-human and human-computer KA interactions as well as the whole variety of knowledge sources and targets. A careful consideration of the meta-view and its associated role-participant mappings also yields the new ideas of the elemental and composite role and the multi-role entity. These new constructs are then used to identify areas where research is currently needed and to generate specific research issues. Taken altogether, this view allows a more flexible consideration of the many possible combinations that can and frequently do occur in actual KA situations.  相似文献   

14.
刘磊  曹存根 《计算机工程》2008,34(14):12-13
上下位关系的自动验证是知识获取中的一个关键问题。提出一种基于混合特征的迭代上下位关系验证方法,从语义、语境、空间结构角度,给出一组上下位关系特征,根据抽样数据分析,将所有特征转化为用于验证的产生式规则,利用这些规则对基于模式获取的上下位关系进行循环迭代验证。实验结果说明了该方法的有效性。  相似文献   

15.
作者及其团队长期针对农业领域的知识获取技术进行了系列性研究.阐述了运用智能引导、机器学习、数据挖掘、智能计算等技术的人工和自动/半自动的知识获取方法.这些方法能够有效地获取领域知识,发现隐含模式,进行知识精化.研发了知识获取工具.这些方法和工具反映了知识获取技术对农业信息工程所起的重要作用.  相似文献   

16.
卢林兰  李明 《计算机工程与设计》2007,28(15):3731-3733,3786
在ontology研究的基础上,提出了一种基于ontology的多库知识获取(OBMDKA)方法.考虑到不同用户有不同的表述习惯,引入自然语言理解(NLU)子系统和用户ontology,在正确理解用户语义的前提下方便用户查询.同一知识的表示形式是多种多样的,按不同的表示形式将其分别存放在不同的库中.利用领域ontology对待查找知识进行分类,使查找更加准确全面.  相似文献   

17.
Inherent heterogeneity and distribution of knowledge strongly prevent knowledge from sharing and reusing among different agents and software entities, and a formal ontology has been viewed as a promising means to tackle this problem. In this paper, a domain-specific formal ontology of archaeology is presented. The ontology mainly consists of three parts: archaeological categories, their relationships and axioms. The ontology not only captures the semantics of archaeological knowledge, but also provides archaeology with an explicit and forma specification of a shared conceptualization, thus making archaeological knowledge shareable and reusable across humans and machines in a structured fashion. Further, we propose a method to verify ontology correctness based on the individuals of categories. As applications of the ontology, we have developed an ontology-driven approach to knowledge acquisition from archaeological text and a question answering system for archaeological knowledge.  相似文献   

18.
Automated knowledge acquisition is an important research issue in machine learning. Several methods of inductive learning, such as ID3 family and AQ family, have been applied to discover meaningful knowledge from large databases and their usefulness is assured in several aspects. However, since their methods are of a deterministic nature and the reliability of acquired knowledge is not evaluated statistically, these methods are ineffective when applied to domains essentially probabilistic in nature, such as medical domains. Extending concepts of rough set theory to a probabilistic domain, we introduce a new approach to knowledge acquisition, which induces probabilistic rules based on rough set theory (PRIMEROSE) and develop a program that extracts rules for an expert system from a clinical database, using this method. The results show that the derived rules almost correspond to those of the medical experts.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号