首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
该文在领域知识中的概念之间语义关系数量化的基础上,利用概念间的层次结构,根据不同概念的抽象程度,提出具体的量化公式,在类别比较相近情况下有更好的区分能力。  相似文献   

2.
谱聚类算法利用特征向量构造简化的数据空间,在降低数据维数的同时,使得数据在子空间中的分布结构更加明显。该文提出了一种粗糙谱聚类算法,并将其应用于文本数据挖掘。实验表明,该算法与现有的文本聚类算法相比,准确率有一定的提高。  相似文献   

3.
谱聚类算法利用特征向量构造简化的数据空间,在降低数据维数的同时,使得数据在子空间中的分布结构更加明显。该文提出了一种粗糙谱聚类算法,并将其应用于文本数据挖掘。实验表明,该算法与现有的文本聚类算法相比,准确率有一定的提高。  相似文献   

4.
智能学习中的知识表示和知识聚类   总被引:3,自引:0,他引:3  
e-Learning中的智能化学习一直是诸多网络教育研究人员努力去解决而至今尚未有合适解决方案的一个问题。采用传统的导航方式或搜索引擎方式引导学习过程有着自身固有的缺陷。一种新的引导方式是:基于知识指定的表示和组织方式,以知识项和知识交流域(上下文)的映射来引导学习过程。这种方式以知识项得到领域专家认证为前提,通过关联规则对知识进行有效的聚类,给出一系列相关的知识项(相关案例或有关内容),向学习者提供建议性的学习内容,方便了关联学习。  相似文献   

5.
模糊聚类算法在汉语文本聚类中的应用   总被引:8,自引:2,他引:8  
应用一种新的分词算法对汉语文本进行分词,该算法具备不使用词典和语法知识、不使用汉语词法规则、无监督等特点。采用模糊聚类算法对汉语文本进行聚类,该模糊聚类算法优于普通的聚类算法,聚类结果能充分体现汉语文本的多样性和大量性的特点。  相似文献   

6.
为解决在互联网文本信息爆炸性增长的前提下,在大规模文本数据中如何发现隐含的、有价值的潜在知识的问题,提出基于多层次文本聚类的文本知识挖掘方法,针对不同规模的文本数据进行不同粒度的聚类,实现不同层次知识的挖掘。针对最广义层次的文本知识挖掘可实现各主题事务划分,针对子级分类数据的文本知识挖掘可发现下一层次主题分类,针对自定义层次的文本知识挖掘可发现该事件中存在的具体细节。对诉求实际数据的分析结果表明,该方法可在所有诉求数据中挖掘出各种诉求主题,精确挖掘出其中的细节问题,为管理者提供数据和决策支持,提高服务效率。  相似文献   

7.
基于PAT-array和模糊聚类的文本聚类方法   总被引:5,自引:0,他引:5  
林建敏  谢康林 《计算机工程》2004,30(12):126-127,177
阐述了基于后缀树的文本聚类(STC)算法,对其所存在的缺陷进行了分析,并在此基础上提出了采用PAT-array和模糊聚类相结合的方法对其进行的改进,以提高聚类的质量。  相似文献   

8.
基于单词相似度的文本聚类   总被引:3,自引:1,他引:3  
研究了现有的基于向量空间模型的文本聚类算法,发现这些算法都存在数据维度过高和忽略了单词之间语义关系的缺点.针对这些问题,提出一种基于单词相似度的文本聚类算法,该算法首先利用单词相似度对单词进行分类获得单词间的语义关系,然后利用产生的单词类作为向量空间的项表示文本降低了向量空间的维度,最后采用基于划分聚类方法对文本聚类.实验结果表明,相对于传统基于向量空间模型的聚类算法,该算法具有较好的聚类效果.  相似文献   

9.
随着互联网的高速发展,海量信息越来越多,搜索引擎技术发展很快,但是搜索引擎的搜索结果仍然不能满足人们的搜索要求,引入k-means聚类算法对Web文档进行聚类,为了提高聚类性能,引入蛙跳算法进行k值的选取.目的是提高搜索结果的准确性,增加搜索引擎返回结果与查询主题的相关性.  相似文献   

10.
11.
基于领域词典的文本特征表示   总被引:10,自引:0,他引:10  
为提高文本分类性能,提出一种结合机器学习和领域词典的文本特征表示方法.基于领域词典的文本特征表示方法可以增强文本特征表示能力。并降低文本特征空间维数,但是领域词典存在覆盖度不足的问题.为此,提出一种学习模型——自划分模型——来解决这个覆盖度不足的问题.实验结果表明,采用基于自划分模型的领域特征属性作为文本特征。可以提高文本分类性能,特别是特征数目少的情况下,该方法表现出很好的分类效果.相对于传统词文本特征方法。在特征数为500时分类的F1值提高6.58%.  相似文献   

12.
一种面向数据挖掘预处理过程的领域知识的分类及表示   总被引:6,自引:0,他引:6  
本文强调了领域知识应用于数据预处理过程的特点和意义,给出了面向数据预处理技术的领域知识的分类和表示,设计了面向数据预处理技术的领域知识的存储结构和将领域知识应用于数据预处理过程的算法.  相似文献   

13.
预警有助于及时预防和解决隐患,具有重要的应用价值,受到了广泛的关注。提出了一种新的预警机制,以领域相关的预警知识为基础构建预警系统,重点研究了以实际数据为资源,基于背景领域知识挖掘出预警规则,使得预警系统中的预警知识更丰富、更完备、更具有实际应用价值。将上述研究应用于高校教学教务系统的学生成绩预警,实验结果表明所提出的预警机制和方法是有效的。  相似文献   

14.
该文在以基因本体论GO(Gene Ontology,GO)为例考察生物领域知识对基于机器学习的基因挖掘方法的影响。通过基因芯片表返谱数据实验,考察几种基因挖掘方法用与不用GO信息的效果,结果表明利用GO信息,基因挖掘方法都能得到改善。  相似文献   

15.
Data Mining in Large Databases Using Domain Generalization Graphs   总被引:5,自引:0,他引:5  
Attribute-oriented generalization summarizes the information in a relational database by repeatedly replacing specific attribute values with more general concepts according to user-defined concept hierarchies. We introduce domain generalization graphs for controlling the generalization of a set of attributes and show how they are constructed. We then present serial and parallel versions of the Multi-Attribute Generalization algorithm for traversing the generalization state space described by joining the domain generalization graphs for multiple attributes. Based upon a generate-and-test approach, the algorithm generates all possible summaries consistent with the domain generalization graphs. Our experimental results show that significant speedups are possible by partitioning path combinations from the DGGs across multiple processors. We also rank the interestingness of the resulting summaries using measures based upon variance and relative entropy. Our experimental results also show that these measures provide an effective basis for analyzing summary data generated from relational databases. Variance appears more useful because it tends to rank the less complex summaries (i.e., those with few attributes and/or tuples) as more interesting.  相似文献   

16.
文本挖掘是对具有丰富语义的文本进行分析从而发现隐含的,令人感兴趣的,有潜在使用价值知识的过程,是数据挖掘的一个新兴主题。本文首先介绍数据挖掘的定义及其发展,进而叙述文本挖掘的含义,回顾国内外文本挖掘的研究现状,着重论述文本分类与文本聚类的一般过程并指出它们的区别之处。最后指出中文文本挖掘的特点,展望了今后的研究目标。  相似文献   

17.
文本挖掘是对具有丰富语义的文本进行分析从而发现隐含的,令人感兴趣的,有潜在使用价值知识的过程,是数据挖掘的一个新兴主题。本文首先介绍数据挖掘的定义及其发展,进而叙述文本挖掘的含义,回顾国内外文本挖掘的研究现状,着重论述文本分类与文本聚类的一般过程并指出它们的区别之处。最后指出中文文本挖掘的特点,展望了今后的研究目标。  相似文献   

18.
互联网的普及和飞速发展,使Internet成为世界上最大的信息积聚地,但Internet积聚的信息不同与以往的数据挖掘源,其内容大多是半结构化或非结构化的文本。如何有效的对半结构化或非结构化的文本信息进行挖掘即文本挖掘已成为当今热门的研究方向。  相似文献   

19.
知识库通常以网络的形式被组织起来,网络中每个节点代表实体,而每条连边则代表实体间的关系。为了利用这种网状知识库中的知识,往往需要设计专门的、复杂度较高的图算法。然而这些算法并不能很好适用于知识推理,尤其是随着知识库的知识规模不断扩大,基于网状结构知识库的推理很难较好地满足实时计算的需求。该文使用基于TransE模型的知识表示学习进行知识推理,包括对实体关系三元组中关系指示词以及尾实体的推理,其中关系指示词推理的实验取得了较好的结果,且推理过程无需设计复杂的算法,仅涉及向量的简单运算。另外,该文对原始TransE模型的代价函数进行改进,以更好地适用于开放域中文知识库表示学习。  相似文献   

20.
基于Web的文本挖掘技术研究   总被引:2,自引:0,他引:2  
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号