首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
针对多数据库挖掘的预处理,提出了运用聚类的思想来对数据库进行分类。同时,提出了改进的BestClassification算法。通过实验证明这种分类方法具有较好的有效性和正确性。  相似文献   

2.
针对多数据库挖掘的预处理,提出了运用聚类的思想来对数据库进行分类。同时,提出了改进的BestClassification算法。通过实验证明这种分类方法具有较好的有效性和正确性。  相似文献   

3.
对支持向量机的多类分类问题进行研究,提出了一种基于核聚类的多类分类方法。利用核聚类方法将原始样本特征映射到高维特征进行聚类分组,对每一组使用一个支持向量机二值分类器进行分类,并用这些二值分类器组成决策树的节点,构成了一个决策分类树。给出决策树的生成算法,提出了利用交叠系数来控制交叠,从而克服错分积累,提高分类准确率。实验结果表明,采用该方法,手写体汉字识别速度和正确率都达到了实用的要求。  相似文献   

4.
层次支持向量机(SVM)是多类分类方法应用中的研究热点。针对SVM的分类面仅由支持向量决定的理论,提出一种基于无监督聚类方法来预抽取支持向量,训练向量机;并分析现有多类分类方法所存在的弊端,基于综合考虑节点的类集合可分性,设计一种基于树分类器整体性能最优的SVM二叉树层次分类方法。实验表明,该方法对比传统一类对余类法和成对分类法在整体分类精度和训练时间上都有明显提高。  相似文献   

5.
基于ROC曲线分析的AUC方法最初用于评估二类分类,不能直接解决多类别的评估,如何有效地将其推广到多类别评估中是研究的热点问题。首先介绍一种基于一对多方法的多类别AUC评估方法F-AUC,在此基础上根据二叉树的构造思想提出一种新的多类别评估方法B-AUC。该方法在MBNC实验平台上编程实现,并和F-AUC方法进行比较和分析,结果表明该方法是可行的,在评估效果和速度效果上有良好的性能。  相似文献   

6.
提出一种k-means聚类算法和超球结合的多类分类算法。对每一类样本,使用k-means算法获得子类,再在各个子类上构造最小超球,由此,对每类都获得一个超球集,这些超球将样本空间分割,根据样本点所在空间的位置,综合得到决策函数,用于对输入样本点进行类别判断。  相似文献   

7.
王小华  楼佳 《计算机工程》2010,36(13):27-29
综合考虑聚类、分类的特点,从聚类结果出发,学习并利用初始聚类结构信息形成训练集,结合迭代分类思想重新划分原数据集,提出一种基于迭代分类的聚类结果改进方法。实验结果表明该方法具有更高准确率,为获得良好的聚类效果提供了新思路。  相似文献   

8.
通过对支持向量机基本原理及其多类分类方法的研究,提出了一种基于编码的SVM多类分类方法.通过对ORL人脸库样本的多类分类实验,证明此方法在保证高识别率的同时,可减少所需SVM二值分类器个数,从而大大减少了运算量和运算时间,具有较强的实际应用价值.  相似文献   

9.
针对现有的主动学习算法在多分类器应用中存在准确率低、速度慢等问题,将基于仿射传播(AP)聚类的主动学习算法引入到多分类支持向量机中,每次迭代主动选择最有利于改善多类SVM分类器性能的N个新样本点添加到训练样本点中进行学习,使得在花费较小标注代价情况下,能够获得较高的分类性能。在多个不同数据集上的实验结果表明,新方法能够有效地减少分类器训练时所需的人工标注样本点的数量,并获得较高的准确率和较好的鲁棒性。  相似文献   

10.
空间数据库的聚类方法   总被引:4,自引:0,他引:4  
1 引言近年来,数据库的数量和单个数据库的容量都大大增长了。比如,空间物体数据库包括几十亿个望远镜图像,NASA地球观测系统每小时都会产生50GB的数据。这么大的数据量已经远远超出了人为分析解释的能力范围。数据库中的知识发现(KDD)是识别数据中有价值的、新的、潜在有用的、可理解的模式的一  相似文献   

11.
《Information Systems》2005,30(1):71-88
Many large organizations have multiple databases distributed in different branches, and therefore multi-database mining is an important task for data mining. To reduce the search cost in the data from all databases, we need to identify which databases are most likely relevant to a data mining application. This is referred to as database selection. For real-world applications, database selection has to be carried out multiple times to identify relevant databases that meet different applications. In particular, a mining task may be without reference to any specific application. In this paper, we present an efficient approach for classifying multiple databases based on their similarity between each other. Our approach is application-independent.  相似文献   

12.
基于蚁群聚类的历史灾害分级方法   总被引:1,自引:0,他引:1  
贾志娟  胡明生  刘思 《计算机应用》2012,32(4):1030-1032
针对历史灾害记录的描述性、简约性问题,提出一种基于蚁群聚类的历史灾害分级方法。利用灰色关联分析方法对灾害数据进行归一化处理后,再通过蚁群自动聚类的结果来划分历史灾害的等级,以避免人为的主观任意性干扰。通过与其他分级方法的性能对比,实验结果证明该方法具有较高的精确性和实用性。  相似文献   

13.
田华  何翼 《计算机应用研究》2020,37(12):3586-3589
针对大数据分析在大规模并行分布式系统和软件平台上可扩展的问题,提出了一个基于无参数围绕质心二进制分裂聚类(clustering using binary splitting,CLUBS)的大数据挖掘技术。该技术以完全无监督的方式工作,基于最小二次距离的准则进行分裂聚类将数据与噪声分离,通过中级精炼来识别仅包含异常值的块并为剩余块生成全面的簇,设计CLUBS的并行化版本以实现对大数据进行快速有效的聚类。实验表明CLUBS并行算法不受数据维度和噪声的影响,且比现有算法具有更好的可扩展性且速度较快。  相似文献   

14.
随着社交媒体的迅速发展,信息过载问题越发严重,因此如何从海量、短小而充满噪声的社交媒体数据中发现和挖掘出热点话题或者热点事件成为一个重要的问题。结合社交媒体数据实时性、地理性、包含较多元数据等特点,提出了用户行为分析与文本内容分析相结合的热点挖掘方法。在内容分析过程中,提出了从更细的词语粒度进行聚类,以代替传统的在消息粒度进行聚类的经典方法。为了提高话题关键词提取的效果,引入了基于词向量技术,并通过语义聚类的方法进行热点挖掘。在真实数据集上的实验结果表明,该方法提取的关键词语义关联性强、话题划分效果好,在主要指标上优于传统的热点挖掘方法。  相似文献   

15.
基于密度梯度的聚类算法研究   总被引:1,自引:0,他引:1  
陈治平  王雷  李志成 《计算机应用》2006,26(10):2389-2392
针对聚类中不规格形状数据点分布的处理难题,提出了一种基于密度梯度的聚类算法(CDG)。算法通过分析数据样本及其周边的点密度变化情况,选择沿密度变化大的方向寻找不动点,从而获取原始聚类中心,再利用类间边界点的分布情况对小类进行合并。实验结果表明,新算法较基于密度的带噪声数据应用的空间聚类方法(DBSCAN)具有更好的聚类性能。  相似文献   

16.
以美国授权专利数据库为实例,对OLAP及聚类分析技术进行了深入而细致的探讨。针对它们的共通性和差异性,提出了两者结合的美国专利挖掘系统的设计与实现方案,并给出了可视化结果。在此基础上,构建了数据挖掘系统的通用框架。结果表明,将OLAP和数据深层挖掘技术紧密配合、协调使用将是数据挖掘发展的一个方向和趋势。  相似文献   

17.
建立了一种基于高维聚类的探索性文本挖掘算法,利用文本挖掘的引导作用实现数据类文本中的数据挖掘。算法只需要少量迭代,就能够从非常大的文本集中产生良好的集群;映射到其他数据与将文本记录到用户组,能进一步提高算法的结果。通过对相关数据的测试以及实验结果的分析,证实了该方法的可行性与有效性。  相似文献   

18.
针对互联网流量标注困难以及单个聚类器的泛化能力较弱,提出一种基于互信息(MI)理论的选择聚类集成方法,以提高流量分类的精度。首先计算不同初始簇个数K的K均值聚类结果与训练集中流量协议的真实分布之间的规范化互信息(NMI);然后基于NMI的值来选择用于聚类集成的K均值基聚类器的K值序列;最后采用二次互信息(QMI)的一致函数生成一致聚类结果,并使用一种半监督方法对聚类簇进行标注。通过实验比较了聚类集成方法与单个聚类算法在4个不同测试集上总体分类精度。实验结果表明,聚类集成方法的流量分类总体精度能达到90%。所提方法将聚类集成模型应用到网络流量分类中,提高了流量分类的精度和在不同数据集上的分类稳定性。  相似文献   

19.
基于频繁词集聚类的海量短文分类方法   总被引:1,自引:0,他引:1  
王永恒  贾焰  杨树强 《计算机工程与设计》2007,28(8):1744-1746,1780
信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据.文本分类技术对于从这些海量短文中自动获取知识具有重要意义.但是对于关键词出现次数少的短文,现有的一般文本挖掘算法很难得到可接受的准确度.一些基于语义的分类方法获得了较好的准确度但又由于其低效性而无法适用于海量数据.针对这个问题提出了一个新颖的基于频繁词集聚类的短文分类算法.该算法使用频繁词集聚类来压缩数据,并使用语义信息进行分类.实验表明该算法在对海量短文进行分类时,其准确度和性能超过其它的算法.  相似文献   

20.
提出了一种用于在多数据库环境下确定模式的支持度的方法.数据挖掘总是在强关联规则模式中进行挖掘,因此计算模式的支持度必不可少.由于多数据库与单数据库的本质不同,单数据库中的支持度只具有本地效应,它的数值和计算方法在多数据库中都是不适用的,因此需要找到一个在多数据库中计算支持度的方法.又由于每个本地数据库的各方面情况不同,因此各自在总部制定决策时的地位和重要性也就各异.于是,在考虑某模式的支持度时,不能简单的将该模式在各本地数据库中的支持度进行平均,而需要引进"权值"的概念.在综合考虑了这些因素之后,提出了一些确定权值的方案,并给出了一个基于权值计算支持度的方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号