首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
基于密度的不确定性数据概率聚类   总被引:1,自引:0,他引:1  
近期传感数据监测和移动对象跟踪等许多从自然界直接采集数据的新应用引发了不确定性数据管理这一新的研究课题.这些应用中相关数据的不确定性为传统的数据处理方法提出了新的挑战.探讨的重点是不确定性数据的聚类.提出了一个针对不确定性数据的基于密度的聚类算法,根据不确定性数据内在的概率分布信息进行概率聚类,并采用R树索引和概率阀值索引提高算法的效率.仿真试验表明,提出的算法在有效性和效率方面均优于当前主要的基于密度的不确定性数据聚类算法.  相似文献   

2.
近年来,谱聚类在分类领域得到了广泛的研究,其中基于路径和基于密度的算法是两个重要的研究方向。虽然这两种算法在一些数据集上能取得较好的分类效果,但不能对一些特殊的数据集进行准确分类。融合了这两种方法的优点,通过多级密度约束来寻找路径,根据得到的路径建立新的相似性矩阵。为了加强对噪声的鲁棒性,根据数据集的局部信息加入鲁棒性系数,提出了基于路径与密度的稳健谱聚类算法。实验结果表明该方法在人工数据集和手写体数据集上能取得较理想的分类结果。  相似文献   

3.
针对网络流量分类识别系统尤其是实时识别系统对实现复杂度和分类准确率的要求,提出一种复杂度和准确率的折中方案。通过基于密度的思想对K-means算法随机选取初始聚类中心这一关键缺陷进行改进,以及引入聚类有效性判别准则函数确定最终聚类个数实现对算法的全面优化,进而提出基于改进K-means算法的网络流量分类方法,在兼顾K-means算法简单易实现、分类快速特点的同时,提高了分类的准确率。在公开的权威网络流量数据集上的实验表明,与普通K-means方法相比,该方法在网络流量分类方面具有更高的分类准确率和更好的稳定性。  相似文献   

4.
根据基因表达数据的特点,提出一种高精度的基于密度的聚类算法DENGENE.DENGENE通过定义一致性检测和引进峰点改进搜索方向,使得算法能够更好地处理基因表达数据.为了评价算法的性能,选取了两组广为使用的测试数据,即啤酒酵母基因表达数据集对算法来进行测试.实验结果表明,与基于模型的五种算法、CAST算法、K-均值聚类等相比,DENGENE在滤除噪声和聚类精度方面取得了显著的改善.  相似文献   

5.
一种基于网格和密度的数据流聚类算法   总被引:1,自引:0,他引:1  
在"数据流分析"这一数据挖掘的应用领域中,常规的算法显得很不适用.主要是因为这些算法的挖掘过程不能适应数据流的动态环境,其挖掘模型、挖掘结果不能满足实际应用中用户的需求.针对这一问题,本文提出了一种基于网格和密度的聚类方法,来有效地完成对数据流的分析任务.该方法打破传统聚类方法的束缚,把整个挖掘过程分为离线和在线两步,最终通过基于网格和密度的聚类方法实现数据流聚类.  相似文献   

6.
本文介绍的是一种有效发现和去除三维数据噪音方法,它既能改善去除噪音的效果,又能保持特征信息。该方法是一种两阶段噪音数据处理方法。该方法首先通过密度聚类将数据分类为正常簇集合、疑似簇集合、异常簇集合,然后利用正常簇集合中的点对疑似簇集合中各点进行投票判断,最终得到一个合理的三维点云数据模型。实验结果证明,本方法能够有效去除制造类工件模型的三维点云数据中的噪音数据,同时能良好保持模型表面的特征,加快处理效率。  相似文献   

7.
针对SVM在对大规模数据分类时求解规模过大的问题,提出了一种缩减数据集以提高训练速度的方法。该算法的第一步利用基于密度的方法大致定位能代表某个局域的质点,然后用SVM训练缩减后的数据得到一组支持向量,第二步的训练数据由支持向量以及其所代表的样本点构成。仿真实验证明该算法在保证分类准确率的情况下能有效地提高分类速度。  相似文献   

8.
采用目前方法对企业财务数据进行异常判定时,存在AUC值小、相对误差大等问题,提出基于数据分类的企业财务数据异常判定方法。通过模糊聚类方法对原始企业财务数据集进行预处理,依据支持向量机原理构建异常数据判定模型,结合企业财务实际情况通过残差计算完成数据异常的判定。实验结果表明:所提方法能够有效地增大AUC值、减小相对误差、缩短判定时间并降低漏判率。  相似文献   

9.
半监督聚类中基于密度的约束扩展方法   总被引:1,自引:0,他引:1       下载免费PDF全文
张亮  李敏强 《计算机工程》2008,34(10):13-15
现有的半监督聚类方法较少利用数据集空间结构信息,限制了聚类算法的性能。该文提出一种基于密度的约束扩展方法(DCE),将数据集以图的形式表达,定义一种基于密度的图形相似度。根据样本点间的距离和相似度关系,对已知约束集进行扩展,扩展后的约束集可用于各种半监督聚类算法。以约束完全连接聚类和成对约束K均值方法为例,说明了约束扩展方法的应用。实验表明,DCE能够有效地提升半监督聚类算法的性能。  相似文献   

10.
本文联系异常检测和数据挖掘,从理论上着重分析了在入侵检测系统中应用基于密度聚类算法的必要性和有效性,从TCPDump网络数据和系统日志中提取分析后生成特征数据,通过Clenmine中CEMI实现定制的基于密度的改进DBSCAN算法进行测试,结果表明利用该算法可以较好地识别分布式拒绝服务攻击等多种入侵行为。  相似文献   

11.
工业CT体数据分类的合理性直接影响到三维体重构的效果。目前的多数分类方法都是交互式的半自动法。文中提出一种实现体数据自动分类的方法,该方法在增强峰谷特性后的体数据灰度分布图上计算差分曲线的过零点,初步判定体数据的类别,再引入独立峰判断准则和缓坡再划分准则,通过类别合并和类别细分确定多个阈值,从而划分体数据类别。该方法能快速、合理地对工业CT体数据进行自动分类。  相似文献   

12.
直接体绘制是形成于20世纪80年代后期的一个新研究领域,本论文提出了一种基于体数据的标量值和梯度的分类方法,采用该方法可获得体数据重要的信息,从而帮助研究人员准确地设置传输函数的不透明度和颜色参数,使绘制的图像更加清晰。  相似文献   

13.
基于数值属性的关联规则挖掘算法   总被引:7,自引:0,他引:7  
关联规则的挖掘是一个重要的数据挖掘问题。目前的算法主要是研究支持—信任框架理论的关联规则挖掘,基于支持—信任理论的关联规则挖掘布尔型描述的数据已经比较成熟,但是现实的数据库中有许多数值属性的数据,从这些数据中挖掘潜在的规则,经典的关联规则方法(Apriori)就显得力不从心了。这里介绍将数值数据映射到二维空间,利用基于密度分布函数的聚类分析方法将数值属性区间分段,并在此基础上挖掘容易理解并且具有概括性和有效的数值属性关联规则。  相似文献   

14.
在直接体绘制中,传输函数定义了从体数据属性到光学属性的映射关系,直接决定了体绘制的效果,是体绘制研究的关键技术之一。传统的多维传输函数是基于体数据和梯度体数据进行设计的,本文提出基于K均值聚类的传输函数设计方法,并在此基础上进行气象数据的分类方法研究,实现基于GPU的气象台风数据的直接体绘制。  相似文献   

15.
Recently, a massive quantity of data is being produced from a distinct number of sources and the size of the daily created on the Internet has crossed two Exabytes. At the same time, clustering is one of the efficient techniques for mining big data to extract the useful and hidden patterns that exist in it. Density-based clustering techniques have gained significant attention owing to the fact that it helps to effectively recognize complex patterns in spatial dataset. Big data clustering is a trivial process owing to the increasing quantity of data which can be solved by the use of Map Reduce tool. With this motivation, this paper presents an efficient Map Reduce based hybrid density based clustering and classification algorithm for big data analytics (MR-HDBCC). The proposed MR-HDBCC technique is executed on Map Reduce tool for handling the big data. In addition, the MR-HDBCC technique involves three distinct processes namely pre-processing, clustering, and classification. The proposed model utilizes the Density-Based Spatial Clustering of Applications with Noise (DBSCAN) technique which is capable of detecting random shapes and diverse clusters with noisy data. For improving the performance of the DBSCAN technique, a hybrid model using cockroach swarm optimization (CSO) algorithm is developed for the exploration of the search space and determine the optimal parameters for density based clustering. Finally, bidirectional gated recurrent neural network (BGRNN) is employed for the classification of big data. The experimental validation of the proposed MR-HDBCC technique takes place using the benchmark dataset and the simulation outcomes demonstrate the promising performance of the proposed model interms of different measures.  相似文献   

16.
随着三维数据场可视化精度要求的不断提高,直接体绘制方法已经成为该领域的研究热点。然而,提高数据场采样率以获得高质量的图像与绘制速度的降低这一矛盾,很大程度上限制了体绘制方法的研究进展。本文阐述了体绘制方法的关键技术——分类和体绘制积分,并在此基础上介绍了预积分分类技术。该方法能够同时提高体绘制方法的执行效率与图像质量,并给出了实例说明。最后,提出了预积分分类技术中存在的一些问题。  相似文献   

17.
波段选择是数据降维的有效手段,但有限的标记样本影响了监督波段选择的性能。提出一种利用图Laplacian和自训练策略实现半监督波段选择的方法。该方法首先定义基于图的半监督特征评分准则以产生初始波段子集,接着在该子集基础上进行分类,采用自训练策略将部分可信度较高的非标记样本扩展至标记样本集合,再用特征评分准则对波段子集进行更新。重复该过程,获得最终波段子集。高光谱波段选择与分类实验比较了多种非监督、监督和半监督方法,实验结果表明所提算法能选择出更好的波段子集。  相似文献   

18.
为解决数据流分类过程中样本标注和概念漂移问题,提出了一种基于实例迁移的数据流分类挖掘模型.首先,该模型用支持向量机作学习器,用所得分类模型中的支持向量构建源领域,待分类的当前数据块为目标域.然后,借助互近邻思想在源域中挑选目标域中样本的真邻居进行实例迁移,避免发生负迁移.最后,通过合并目标域和迁移样本形成训练集,提高标注样本数量,增强模型的泛化能力.理论分析和实验结果表明,所提方法具有可行性,相比其它学习方法在分类准确性方面更具优势.  相似文献   

19.
提出一种逻辑卷有效数据的数据一致性检测方法。本地数据中心使用Windows卷影拷贝数据,保证一致性检测过程不被中断,通过分析本地数据中心发送到远程备份中心的位图信息,保证远程备份中心数据读取的准确性。实验证明,这种一致性检测方法是有效的。  相似文献   

20.
RFID数据流随着时间而不断变化,捕捉其中蕴含的变化可以用于检测有意义事件的发生.提出了一种捕获数据流事件的算法--CECD,通过分析聚类结果分布变化和值域中产生的偏差检测数据流中蕴含的变化,同时采用组合分类技术对变化进行分类,捕获观察到的事件或现象的特性,建立事件与响应的映射关系.实验证明提出的框架可以高效检测数据流上的变化,与不借助变化检测的单纯基于规则的事件检测方法相比可以更准确地捕获事件.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号