首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 159 毫秒
1.
本研究结合信息熵与粗糙集理论中的属性约简技术,提出了一种新颖的离群点检测算法。这种方法通过在更小的属性子空间去获得相同或相近的离群数据集,使对离群数据的分析更加集中于较小的目标域。该算法对原属性空间进行划分,通过分析计算将具有最大相对熵与负相对势的对象集合判定为离群点集合。为了验证算法的有效性,还在通用数据集上进行了测试,理论分析和实验结果表明该离群点检测算法是有效可行的。  相似文献   

2.
对聚类结果的理解有助于评价聚类效果,可以据此调整聚类过程,更高效地使用聚类结果.但是,聚类结果的理解仍然是一个尚未解决的问题.提出了基于离群点识别技术分析任意聚类算法的聚类结果,发现了聚类结果属性特征簇的方法;提出一种基于不相似性比值的离群点识别算法.通过对全部数据簇的属性描述进行离群点分析,发现各数据簇的特征属性,实现对聚类结果的理解.所提方法适用于任意聚类算法结果的分析.对UCI的iris、ZOO和Housing数据集的采用X-means、Frozen和DBScan算法的聚类结果进行聚类结果分析,实验表明所提方法较成功地发现了不同聚类算法的属性特征簇,有助于对聚类结果的深入理解.  相似文献   

3.
针对传统方法在检测离群点时常因冗余数据的干扰而导致检测用时较长、检测准确率偏低的问题,设计了基于神经网络的大规模数据集离群点检测算法.采用核主成分分析方法对大规模数据集进行降维处理,去除其中存在的冗余数据,利用神经网络在误差函数的基础上实现对离群点的检测.结果表明:该算法的检测时间始终低于0.4 min,且检测准确率始终保持在90%以上,说明该算法能够快速、准确地检测大规模数据集中的离群点.  相似文献   

4.
小波变换的离群时序数据挖掘分析   总被引:1,自引:0,他引:1  
针对时序数据进行离群数据挖掘方法的研究。通过对时序数据进行离散小波变换,将其从时域空间变换到频域空间,使时序数据映射为多维空间的点。该方法具有多尺度、时移不变性等特点,经离群时间序列进行离散小波变换后,不仅具有良好的保距性又达到降低维数目的。然后提出一种基于距离的离群时序数据挖掘算法。仿真试验表明了该方法的有效性。  相似文献   

5.
针对传统离散数据挖掘方法存在内存消耗过大的问题,研究基于人工智能技术的局部离群数据挖掘方法.提取离散数据特征,并使用基于信息熵的算法检测局部离群数据.标准化处理检测出的数据,在神经网络中实现对局部离群数据的挖掘,完成对基于人工智能技术的局部离群数据挖掘方法的研究.通过与传统数据挖掘方法的对比实验结果可知,本文方法在数据...  相似文献   

6.
基于数值属性的关联规则的挖掘   总被引:1,自引:0,他引:1  
研究了基于数值属性的关联规则的挖掘问题,提出了挖掘算法Q-Basic和Q-AR,试验表明Q-AR是有效的。  相似文献   

7.
研究了基于数值属性(QuantitativeAtribute)的关联规则的挖掘问题,提出了挖掘算法Q_Basic和Q_AR,试验表明Q_AR是有效的。  相似文献   

8.
提出了一种基于空间相邻关系的点对象离群检测算法SAOD(Space Adjacent Relations Based GML Point Outlier Detection Algorithm).利用空间相邻关系作为空间点对象的相似度度量准则,得到相似度矩阵,从而挖掘GML中的离群点对象.实验结果表明,SAOD算法能有效地检测GML中的离群点对象并且具有较高的效率.  相似文献   

9.
对基于单数据集和多数据集的离群点算法进行研究,提出一个基于距离模式进行数据集间参照对比的离群点判别模型,该模型通过数学定义清晰描述了参照集和对比集之间离群点模式的判别检测关系,为深入研究切合金融数据挖掘特点的算法建立形式化描述体系。这一模型也可推广应用于网络入侵检测、财务审计、图像识别、电子商务、医疗疫情监测等领域。  相似文献   

10.
分布式计算被广泛应用于离群点检测问题,但分布式环境中节点计算性能的差异带来了数据计算性能的下降问题。针对面向大尺度高维数据离群点分布式计算的负载均衡问题,该文提出了一种加权分布式离群点检测方法。首先根据数据节点的计算性能确定数据节点的权值,然后将数据空间划分为若干个网格,最后设计了一种基于网格划分的加权分配算法WGBA,将这些网格分配到数据节点中,实现并行计算。实验验证了该方法的有效性。  相似文献   

11.
为了减少基于密度的异常点检测算法邻域查询操作的次数,同时避免ODBSN(Outlier Detection Basedon Square Neighborhood)中有意义异常点的丢失和稀疏聚类中的对象靠近稠密聚类时导致错误的异常点判断,提出了一种基于邻域和密度的异常点检测算法NDOD(Neighborhoodand Densitybased Outlier Detection)。NDOD吸收基于网格方法的思想,以广度优先扩张方形邻域,成倍地减少了邻域查询的次数,从而快速排除聚类点并克服基于网格方法中的“维灾”。新引入的基于邻域的局部异常因子代表候选异常点的异常程度,用于对候选异常点的精选,可避免ODBSN的缺陷,发现更多有意义的异常点。大规模和任意形状的二维空间数据的测试结果表明,该算法是可行有效的。  相似文献   

12.
频繁情景可用于挖掘蕴藏在事件序列数据库中的知识,为了提高算法的时间性能,提出了一种挖掘频繁情景的并行算法PRE。研究了局部频繁情景与全局频繁情景的关系;通过研究频繁情景挖掘中事件可删除的条件,提出了逐步缩减数据库的技术,使得算法在迭代过程中需要扫描的数据库大小逐渐减少。数据实验表明,仅采用数据库缩减技术时算法PRE的时间性能比算法WINEPI提高25%,并行挖掘时算法PRE的并行效率与处理器个数近似成线性关系。  相似文献   

13.
在传统的独立成分分析方法中,没有考虑异常数据值对分离性能的影响。该文提出了一种基于影响函数的检测方法,通过该方法可以发现隐藏在观测数据中的异常成分。利用影响函数对数据进行投影分析,对混入脉冲噪声的观测信号进行盲源分离,从而实现对脉冲噪声的消除。实验仿真结果表明,该方法可以有效且可靠地检测出所观察信号中的异常数据。  相似文献   

14.
针对并行关联规则挖掘算法不能有效的解决负载平衡的问题,在CD算法的基础上,介绍了一种基于动态数据集划分的并行关联规则挖掘算法.它根据各个节点的反馈来决定向每个节点分配的数据集大小.与静态的数据集划分相比,它能更好地实现负载平衡,提高并行数据挖掘的效率.  相似文献   

15.
传统的关联规则并行挖掘算法中存在着产生大量的候选项集和通信量高的缺点,本文在分析已有并行挖掘关联规则算法的优缺点的基础上,提出了一个效率较高的并行优化关联规则挖掘算法EPMAR(Efficient Parallel Mining Association Rules),并与其它相应的算法进行了比较.实验结果证明:算法EPMAR是有效的,具有一定的扩展性.  相似文献   

16.
针对大多数基于距离和密度的异常检测算法敏感于近邻参数k的问题,提出了一种鲁棒性异常检测标准——k-近邻域中心偏移异常因子(COOF).数据结点的k-近邻域中心位置会随着近邻参数k的变化而发生迁移,鉴于异常结点要比正常结点对k-近邻域中心位置偏移量的影响更大,通过累加因递增k而产生的偏移量来表征数据结点的异常程度,并在COOF基础上实现了鲁棒性的异常检测算法.通过综合数据和真实数据的实验仿真可知,COOF不仅对近邻参数k具有鲁棒性,而且相比基于距离的k最近邻算法、基于局部距离的异常因子和基于密度的局部异常因子具有更稳定且更准确的异常检测性能.  相似文献   

17.
提出了C4.5决策树算法的一种并行算法,使传统的串行分类算法能在多台PC机和服务器组成的数据挖掘网格上并行数据挖掘. 采用数据纵横剖分,结合递归过程的并行化,实现了可扩展的高性能并行计算,解决了处理海量数据时没有较好并行分类算法的问题. 并给出了指导该并行算法高效计算的方法. 数据运行试验和算法分析表明,该并行算法的性能受多个因素影响,并具有高效的并行效率计算加速比.  相似文献   

18.
提出了一种鲁棒局部二值模式结合相关反馈的基于内容的图像检索算法.鲁棒局部二值模式是一种性能较好的特征提取算子,对噪声和光照变化具有较强的鲁棒性,且不会造成原始数据的改变,可提高特征提取的准确性.相关反馈使系统可获知用户的偏好,对检索结果具有导向作用.多个纹理数据库的实验结果表明,提出算法的检索准确性和鲁棒性优于同类算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号