共查询到19条相似文献,搜索用时 187 毫秒
1.
2.
离群点检测是数据挖掘领域的一个重要的研究方向.针对高维数据空间中离群数据的挖掘速度和准确度的问题,提出一种基于单元格的离群点检测算法.该算法在高维数据空间中对数据进行降维,并且将数据依据属性权重划分成若干空间单元,从而减少查询次数,提高离群数据的挖掘速度.另外,通过对属性的加权处理能够更有效地突出属性的特殊性,从而提高挖掘的准确度.理论分析和实验结果表明了该方法是有效可行的. 相似文献
3.
4.
针对已有的基于网格的离群点挖掘算法挖掘效率低和对于大数据集适应性差的问题,提出基于数据分区和网格的离群点挖掘算法。算法首先将数据进行分区,以单元为单位筛选非离群点,并把中间结果暂存起来;然后采用改进的维单元树结构维护数据点的空间信息,以微单元为单位进行非离群点筛选,并通过两个优化策略进行高效操作;最后以数据点为单位挖掘离群点,从而得到离群数据集合。理论分析和实验结果表明了该方法是有效可行的,对大数据集和高维数据具有更好的伸缩性。 相似文献
5.
6.
离群数据挖掘是数据挖掘领域的一个研究分支,而聚类算法分析则是进行离群数据挖掘的重要研究方法之一。文中首先分析研究离群数据挖掘方法,对多个离群数据挖掘算法进行分析比较,讨论各自的优点和不足,同时针对高维空间数据的特点,分析挖掘高维空间数据中的离群点方法。其次对聚类分析算法进行讨论,分析一种基于网格和基于密度的聚类方法——聚类高维空间算法(CLIQUE算法),运用它可以更好地挖掘高维空间中的离群数据。提出了CLIQUE算法的有待改进的思想,为以后的研究指明方向。 相似文献
7.
基于聚类高维空间算法的离群数据挖掘技术研究 总被引:3,自引:1,他引:2
离群数据挖掘是数据挖掘领域的一个研究分支,而聚类算法分析则是进行离群数据挖掘的重要研究方法之一。文中首先分析研究离群数据挖掘方法,对多个离群数据挖掘算法进行分析比较,讨论各自的优点和不足,同时针对高维空间数据的特点,分析挖掘高维空间数据中的离群点方法。其次对聚类分析算法进行讨论,分析一种基于网格和基于密度的聚类方法——聚类高维空间算法(CLIQUE算法),运用它可以更好地挖掘高维空间中的离群数据。提出了CLIQUE算法的有待改进的思想,为以后的研究指明方向。 相似文献
8.
文章讨论了点覆盖问题的蚂蚁算法求解。点覆盖问题是一个重要的有实际意义的难解问题。蚂蚁算法为近年来新出现的一种随机寻优算法,文章运用该算法给出了求解点覆盖问题的一个分布式并行算法。实验结果表明该算法是行之有效的。 相似文献
9.
一种改进的领域覆盖算法及其应用 总被引:1,自引:0,他引:1
阐述了目前国内外通信信号快速搜索的现状和不足,分析了领域覆盖算法,进而改善覆盖阈值,定义球形领域距离函数,构造前馈神经网络.改进后不仅提高了搜索速度,而且降低了拒识率.给出了算法实现和实验实例,结果表明改进方法是有效实用的. 相似文献
10.
为了提高离群点挖掘的效率和准确度,在分析了传统离群点挖掘算法优、缺点的基础上,提出一种离群点检测算法.该算法利用Voronoi确定样点之间的邻近关系,通过参照邻域范围内其它样点的非空间属性值的信息熵作为离群因子,并根据离群因子标识出样点集中的离群点.以北京市大兴区土壤养分为例,实验结果表明,该检测算法能够高效,准确地检测出土壤样点中的离群点. 相似文献
11.
对随机投影算法的离群数据挖掘技术研究 总被引:1,自引:0,他引:1
[d]维点集离群数据挖掘技术是目前数据挖掘领域的研究热点之一。当前基于距离或最近邻概念进行离群数据挖掘时,在高维数据情况下的挖掘效果不佳,鉴于此,将基于角度的离群因子应用到高维离群数据挖掘中,提出一种新的基于随机投影算法的离群数据挖掘方案,它只需要用接近线性时间的方法就能预测所有数据点的基于角度的离群因子。该方法可以用于并行环境进行并行加速。对近似质量进行了理论分析,以保证算法的可靠性。合成和真实数据集实验结果表明,对超高维数据集,该方法效率高、可伸缩性强。 相似文献
12.
13.
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群聚类算法,该算法将核方法与PP主成分变换结合于离群聚类算法中,采用基于核的PP主成分变换进行数据维数消减。通过该数据变换矩阵得到相应的非线性向量,并为每个向量分配一个动态权值,在优化经典的FCM模糊聚类的目标优化迭代函数基础上,最终得到各个数据的权值,根据权值的大小标识出数据集中的离群点,理论上证明了该算法的收敛性,仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。 相似文献
14.
Kernel ellipsoidal trimming 总被引:1,自引:0,他引:1
Ellipsoid estimation is important in many practical areas such as control, system identification, visual/audio tracking, experimental design, data mining, robust statistics and statistical outlier or novelty detection. A new method, called kernel minimum volume covering ellipsoid (KMVCE) estimation, that finds an ellipsoid in a kernel-defined feature space is presented. Although the method is very general and can be applied to many of the aforementioned problems, the main focus is on the problem of statistical novelty/outlier detection. A simple iterative algorithm based on Mahalanobis-type distances in the kernel-defined feature space is proposed for practical implementation. The probability that a non-outlier is misidentified by our algorithms is analyzed using bounds based on Rademacher complexity. The KMVCE method performs very well on a set of real-life and simulated datasets, when compared with standard kernel-based novelty detection methods. 相似文献
15.
16.
Data sparseness will reduce the accuracy and diversity of collaborative filtering recommendation algorithms. In response to this problem, using granular computing model to realize the nearest neighbor clustering, and a covering rough granular computing model for collaborative filtering recommendation algorithm optimization is proposed. First of all, our method is built on the historical record of the user's rating of the item, the user’s predilection threshold is set under the item type layer to find the user's local rough granular set to avoid data sparsity. Then it combines the similarity between users. Configuring the covering coefficient for target user layer, it obtained the global covering rough granular set of the target user. So it solved the local optimal problem caused by data sparsity. Completed the coarse–fine-grained conversion in the covering rough granular space, obtain a rough granular computing model with multiple granular covering of target users, it improved the diversity of the recommendation system. All in all, predict the target users’ score and have the recommendation. Compared experiments with six classic algorithms on the public MovieLens data set, the results showed that the optimized algorithm not only has enhanced robustness under the premise of equivalent time complexity, but also has significantly higher recommendation diversity as well as accuracy. 相似文献
17.
离群点检测是数据挖掘一个重要内容,它为分析各种海量的、复杂的、含有噪声的数据提供了新的方法。对离群数据挖掘几类主要的方法进行了分析和评价,并在此基础上了提出了一种基于遗传聚类的离群点检测算法。该算法结合了遗传算法全局搜索的优点和K-均值方法局部收敛速度快的特点,取得较好效果。实验验证该算法很好地检测到数据集中的离群点,同时还完成了数据集的聚类。具有较好的实用性。 相似文献
18.
粒计算理论提供了一种新的处理不确定、不完全与不一致知识的有效方法。知识粒度是粒计算理论中度量不确定信息的重要工具之一。已有的异常数据挖掘算法主要针对确定性的异常数据挖掘,采用知识粒度度量不确定性数据,进行异常数据挖掘的研究尚未报道。为此,在引入知识粒度概念的基础上,定义了相对知识粒度及异常度来度量数据之间的异常程度,并提出基于知识粒度的异常数据挖掘算法,该算法可有效进行异常数据的挖掘。实例验证了该算法的有效性。 相似文献
19.
Rough set theory has been extensively discussed in the domain of machine learning and data mining. Pawlak’s rough set theory offers a formal theoretical framework for attribute reduction and rule learning from nominal data. However, this model is not applicable to numerical data, which widely exist in real-world applications. In this work, we extend this framework to numerical feature spaces by replacing partition of universe with neighborhood covering and derive a neighborhood covering reduction based approach to extracting rules from numerical data. We first analyze the definition of covering reduction and point out its advantages and disadvantages. Then we introduce the definition of relative covering reduction and develop an algorithm to compute it. Given a feature space, we compute the neighborhood of each sample and form a neighborhood covering of the universe, and then employ the algorithm of relative covering reduction to the neighborhood covering, thus derive a minimal covering rule set. Some numerical experiments are presented to show the effectiveness of the proposed technique. 相似文献