首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
分析二部图的二元组和概念聚类问题之间的关系,在此基础上结合数据流的特点,提出一种适用于对象属性为布尔型的数据流概念聚类算法。将数据流分段,对每一批到来的数据流,生成局部的近似极大ε二元组集合,对全局的近似极大ε二元组集合进行更新,从而有效地对整个数据流进行聚类。实验结果表明,该算法具有良好的时间效率和空间效率。  相似文献   

2.
孙胜  王元珍 《计算机科学》2008,35(12):190-191
针对k-medoid算法不能有效聚类大数据集和高维数据的弱点,将核学习方法引入到k-medoid算法,提出了基于核的自适应k-medoid算法,使其能够对大数据集和高维数据进行聚类.用KDD 99标准数据集进行实验研究,结果表明该算法性能是优良的,并且能获得令人满意的检测效果.  相似文献   

3.
A Multistrategy Approach to Relational Knowledge Discovery in Databases   总被引:1,自引:0,他引:1  
When learning from very large databases, the reduction of complexity is extremely important. Two extremes of making knowledge discovery in databases (KDD) feasible have been put forward. One extreme is to choose a very simple hypothesis language, thereby being capable of very fast learning on real-world databases. The opposite extreme is to select a small data set, thereby being able to learn very expressive (first-order logic) hypotheses. A multistrategy approach allows one to include most of these advantages and exclude most of the disadvantages. Simpler learning algorithms detect hierarchies which are used to structure the hypothesis space for a more complex learning algorithm. The better structured the hypothesis space is, the better learning can prune away uninteresting or losing hypotheses and the faster it becomes.We have combined inductive logic programming (ILP) directly with a relational database management system. The ILP algorithm is controlled in a model-driven way by the user and in a data-driven way by structures that are induced by three simple learning algorithms.  相似文献   

4.
针对现有基于距离的离群点检测算法在处理大规模数据时效率低的问题,提出一种基于聚类和索引的分布式离群点检测(DODCI) 算法。首先利用聚类方法将大数据集划分成簇;然后在分布式环境中的各节点处并行创建各个簇的索引;最后使用两个优化策略和两条剪枝规则以循环的方式在各节点处进行离群点检测。在合成数据集和整理后的KDD CUP数据集上的实验结果显示,在数据量较大时该算法比Orca和iDOoR算法快近一个数量级。理论和实验分析表明,该算法可以有效提高大规模数据中离群点的检测效率。  相似文献   

5.
To deal with data patterns with linguistic ambiguity and with probabilistic uncertainty in a single framework, we construct an interpretable probabilistic fuzzy rule-based system that requires less human intervention and less prior knowledge than other state of the art methods. Specifically, we present a new iterative fuzzy clustering algorithm that incorporates a supervisory scheme into an unsupervised fuzzy clustering process. The learning process starts in a fully unsupervised manner using fuzzy c-means (FCM) clustering algorithm and a cluster validity criterion, and then gradually constructs meaningful fuzzy partitions over the input space. The corresponding fuzzy rules with probabilities are obtained through an iterative learning process of selecting clusters with supervisory guidance based on the notions of cluster-pureness and class-separability. The proposed algorithm is tested first with synthetic data sets and benchmark data sets from the UCI Repository of Machine Learning Database and then, with real facial expression data and TV viewing data.  相似文献   

6.
连续状态自适应离散化基于K-均值聚类的强化学习方法   总被引:5,自引:1,他引:5  
文锋  陈宗海  卓睿  周光明 《控制与决策》2006,21(2):143-0148
使用聚类算法对连续状态空间进行自适应离散化.得到了基于K-均值聚类的强化学习方法.该方法的学习过程分为两部分:对连续状态空间进行自适应离散化的状态空间学习,使用K-均值聚类算法;寻找最优策略的策略学习.使用替代合适迹Sarsa学习算法.对连续状态的强化学习基准问题进行仿真实验,结果表明该方法能实现对连续状态空间的自适应离散化,并最终学习到最优策略.与基于CMAC网络的强化学习方法进行比较.结果表明该方法具有节省存储空间和缩短计算时间的优点.  相似文献   

7.
一种基于数据垂直划分的分布式密度聚类算法   总被引:1,自引:0,他引:1  
聚类分析是数据挖掘领域的一项重要研究课题,对大数据集的聚类更以其数据量大、噪声数据多等而成为一个难点.针对数据垂直划分的情况,提出连通点集及局部噪声点集等概念.在分析局部噪声点集与全局噪声点集以及局部连通点集与全局连通点集关系的基础上,对全局噪声点进行有效过滤,进一步设计闭三角链表结构存储各个结点的聚类中间结果,提出了基于密度的分布式聚类算法DDBSCAN.理论分析和实验结果表明,算法可以有效解决垂直划分的大数据集聚类问题,算法是有效可行的.  相似文献   

8.
针对树形空间索引中多路查询及未考虑时间维索引的问题,提出一种结合时间和聚类结果的Hilbert-R树索引构建策略。首先,按照数据采集的周期划分时空数据集,并在此基础上建立时间索引,通过Hilbert曲线对空间数据进行分割编码,将空间坐标映射到一维区间;其次,依据数据要素在空间中的分布,采用动态确定K值的聚类算法,结合聚类结果构建高效的Hilbert-R树空间索引;最后,基于Redis几种常见的键值数据结构,对时空数据的时间属性和聚类结果构建分级索引。在时空范围及目标矢量对象查询的实验中,与缓存敏感R+树(CCR+)相比,所提算法可有效减少时间开销,查询时间平均缩短约25%,对不同密集型数据具有良好的适应性,可更好地支持Redis应用于海量时空数据查询。  相似文献   

9.
基于核的K-均值聚类   总被引:17,自引:0,他引:17  
孔锐  张国宣  施泽生  郭立 《计算机工程》2004,30(11):12-13,80
将核学习方法的思想应用于K-均值聚类中,提出了一种核K-均值聚类算法,算法的主要思想是:首先将原空间中待聚类的样本经过一个非线性映射,映射到一个高维的核空间中,突出各类样本之间的特征差异,然后在这个核空间中进行K-均值聚类。同时还将一种新的核函数应用于核K-均值聚类中以提高算法的速度。为了验证算法的有效性,分别利用人工和实际数据进行K-均值聚类和核K-均值聚类,实验结果显示对于一些特殊的类分布数据,核K-均值聚类比K-均值聚类具有更好的聚类效果。  相似文献   

10.
文章研究了基于粒度计算理论的数据分类建模,引入了全粒度空间的概念,定义了集合的粒度表示,给出了概念学习在粒度计算理论中的解释,导出了一个基于数据分类的知识发现模型,从而说明了知识发现可归结为在全粒度空间中寻找目标概念的最佳粒度表示,而各粒度描述的析取构成决策规则的前件。  相似文献   

11.
网络信息安全中的数据具有维数高、规模复杂等特性。网络入侵检测需要对网络入侵信息进行合理的分析,筛选出危险的带有攻击性的行为。随着数据维数的不断升高,传统的基于距离的聚类分析方法不再适用。针对此,本文提出一种基于Krylov子空间方法的高维数据聚类分析算法,首先将高维数据投影到低维空间,实现数据的降维,再用基于遗传算法的K-means算法在低维空间中进行数据的聚类,避免了数据属性的丢失,同时也提高了高维数据聚类分析的效率。最后,使用KDD Cup 99数据进行实验,实验验证了方法的有效性和精确性。  相似文献   

12.
Most existing semi-supervised clustering algorithms are not designed for handling high-dimensional data. On the other hand, semi-supervised dimensionality reduction methods may not necessarily improve the clustering performance, due to the fact that the inherent relationship between subspace selection and clustering is ignored. In order to mitigate the above problems, we present a semi-supervised clustering algorithm using adaptive distance metric learning (SCADM) which performs semi-supervised clustering and distance metric learning simultaneously. SCADM applies the clustering results to learn a distance metric and then projects the data onto a low-dimensional space where the separability of the data is maximized. Experimental results on real-world data sets show that the proposed method can effectively deal with high-dimensional data and provides an appealing clustering performance.  相似文献   

13.
基于二部图的概念聚类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
传统概念聚类算法中簇的更新和存储不仅依赖于对象数目和属性数目,而且依赖于属性值的数目,这种局限性使其不适用于大型数据集。提出一种新的基于二部图的概念聚类算法(BGBCC),该算法通过获得二部图的近似极大ε二元组集,有效地进行数据与属性的关联聚类。实验表明,该算法能得到较好的聚类结果,且能在较短的时间内进行大型数据集的概念聚类。  相似文献   

14.
基于样本空间分布密度的初始聚类中心优化K-均值算法*   总被引:2,自引:1,他引:1  
针对传统K-均值聚类算法对初始聚类中心敏感、现有初始聚类中心优化算法缺乏客观性,提出一种基于样本空间分布密度的初始聚类中心优化K-均值算法。该算法利用数据集样本的空间分布信息定义数据对象的密度,并根据整个数据集的空间信息定义了数据对象的邻域;在此基础上选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-均值聚类。UCI机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集的实验测试证明,本算法不仅具有很好的聚类效果,而且运行时间短,对噪声数据有很强的抗干扰性能。基于样本空间分布密度的初始聚类中心优化K-均值算法优于传统K-均值聚类算法和已有的相关K-均值初始中心优化算法。  相似文献   

15.
本文针对现有误用检测系统缺少对新攻击样式的适应性问题,从不同概念层次的知识发现角度出发,提出了一种新的误用检测方法。该方法首先利用相关特征选取算法提取每种攻击的最优特征子集,然后通过相似性聚类对攻击样式作概念分层,最后用规则学习算法学习概念级误用检测模型。实验结果表明,该入侵检测方法不但能够提高检测概率
率,实现对新的攻击方式的检测,同时还简化了分类模型。  相似文献   

16.
牛雷  孙忠林 《计算机科学》2018,45(2):226-230
初始聚类中心是指在聚类的过程中首次被选为中心的点或对象。针对传统的K-means算法由于随机选择初始聚类中心而造成的聚类结果不稳定的问题,提出PCA-AKM算法。该算法利用主成分分析方法提取数据集中的主要成分,实现数据降维,使用自定义指标密权值选择初始聚类中心,避免聚类中心局部最优问题。将该算法与K-means算法在UCI数据集上进行聚类对比,其聚类稳定性高于传统K-means算法。 在KDD CUP99数据集上,对所提算法进行入侵检测仿真,实验结果证明该算法检测率高,误检率低,能够有效提高入侵检测的准确率。  相似文献   

17.
储岳中 《微机发展》2008,18(3):196-199
在RBF神经网络的各种学习算法中,最近邻聚类算法学习时间短、计算量小,不需要事先确定隐单元的个数,完成聚类所得到的网络是最优的,并且可以在线学习,是一种自适应聚类学习算法,非常适合非线性实时系统的应用。但常规最近邻聚类算法在实时性要求较高的系统预测中学习时间相对较长。针对这一问题,提出了系统离线学习时采用减聚类算法,在线学习时采用改进的最近邻聚类算法,并变步长修正聚类半径和限制学习样本数。在函数拟合实验中,这种改进算法明显缩短了RBF神经网络的学习时间,在钢包精炼炉电极系统的在线辨识中的成功应用进一步表明对最近邻聚类算法的改进是有效的。  相似文献   

18.
一种SOM和GRNN结合的模式全自动分类新方法   总被引:1,自引:0,他引:1  
非监督学习算法的分类精度通常很难令人满意,而监督的学习算法需要人工选取训练样本,这有时很难得到,并且其分类精度直接依赖于所选取的学习样本。针对这些缺陷,提出一种非监督自组织神经网络(SOMNN)和监督的广义回归网络(GRNN)结合的全自动模式分类新方法。新方法首先通过SOMNN将原始数据进行自动聚类,再用所得的聚类中心以及中心邻近数据点训练GRNN,然后根据GRNN的分类结果重新计算聚类中心,再根据新的聚类中心和中心邻近点训练GRNN,如此反复,直至得到稳定的中心为止。Iris数据,Wine数据的实验结果都验证了新方法的可行性。  相似文献   

19.
基于多智能体的Option自动生成算法   总被引:2,自引:0,他引:2  
目前分层强化学习中的任务自动分层都是采用基于单智能体的串行学习算法,为解决串行算法学习速度较慢的问题,以Sutton的Option分层强化学习方法为基础框架,提出了一种基于多智能体的Option自动生成算法,该算法由多智能体合作对状态空间进行并行探测并集中应用aiNet实现免疫聚类产生状态子空间,然后并行学习生成各子空间上的内部策略,最终生成Option. 以二维有障碍栅格空间内2点间最短路径规划为任务背景给出了算法并进行了仿真实验和分析.结果表明,基于多智能体的Option自动生成算法速度明显快于基于单智能体的算法.  相似文献   

20.
支持向量机在训练过程中,将很多时间都浪费在对非支持向量的复杂计算上,特别是对于大规模数据量的语音识别系统来说,支持向量机在训练时间上不必要的开销将会更加显著。核模糊C均值聚类是一种常用的典型动态聚类算法,并且有核函数能够把模式空间的数据非线性映射到高维特征空间。在核模糊C均值聚类的基础上,结合了多类分类支持向量机中的一对一方法,按照既定的准则把训练样本集中有可能属于支持向量的样本数据进行预选取,并应用到语音识别中。实验取得了较好的结果,该方法有效地提高了支持向量机分类器的学习效率和泛化能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号