首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
Web上的数据规模大,动态性强,而通常发现的知识或规则很可能是不精确的、不完备的,为了克服以上困难,将粗糙集概念引入到Web挖掘中,进行Web事务聚类.介绍了将粗糙近似算法嵌入到WEKA平台的过程,充分利用了开源WEKA中的类和可视化功能,扩充了WEKA系统的聚类算法,并对嵌入的算法进行了分析,测试.粗糙近似算法方法能够实现从Web访问日志中聚类Web事务,并且该算法对分类属性的数据具有很高的准确率.  相似文献   

2.
针对开源数据挖掘平台Weka在聚类方面只集成了少数聚类算法的缺点,对其进行二次开发,扩充其聚类算法。介绍FCM算法的基本思想和算法描述,将FCM算法嵌入到Weka平台,充分利用Weka的类和可视化功能。选取一种实例密度加权的方法对该算法进行改进,调整聚类中心位置,并将改进后的算法与原算法进行实验比较分析。实验结果表明,改进后的算法明显减少了迭代次数,并获得更好的聚类效果。  相似文献   

3.
为了克服Weka系统在聚类算法方面的不足,在Weka的开源环境下进行了二次开发,扩充了聚类算法。介绍了Chameleon算法的基本原理和构建步骤,给出算法的具体描述,并将Chameleon算法嵌入Weka平台,充分利用了其中的类和可视化功能。对实现的系统进行了实验和测试,并对嵌入的算法和原有聚类算法k—means进行了对比分析。实验结果表明,Chameleon算法可获得更好的聚类效果。  相似文献   

4.
基于Ward's方法的k-平均优化算法及其应用   总被引:1,自引:0,他引:1       下载免费PDF全文
通过对k-平均算法存在不足的分析,提出了一种基于Ward’s方法的k-平均优化算法。算法首先在用Ward’s方法对样本数据初步聚类的基础上,确定合适的簇数目、初始聚类中心等k-平均算法的初始参数,并进行孤立点检测、删除;基于上述处理再采用传统k-平均算法进行聚类。将优化的k-平均算法应用到罪犯人格类型分析中,实验结果表明,该算法的效率、聚类效果均明显优于传统k-平均算法。  相似文献   

5.
针对传统k-均值算法对初始聚类中心敏感的问题,提出了启发式初始化独立的k-均值算法。该算法引入prim算法选择k个初始聚类中心,且通过设置阈值参数θ,避免同一类中的多个数据对象同时作为初始聚类中心,否则将导致聚类迭代次数增加,并得到错误的聚类结果。与传统的k-均值算法和基于遗传算法的k-均值聚类算法相比,实验结果表明改进的算法不仅降低了初始聚类中心选取的随机性对聚类性能产生的影响,有效减少了聚类迭代次数,而且降低了离群点对聚类性能的影响,从而验证了算法的可行性和有效性。  相似文献   

6.
聚类算法的好坏直接影响聚类的效果。文章讨论了经典的k-中心聚类算珐,说明了它存在不能很好地处理大数据集的问题,提出了一种基于加权改进的k-中心聚类算法,克服了k-中心聚类算法的一些缺点,并从理论上分析了该算祛的复杂度。实验证明,用该方法实现的数据聚类与传统的基于中心的方法相比较,能有效提高数据聚类效果。  相似文献   

7.
改进的k-平均聚类算法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
孙士保  秦克云 《计算机工程》2007,33(13):200-201
聚类算法的好坏直接影响聚类的效果。该文讨论了经典的k-平均聚类算法,说明了它存在不能很好地处理符号数据和对噪声与孤立点数据敏感等不足,提出了一种基于加权改进的k-平均聚类算法,克服了k-平均聚类算法的缺点,并从理论上分析了该算法的复杂度。实验证明,用该方法实现的数据聚类与传统的基于平均值的方法相比较,能有效提高数据聚类效果。  相似文献   

8.
李书玲  刘蓉  刘红 《计算机科学》2015,42(4):316-320
针对已有的RBF神经网络多标签算法未充分考虑多个样本标签之间的关联性,从而导致泛化性能受到一定影响的问题,研究分析了一种改进型RBF神经网络的多标签算法.该算法首先优化隐含层RBF神经网络基函数中心求取算法——k-均值聚类.采用AP聚类自动寻找k值以获得隐含层节点数目,并构造Huff man树来选取初始聚类中心以防k-均值聚类结果陷入局部最优.然后构造体现标签类之间信息的标签计数向量C,并将其与由优化k-均值聚类得到的聚类中心进行线性叠乘,进而改进RBF神经网络基函数中心,建立RBF神经网络.在公共多标签数据集emotion上的实验表明了该算法能够有效地进行多标签分类.  相似文献   

9.
最小化误差平方和k-means初始聚类中心优化方法   总被引:1,自引:0,他引:1       下载免费PDF全文
传统的k-均值算法对初始聚类中心和孤立点敏感,文中以最大程度地减少误差平方和为基本思想,提出一种最大化减少当前误差平方和的k-means初始聚类中心优化方法。在初始聚类中心选择阶段,每次增加聚类中心时,计算所有数据点作为当前聚类中心能够减少的误差平方和,选择能够最大化减少误差平方和的数据点作为聚类初始中心。利用真实数据集,同其他算法进行对比,实验结果表明该方法在选择初始聚类中心方面能够有效地减少聚类的迭代次数,提高聚类质量。同时人工模拟数据表明该方法对孤立点相对不敏感。  相似文献   

10.
郑芸芸  王萍  游强华 《福建电脑》2013,(12):103-104,111
由于k-均值经典算法必须在聚类前随机地选择聚类的个数k,则后所得到的聚类结果会受到初始选择的聚类个数的影响。针对这个问题,根据寻找最优初值及免受孤立点影响的思想,提出了一种改进的k-均值聚类算法。实验证明改进的k-均值聚类算法在一定程度上解决了该算法对初始值的依赖,并部分减少了算法受噪声数据影响的可能。  相似文献   

11.
尹娜  张琳 《计算机科学》2017,44(5):116-119, 140
为了提高异常检测系统的检测率,降低误警率,解决现有异常检测所存在的问题,将离群点挖掘技术应用到异常检测中,提出了一种基于混合式聚类算法的异常检测方法(NADHC)。该方法将基于距离的聚类算法与基于密度的聚类算法相结合从而形成新的混合聚类算法,通过k-中心点算法找出簇中心,进而去除隐蔽性较高的少量攻击行为样本,再将重复增加样本的方法结合基于密度的聚类算法计算出异常度,从而判断出异常行为。最后在KDD CUP 99数据集上进行实验仿真,验证了所提算法的可行性和有效性。  相似文献   

12.
针对K中心点算法的初始聚类中心可能过于临近、代表性不足、稳定性差等问题,提出一种改进的K中心点算法。将样本集间的平均距离与样本间的平均距离的比值作为样本的密度参数,精简了高密度点集合中候选代表点的数量,采用最大距离乘积法选择密度较大且距离较远的K个样本作为初始聚类中心,兼顾聚类中心的代表性和分散性。在UCI数据集上的实验结果表明,与传统K中心点算法和其他2种改进聚类算法相比,新提出的算法不仅聚类结果更加准确,同时也具有更快的收敛速度和更高的稳定性。  相似文献   

13.
当存在噪声和离群点时,k-medoids算法具有较好的鲁棒性,但是对于大数据集,算法的计算代价比较高。CF树是Birch算法中常用的一种结构,对于大数据集的聚类有较好的可伸缩性,但是对于非球形的数据,聚类结果较差。因此,在两种算法的基础上,提出一种基于CF树的k-medoids算法,先用数据集构建CF树,形成微簇,改进了欧式距离计算式,最后使用k-medoids算法对微簇进行聚类。当数据点较多时,改进算法比k-medoids算法运行速度快了近2倍。实验表明,改进算法具有较高的性能和可伸缩性。  相似文献   

14.
模糊C-均值聚类算法是目前应用最广泛的聚类算法,但其仍然存在对孤立点敏感及对初始中心点依赖等问题.为此,提出了一种改进的基于样本加权的模糊聚类算法,该算法可以更加准确的获得初始中心点且去除噪声点.同时,针对Weka系统中聚类算法的薄弱性以及聚类问题在数据挖掘领域的广泛性,本文对此平台进行二次开发并对传统FCM算法与改进算法进行研究.研究发现,改进算法使得聚类结果稳定,且能准确获得聚类结果,提高了算法准确率.  相似文献   

15.
基于seeds集和频繁项集挖掘的半监督聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
半监督聚类在无监督学习中通过对少量监督信息的有效利用提高聚类性能。提出一种基于seeds集的半监督聚类算法,它采用Apiori算法对初始seeds集和扩大规模后seeds集的数据进行频繁项集挖掘,使得数据中存在的噪音数据和误标记数据得到净化、修正,以改善seeds集质量,提高聚类性能。该算法使用带权χ2测试这一数学模型作为分类规则度量指标,以对无标记数据进行类标签值预测。实验结果显示,所提出的结合了频繁项集挖掘和带权χ2测试的基于seeds集的半监督聚类算法不仅改善了seeds集质量,也提高了预测结果的精确度,优化了聚类性能。  相似文献   

16.
针对k-medoids算法对初始聚类中心敏感,聚类精度较低及收敛速度缓慢的缺点,提出一种基于密度初始化、密度迭代的搜索策略和准则函数优化的方法。该算法初始化是在高密度区域内选择k个相对距离较远的样本作为聚类初始中心,有效定位聚类的最终中心点;在k个与初始中心点密度相近的区域内进行中心点替换,以减少候选点的搜索范围;采用类间距和类内距加权的均衡化准则函数,提高聚类精度。实验结果表明,相对于传统的k-mediods算法及某些改进算法,该算法可以提高聚类质量,有效缩短聚类时间。  相似文献   

17.
邓滨玥 《软件》2020,(2):188-192
k-means算法源于信号处理中的一种向量量化方法,现在则更多地作为一种聚类分析方法流行于数据挖掘领域。在数据挖掘技术中常常使用聚类方法,而k-means算法作为最典型、最常见、实用度最广的一种聚类算法,具有简单易操作等优点。但此算法需要人工设定聚类中心的数量,初始聚类中心,容易陷入局部最优,使得算法的时间复杂度变得较大,得到的聚类结果易受到k值与设定的初始聚类中心的影响,针对这些问题,本文介绍了k-means算法的改进方法,分析其优缺点并提出了优化算法的下一步研究方向。  相似文献   

18.
一种基于模拟退火和遗传算法的模糊聚类方法   总被引:4,自引:1,他引:3  
首先,对模糊C-均值聚类算法做了简要分析和评论,根据其特点,提出了一种基于模拟退火和遗传算法的聚类分析方法,算法中采用了适合于模糊聚类的树型编码方案。实验表明,该算法可克服系统对数据集及初始聚类中心的敏感性,避免陷入局部极小,在模式识别、数据挖掘等领域有着广泛的应用前景。  相似文献   

19.
研究图聚类的算法问题。在基于划分的图聚类中,重点比较点与点之间距离的计算方法及其对聚类结果的影响。由于社会关系网络图中点没有坐标值,所以不能使用欧几里得距离和曼哈坦距离。使用k-medoids聚类算法时,分别采用最短距离和随机漫步距离算法,将DBLP数据集构成的社会关系网络图分类成各个子图,通过实验数据验证两种算法的优劣。实验证明最短距离算法获得聚类效果更为理想,达到了较好的分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号