排序方式: 共有37条查询结果,搜索用时 15 毫秒
1.
传统的基于网格的数据流聚类算法在同一粒度的网格上进行聚类,虽然提高了处理速度,但聚类准确性较低。针对此问题,提出一种新的基于双层网格和密度的数据流聚类算法DBG Stream。在2种粒度的网格上对数据流进行聚类,并借鉴CluStream算法的思想,将聚类过程分为2个阶段。在线过程中利用粗粒度的网格单元形成初始聚类,离线过程中在细粒度网格单元上,对位于簇边界的网格单元进行二次聚类以提高聚类精度,并实现了关键参数的自动设置,通过删格策略提高算法效率。实验结果表明,DBG Stream算法的聚类精确度较D Stream算法有较大提高,有效解决了传统基于网格聚类算法的聚类精度较低的问题。 相似文献
2.
针对区分矩阵属性约简算法中区分矩阵存在空值元素和重复元素等缺点,提出了一种基于二进制差别矩阵的属性约简算法.该算法不仅保证了属性约简的完整性和正确性,同时也降低了运算所需的时间和空间. 相似文献
3.
一种Apriori的改进算法 总被引:3,自引:0,他引:3
在对关联规则挖掘算法Apriori进行深入研究的基础上,提出了一种采用频繁项集Lk-1 与L1连接生成候选项集Ck的思想,并基于这种新的思想提出了一种优化的算法1-K_Apriori算法.在真实数据集和实验数据集上所做的实验及结果表明,1-K_Apriori算法是有效的. 相似文献
4.
传统DBSCAN算法不能正确聚类密度不均匀的数据集,聚类结果受邻域阈值和密度阈值参数的影响较大。提出一种新的优化初始点和自适应半径的密度聚类算法。利用反向最近邻和相似度矩阵发现当前全局密度最大的数据样本,分析该样本周围密度的分布情况,采用自适应的方法计算当前簇的邻域阈值,并利用DBSCAN算法进行聚类。在人工数据集和UCI数据集上进行测试的结果表明,与经典的DBSCAN、OPTICS、RNN-DBSCAN算法相比,优化初始点和自适应半径的密度聚类算法在ARI、NMI、Homogeneity、Completeness和V-measure 5个评价指标上整体取得最优值,其中在Compound、Jain等数据集上达到1.0,具有较高的聚类效率和准确度。 相似文献
5.
针对近邻传播(AP)聚类算法对参数偏向参数(Preference)敏感、不适用于稀疏数据、聚类结果中会出现错误聚类的样本点的问题,提出基于万有引力的自适应近邻传播聚类(GA-AP)算法。首先,在传统AP算法的基础上采用引力搜索机制对样本进行全局寻优;其次,在全局寻优的基础上利用信息熵和自适应增强(AdaBoost)算法找到每个簇内正确聚类和错误聚类的样本点,并计算出这些样本点的权值,用计算出的权值更新对应的样本点,从而更新相似度、Preference取值、吸引度和隶属度,并进行重新聚类。不断操作以上步骤直到达到最大的迭代次数。通过在9个数据集上的仿真实验得出,相比于基于自适应属性加权的近邻传播聚类(AFW_AP)算法、AP算法、K均值聚类(K-means)算法和模糊C均值(FCM)算法,所提算法的纯度(Purity)、F值(F-measure)和准确率(ACC)的平均值分别最高提升了0.69、71.74%和98.5%。实验结果表明,所提算法降低了对偏向参数的依赖,提高了聚类效果,特别是对于稀疏数据集的聚类结果的准确率。 相似文献
6.
该文针对在研究基于ActionScript双语模拟演示教学课件中遇见的动态演示延迟问题,提出了一种双层循环嵌套的帧延迟法,该方法弥补了已有的延迟函数setInterval()无法解决循环内部的延迟问题,具有很好的实用性。 相似文献
7.
结合区间编码和结点模型映射方法提出一种用于关系数据库的扩展存储模式.通过按广度优先遍历XML树实现对双亲/孩子关系结构连接算法的改进.改进后的算法降低了内存空间的开销,缩小了列表的扫描范围,明显提高了查找匹配速度,达到了查询优化的目的. 相似文献
8.
一种改进的基于密度的聚类算法 总被引:1,自引:0,他引:1
聚类是数据挖掘领域中的一个重要研究方向,在基于密度的聚类算法DBSCAN的基础上,提出了一种改进的基于密度的聚类算法,该算法在核心点的邻域扩展中不再将邻域内的点作为种子点,而是按顺序选择一个邻域外未被标记的点作为种子点,然后分不同情况进行相应的聚类扩展,此算法可以有效减少聚类中核心点邻域重叠区域查询的次数和运行的时间,实验测试结果也表明该算法聚类的效率和质量明显优于DBSCAN算法. 相似文献
9.
在电子商务应用中,为了更好地了解用户的内在特征,制定有效的营销策略,提出一种基于混合概率潜在语义分析(H PLSA)模型的Web聚类算法。利用概率潜在语义分析(PLSA)技术分别对用户浏览数据、页面内容信息及内容增强型用户事务数据建立PLSA模型, 通过对数—似然函数对三个PLSA模型进行合并得到用户聚类的H PLSA模型和页面聚类的H PLSA模型。聚类分析中以潜在主题与用户、页面以及站点之间的条件概率作为相似度计算依据,聚类算法采用基于距离的k medoids 算法。设计并构建了H PLSA模型,在该模型上对Web聚类算法进行验证,表明该算法是可行的。 相似文献
10.
近年来随着新的应用的出现,比如网络流量分析、在线事物分析和网络欺诈检测等,对数据流的挖掘成了一个越来越重要的课题。对于数据流频繁项集的挖掘,目前绝大部分的研究都集中在传统的窗口模式下进行,即时间衰退窗口模式、界标窗口模式和滑动窗口模式。Pauray S.M.Tsai于2009年提出了一种新的窗口模式:加权滑动窗口模式,并设计了两个基于此窗口模式的数据流频繁项集挖掘算法WSW和WSW-Imp,其中WSW-Imp是对WSW算法的改进。在研究了加权滑动窗口模式以及WSW-Imp算法的基础上,对WSW-Imp算法作了进一步的改进,设计了算法WSW-Imp2,并从理论上证明了WSW-Imp2算法比WSW-Imp算法更高效,实验结果也表明了这一点。 相似文献