首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
分析最大频繁项集和完全频繁项集的关系,提出了一个挖掘最大频繁项集的高效算法DFMFI—Miner(The Miner Basedon Depth—First Searching for Mining Maximal Frequent Itemsets),采用深度优先方法搜索项集空间,采用垂直位图及一定的压缩方法对表示事务数据库并进行约简,并采用多种有效剪枝策略和优化策略,提高了算法的效率。在多个数据集上进行了实验,实验结果表明该算法特别适于挖掘具有长频繁项集的数据集。  相似文献   

2.
基于频繁集的图像特征抽取   总被引:1,自引:1,他引:0       下载免费PDF全文
在图像分析领域,已有不少研究探讨了通过构建图像相邻像素之间的事务数据集,对图像纹理关联规则进行挖掘,但纹理关联规则仅存留最大项的频繁项集会使得很多信息丢失。为此提出了基于频繁项集的图像特征抽取方法,该方法首先基于项集的频繁度及空间分布筛选候选频繁项集,再定义每一个频繁项集的空间表达能力值构建特征集。在遥感图像上进行仿真测试,针对EM算法对初始设置比较敏感的特点,采用了对同一特征集指定不同聚类数目并比较对数似然值确定最终聚类结果的方法。实验结果表明,提出的频繁集对图像特征具有较好的表达。  相似文献   

3.
王晓峰 《计算机工程》2007,33(11):29-30,4
给出了一种有效的频繁项双空间挖掘方法,充分利用事务数据库的二元特性,通过双空间映射把数据库的项目维和事务维联系在一起,提高了频繁项集的挖掘效率。计算机实验数据表明,双空间搜索挖掘方法对频繁项的数据挖掘是非常有效的,与传统的Apriori方法相比,新方法对数据扩散率和频繁项长短(最小支持度变化)均不敏感,挖掘效率提高很多。  相似文献   

4.
与在所有特征空间寻找聚类不同,子空间聚类的目标是找到嵌在不同子空间的簇,是实现高维数据聚类的有效途径.传统聚类算法主要采用基于距离测量的方法进行聚类,难以处理高维数据.提出一种能够处理高维数据的子空间聚类算法(Attribute relevancy-based subspace clustering algorithm,ARSUB),将属性转化为频繁模式中的项集,将聚类问题转化为频繁模式挖掘问题,然后基于项目对间强相关的关系建立关系矩阵,以衡量任意两个项集之间的相关度,进而得到强相关的候选子空间.最后利用候选子空间进行聚类得到存在于不同子空间中的簇.在合成数据集与真实数据集的实验结果表明,这种方法具有较高的准确度和效率.  相似文献   

5.
如何有效地约简频繁项集的数量是目前数据挖掘研究的热点。对频繁项集进行聚类是该问题的解决方法之一。由于生成子是全体频繁项集的无损精简表示,故对生成子进行聚类与对全体频繁项集进行聚类具有相同的效果。提出了一种基于生成子的频繁项集聚类算法。首先,利用最小描述长度原理,讨论了选择生成子进行聚类的合理性;其次,给出了生成子的剪枝策略及挖掘算法;最后,在一种新的项集相似性的度量标准的基础上,给生成子的聚类算法。实验结果表明,该方法可有效地减少项集的数量,并具有较高的挖掘效率。  相似文献   

6.
一种基于单事务项集组合的频繁项集挖掘算法   总被引:2,自引:0,他引:2  
曾波 《计算机科学》2008,35(1):196-197
Apriori是挖掘频繁项集的基本算法,目前该算法及其优化变种都没有解决候选项及重复扫描事务数据库的问题.文章通过对Apriori及其优化算法的深入探究,提出了一种基于单事务组合项集的挖掘算法,该算法在一个事务内部对"数据项"进行组合,在事务数据库中对所有相同"项集"进行计数.不经过迭代过程,不产生候选项集,所有频繁项集的挖掘过程只需对事务数据库一次扫描,提高了频繁项集挖掘效率.  相似文献   

7.
一种基于矩阵的动态频繁项集挖掘算法   总被引:4,自引:0,他引:4  
频繁项集的生成是关联规则挖掘中的关键问题,提出了一种基于上三角项集矩阵的动态频繁项集挖掘算法。当事务数据库和最小支持度发生变化时,本算法只需重新遍历一次上三角项集矩阵,即可得到新的频繁项集。与传统的频繁项集挖掘算法相比,在执行效率上有显著提高。  相似文献   

8.
由于多源异构数据集通常存在于多领域中,其特性导致数据的可利用率较低.为保证对各类数据的利用效果,研究基于随机森林的频繁项集智能挖掘算法.依据频繁项集特征,采用改进FP-tree算法挖掘频繁项集后,利用随机森林算法完成频繁项集分类;通过选取高精度子森林、聚类选择多样性子森林优化随机森林算法,改善随机森林算法运算时内存占用...  相似文献   

9.
传统频繁项集挖掘算法的执行效率较低。提出了一种基于矩阵与前缀树的频繁项集挖掘算法MPFI,能快速地挖掘事务数据库中的频繁项集。MPFI算法只需扫描事务数据库一次,构建垂直方向的二进制矩阵,应用二进制位向量表达频繁项集信息,利用前缀树压缩存储频繁项集的相关信息,不产生候选项集。理论分析与实验结果表明,MPFI算法能有效地提高频繁项集挖掘效率。  相似文献   

10.
基于链表数组的最大频繁项集挖掘算法   总被引:1,自引:0,他引:1       下载免费PDF全文
挖掘密集型数据集的全部频繁项集代价高昂,针对该问题,提出一种数据结构链表数组和基于链表数组的最大频繁项集快速生成算法。该方法使用链表数组为每个项目建立事务链表,并且链表的创建过程只需扫描数据库1次。使用深度优先搜索得到所有候选最大频繁项集,利用约束条件缩小搜索空间。使用标准数据集进行验证测试并与其他算法进行比较,实验结果表明,该算法具有较快的挖掘速度。  相似文献   

11.
稀疏子空间聚类是近年提出的高维数据聚类框架,针对实际数据并不完全满足线性子空间模型的假设,提出[k]近邻约束的稀疏子空间聚类算法。该算法结合数据的子空间结构,[k]近邻及距离信息,在稀疏子空间模型上,添加[k]近邻约束项。添加的约束项符合距离越小,相似系数越大的直观认识且不改变系数矩阵的稀疏性。在人脸数据集Extended YaleB、ORL、AR,物体图像数据集COIL20及手写数据集USPS上的聚类实验表明提出的算法具有良好的性能。  相似文献   

12.
乔永坚  刘晓琳  白亮 《计算机应用》2022,42(11):3322-3329
针对高维特征缺失数据在聚类过程中面临的因数据高维引发的维度灾难问题和数据特征缺失导致的样本间有效距离计算失效问题,提出一种面向高维特征缺失数据的K最近邻(KNN)插补子空间聚类算法KISC。首先,利用高维特征缺失数据的子空间下的近邻关系对原始空间下的特征缺失数据进行KNN插补;然后,利用多次迭代矩阵分解和KNN插补获得数据最终可靠的子空间结构,并在该子空间结构进行聚类分析。在6个图像数据集原始空间的聚类结果表明,相较于经过插补后直接进行聚类的对比算法,KISC算法聚类效果更好,说明子空间结构能够更加容易且有效地识别数据的潜在聚类结构;在6个高维数据集子空间下的聚类结果显示,KISC算法在各个数据集的聚类性能均优于对比算法,且在大多数据集上取得了最优的聚类精确度(ACC)和标准互信息(NMI)。KISC算法能够更加有效地处理高维特征缺失数据,提高算法的聚类性能。  相似文献   

13.
传统k最近邻算法kNN在数据分类中具有广泛的应用,但该算法具有较多的冗余计算,致使处理高维数据时花费较多的计算时间。同时,基于地标点谱聚类的分类算法(LC-kNN和RC-kNN)中距离当前测试点的最近邻点存在部分缺失,导致其准确率降低。针对上述问题,提出一种基于聚类的环形k最近邻算法。提出的算法在聚类算法的基础上,首先将训练集中相似度较高的数据点聚成一个簇,然后以当前测试点为中心设置一个环形过滤器,最后通过kNN算法对过滤器中的点进行分类,其中聚类算法可以根据实际情况自由选择。算法性能已在UCI数据库中6组公开数据集上进行了实验测试,实验结果表明:AkNN_E与AkNN_H算法比kNN算法在计算量上平均减少51%,而在准确率上比LC-kNN和RC-kNN算法平均提高3%。此外,当数据在10 000维的情况下该算法仍然有效。  相似文献   

14.
针对大多数子空间聚类方法处理非线性数据时聚类效果不理想、不同子空间数据相似性较高及聚类发生错误时无法及时校验的问题,提出局部加权最小二乘回归的重叠子空间聚类算法.利用K近邻思想突出数据的局部信息,取代非线性数据结构,通过高斯加权的方法选择最相似的近邻数据点,得到最优表示系数.然后使用重叠概率模型判断子空间内数据的重叠部分,再次校验聚类结果,提高聚类准确率.在人造数据集和真实数据集上分别进行测试,实验表明,文中算法能够取得较理想的聚类结果.  相似文献   

15.
针对高维数据容易对噪声敏感及容易造成维数灾难问题,文中提出基于随机子空间的局部鉴别投影算法(RSLDP).利用随机子空间方法对高维的原始数据进行特征选择,在生成的低维特征子空间构造近邻图,降低噪声影响.RSLDP通过最大化局部类间加权散度和最小化局部类内加权散度,同时最小化样本的总体局部散度,改进局部最大间距鉴别嵌入算法,较好刻画样本与其类间类内近邻中心点的关系,有利于鉴别特征的提取.在CMU PIE和AR这2个人脸数据库上的实验表明文中算法的有效性.  相似文献   

16.
在文本分类中,最近邻搜索算法具有思想简单、准确率高等优点,但通常在分类过程中的计算量较大。为克服这一不足,提出了一种基于最近邻子空间搜索的两类文本分类方法。首先提取每一类样本向量组的特征子空间,并通过映射将子空间变换为高维空间中的点,然后把最近邻子空间搜索转化为最近邻搜索完成分类过程。在Reuters-21578数据集上的实验表明,该方法能够有效提高文本分类的性能,具有较高的准确率、召回率和F1值。  相似文献   

17.
无参数保持投影算法无需参数设置且识别性能稳定,但算法不能有效地保持样本的局部结构,且忽略了非局部样本所起的作用,而且存在着小样本(SSS)问题,为此提出了一种完备的无参数近邻保持及最大化非近邻算法。算法以样本间余弦距离0.5为分界点将样本分成近邻及非近邻样本,为了充分利用近邻样本及非近邻样本,分别构造了近邻散度矩阵及非近邻散度矩阵,因此算法的目标函数就是求取能够最小化近邻散度矩阵的同时,最大化非近邻散度矩阵的投影矩阵。对于目标函数的求解,可先将高维样本通过主成分分析(PCA)算法降至一个低维的子空间,并通过两个定理证明了这种处理方法没有损失任何有效的判别信息;然后将目标函数转换为差形式,从而有效地解决了小样本问题。在人脸库及掌纹库上的实验结果表明,与无参数局部保持投影算法相比,所提算法平均识别率更高,验证了算法的有效性。  相似文献   

18.
针对传统的kNN(k-NearestNeighbor)近邻填补算法对缺失数据的填补效果会因为k最近邻数据存在噪声受到较大干扰的问题,提出一种基于kNN-DBSCAN(k-NearestNeighbor Density-based Spatial Clustering of Applications with Noise)的缺失数据填补优化算法。将基于密度的DBSCAN聚类算法运用到kNN近邻填补算法中,先用kNN算法得到目标填补数据的原始k最近邻数据集,运用DBSCAN聚类算法对原始k最近邻数据集进行噪声检测并消除噪声数据,得到当前k最近邻数据集,最后并入kNN计算,填补目标缺失数据;同时,针对DBSCAN聚类算法参数设置敏感的问题,通过分析数据集的统计特性来确定参数,避免人为经验判断。最后利用真实数据对算法进行验证,结果显示该算法对目标缺失数据的填补准确度要优于传统的kNN算法。  相似文献   

19.
20.
陆林花 《计算机仿真》2009,26(7):122-125,158
为了在聚类数不明确的情况下实现聚类分析,提出一种新的结合最近邻聚类和遗传算法的动态聚类算法.新算法包括两个阶段:第一阶段用最近邻聚类算法根据最近邻方法把最相似的实例分到同一个簇中并根据一些相似性或相异性度量过滤掉噪声数据从而得到初始聚类集,第二阶段是遗传优化阶段,利用动态聚类评估函数,动态地合并初始聚类集,从而获得接近最优的解.最后对算法进行了实验仿真,实验结果表明方法在事先不知道聚类数的情况下能够有效地进行聚类.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号