首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
针对奇异值分解(SVD)分析偏好特征不够准确,有时出现不可解释的情况,文中提出利用行列联合选择(CUR)矩阵分解方法获取原始矩阵M(用户对产品的偏好)的低秩近似,提取用户和产品的潜在偏好.首先计算M中行和列的统计影响力得分,并抽取得分较高的若干列和若干行构成低维矩阵C和R,然后由M、C、R近似构造矩阵U,将高维空间中的偏好特征提取问题转化为低维空间中的矩阵分析问题,使其具有较好的可解释性和准确性.最后,通过理论分析和实验发现,与传统分解方法相比,CUR矩阵分解方法在偏好特征提取方面具有更高的准确度、更好的可解释性及更高的压缩率.  相似文献   

2.
频繁模式挖掘算法FP-growth算法需递归地生成大量的条件FP-树,且耗费大量存储空间和时间。为此,采用矩阵技术统计约束子树中的频繁项集和频繁项集的支持度,以进行数据挖掘。实验结果表明,该频繁模式挖掘算法是有效的,具有较高的时间效率及空间 效率。  相似文献   

3.
数据流中基于矩阵的频繁项集挖掘   总被引:3,自引:0,他引:3  
挖掘频繁项集是挖掘数据流的基本任务。许多近似算法能够有效地对数据流进行频繁项挖掘,但不能有效地控制内存资源消耗和挖掘运行时间。为了提高数据流频繁项集挖掘的时空效率,通过引入矩阵作为概要数据结构,提出了一种新的数据流频繁项集挖掘算法。最后通过实验证明了该算法的有效性。  相似文献   

4.
在频繁模式挖掘过程中能够动态改变约束的算法比较少.提出了一种基于约束的频繁模式挖掘算法MCFP.MCFP首先按照约束的性质来建立频繁模式树,并且只需扫描一遍数据库,然后建立每个项的条件树,挖掘以该项为前缀的最大频繁模式,并用最大模式树来存储,最后根据最大模式来找出所有支持度明确的频繁模式.MCFP算法允许用户在挖掘频繁模式过程中动态地改变约束.实验表明,该算法与iCFP算法相比是很有效的.  相似文献   

5.
基于频繁模式树的约束最大频繁项集挖掘算法   总被引:1,自引:0,他引:1       下载免费PDF全文
多数最大频繁项集挖掘算法产生候选项目集的代价很高,而实际应用中用户只关心部分关联规则。针对该问题,提出一种基于频繁模式树的约束最大频繁项集快速挖掘算法。该算法能随时删除不满足约束条件的项集,无需生成候选项目集,由此提高挖掘效率。实验结果证明,该算法的效率优于同类算法。  相似文献   

6.
由于信息传播模型是社区挖掘、社区影响力研究的基础,文中提出结合用户兴趣的信息传播模型,设计基于频繁子树的信息传播微观模式挖掘方法.首先,基于微博社交网络图表示及用户多标签建模,将微观信息传播模式转换为频繁子树挖掘问题.然后,针对微博社交网络图单节点多标签特性,设计多标签节点树的频繁子树挖掘算法(MLTreeMiner).最后,结合主题提取方法,使用MLTreeMiner挖掘信息传播模式.在人工数据集上的实验表明,MLtreeMiner能高效地对多标签节点树进行频繁子树挖掘.针对新浪微博真实数据的实验也验证方法的有效性.  相似文献   

7.
提出了一种基于频繁模式矩阵FP-array的挖掘最大频繁项目集的算法.算法基本思想:①只扫描事务数据库一遍,把该数据库转换成一个矩阵FP-array,并且保留了所有事务数据库中项目间的关联信息,然后对该矩阵进行挖掘.②在FP-array中只存放逻辑型数据,节省了存储空间.③直接在FP-array上挖掘而不需要递归创建大量条件模式矩阵,挖掘过程采用逻辑运算,在效率上有独特的优势.通过实验验证了算法的有效性.  相似文献   

8.
为了避免用户通过"二次挖掘"才能得到有用的结果集,本文提出了一种新的约束最大频繁模式挖掘算法CSMFPMax.CSMFP-Max算法基于CFP树和对称矩阵,在挖掘过程中采用了多种剪枝策略并结合了自顶向下和自底向上的双向搜索策略,大大缩小了候选集规模,避免了不必要的条件CFP树的产生.理论分析和实验结果表明CSMFP-Max算法是一种高效的约束最大频繁模式挖掘算法,具有良好的时空效率.  相似文献   

9.
王华东  杨杰  李亚娟 《计算机应用》2014,34(9):2612-2616
研究这样一个问题:给定多序列、支持度阈值和间隔约束,从多序列中挖掘所有出现次数不小于支持度阈值的频繁序列模式,这里要求模式中任意两个相邻元素在序列中的出现都要满足用户自定义的间隔约束,并且模式在序列中的出现要满足one-off条件。在解决该问题上,已有算法M-OneOffMine在计算模式的支持度时,只考虑模式的每个字符在序列中的首次出现,导致计算的模式支持度远小于其真实支持度,以致许多频繁的模式没有被挖掘出来。为此,设计了一个有效的带有间隔约束的多序列模式挖掘算法--MMSP算法:首先,通过采用二维表保存模式的候选位置;然后,根据候选位置采用最左最优的思想选择匹配位置。通过生物DNA序列进行实验,多序列中元素序列数目不变而序列长度变化时,MMSP挖掘出的频繁模式总数是同类算法M-OneOffMine的3.23倍;在元素序列个数变化时,MMSP挖掘出的频繁模式个数平均是M-OneOffMine的4.11倍;这两种情况下MMSP都有更好的时间性能。在模式长度变化时,MMSP挖掘出的频繁模式个数分别平均是M-OneOffMine的2.21倍和MPP的5.24倍。同时还验证了M-OneOffMine挖掘到的模式是MMSP挖掘到的频繁的子集。实验结果表明,MMSP算法不仅可以挖掘到更多的频繁模式,而且时间花费更少,更适合于实际的应用。  相似文献   

10.
结合XML文档的特点,采用XML数据模型XOEM和压缩结构树的存储结构,提出了一种高效的XML数据的频繁模式挖掘算法──AFPMX算法,并从理论和实验两方面证明了该算法是可行和有效的。  相似文献   

11.
在分析现有的频繁模式树挖掘的经典算法FREQT和FreqtTree基础上,提出一种新的基于递推式右路径扩展的XML频繁模式树挖掘算法。该算法采用最右路径扩展的思想,利用递推式的候选节点集更新技术来压缩候选节点集,产生数量较少的候选模式,并且在计算候选模式树的支持数时,采用增量式技术,提高算法效率。从理论上证明该算法的正确性,并对通过具体实验验证算法的高效性。  相似文献   

12.
一种基于矩阵的动态频繁项集挖掘算法   总被引:4,自引:0,他引:4  
频繁项集的生成是关联规则挖掘中的关键问题,提出了一种基于上三角项集矩阵的动态频繁项集挖掘算法。当事务数据库和最小支持度发生变化时,本算法只需重新遍历一次上三角项集矩阵,即可得到新的频繁项集。与传统的频繁项集挖掘算法相比,在执行效率上有显著提高。  相似文献   

13.
一种新的工作流频繁模式挖掘算法研究   总被引:1,自引:1,他引:0  
高昂  杨扬  王玥薇 《计算机科学》2009,36(9):231-233
为了提高工作流模型挖掘技术的准确性,提出了一种新的工作流频繁模式挖掘算法.首先,阐述了工作流模型依赖矩阵的定义,并利用工作流日志建立了依赖矩阵.然后采用活动间的依赖关系作为频繁项集,设计了一种基于依赖矩阵的频繁项集自动生成算法.最后对频繁项集进行处理,得到最终的工作流频繁模式.该算法能够处理活动间交叠关系和具有串、并行关系的工作流模型,因此更具优越性.  相似文献   

14.
分析了Apriori算法关于发现频繁项集的方法及其效率,提出了一种基于上三角项集矩阵的频繁项集挖掘优化算法。本算法只需要扫描数据库一次,不产生候选项目集,也不使用逐层迭代的方法,大大提高了频繁项集的发现效率。  相似文献   

15.
分析了Apriori算法关于发现频繁项集的方法及其效率,提出了一种基于上三角项集矩阵的频繁项集挖掘优化算法。本算法只需要扫描数据库一次,不产生候选项目集,也不使用逐层迭代的方法,大大提高了频繁项集的发现效率。  相似文献   

16.
最大频繁项目集挖掘是多种数据挖掘应用研究的一个重要方面,最大频繁项目集的快速挖掘算法研究是当前研究的热点。传统的最大频繁项目集挖掘算法要多遍扫描数据库并产生大量的候选项目集。为此,该文提出了基于F-矩阵的最大频繁项目集快速挖掘算法FMMFIBFM,FMMFIBFM采用FP-tree的存储结构,仅须扫描数据库两遍且不产生候选频繁项目集,有效地提高了频繁项目集的挖掘效率。实验结果表明,FMMFIBFM算法是有效可行的。  相似文献   

17.
Efficient algorithms to mine frequent patterns are crucial to many tasks in data mining. Since the Apriori algorithm was proposed in 1994, there have been several methods proposed to improve its performance. However, most still adopt its candidate set generation-and-test approach. In addition, many methods do not generate all frequent patterns, making them inadequate to derive association rules. We propose a pattern decomposition (PD) algorithm that can significantly reduce the size of the dataset on each pass, making it more efficient to mine all frequent patterns in a large dataset. The proposed algorithm avoids the costly process of candidate set generation and saves time by reducing the size of the dataset. Our empirical evaluation shows that the algorithm outperforms Apriori by one order of magnitude and is faster than FP-tree algorithm. Received 14 May 2001 / Revised 5 September 2001 / Accepted in revised form 26 October 2001 Correspondence and offprint requests to: Qinghua Zou, Department of Computer Science, California University–Los Angeles, CA 90095, USA. Email: zou@cs.ucla.eduau  相似文献   

18.
周明  李宏 《计算机工程》2007,33(2):74-76
传统频繁项集挖掘算法在处理稠密或长数据集(如基因表达数据集)时效率低且产生大量冗余模式,为解决这些问题一些学者提出了闭合模式的概念和挖掘闭合模式的算法,研究证明挖掘闭合模式可以显著减少项集数量并消除大量冗余模式。该文针对生物数据特点提出了一个新颖的挖掘频繁闭合模式的算法REMFOR,该算法在闭合模式概念和行枚举思想的基础上,采用垂直数据结构和fp-tree技术,对行集建立行fp-tree来挖掘频繁闭合模式。通过实例和实验证明该算法是正确有效的。  相似文献   

19.
目前提出的频繁项目集挖掘算法大多基于Apriori算法思想,但这类算法会产生巨大的候选集并且重复扫描数据库.本文针对这一问题,给出了一种基于FC-tree的频繁闭项目集挖掘算法Max-FCIA,该算法将频繁项目集存储在哈希表中,节省了程序的搜索时间.此外,利用广度优先搜索和有效的剪枝策略,大大限制了候选项目集的生成,缩小了搜索空间从而提高了程序的性能.实验结果表明该算法是快速有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号