共查询到20条相似文献,搜索用时 31 毫秒
1.
提出一种基于最大频繁模式、模式相似与属性描述相结合的多维序列模式挖掘算法MSP,该算法包括3个步骤:挖掘数据集中的最大频繁模式,每个频繁模式成为一个模式类;比较数据中各序列项序列与各模式类的包含与相似关系;按照一定的规则抽取与各模式类相关的属性,给出以属性为前件、模式类为后件的多维序列规则为形式的多维序列模式挖掘结果.... 相似文献
2.
传统的序列模式挖掘算法应用在生物序列上有其局限性,根据生物序列的特点,提出了基于相邻频繁模式段的模式挖掘算法-JPS。首先产生相邻频繁模式段,然后对这些频繁模式段进行组合,产生新的频繁模式。通过实验分析,该方法在相似性很强的序列数据库中比传统的PrefixSpan算法效率高。通过对真实的蛋白质序列家族库的处理,证明该算法能有效处理生物序列数据。 相似文献
3.
高效挖掘无序频繁子树 总被引:4,自引:0,他引:4
频繁模式挖掘是数据挖掘领域的中一个重要问题,其研究范围包括事务,序列,树和图.频繁子树挖掘广泛应用于生物信息学,web挖掘,化合物结构分析和挖掘等领域.本文提出用模式增长方法在由无序树构成的森林中挖掘直接频繁子树.算法利用规范化方法将元序树化为为唯一的表示形式,利用最右路径扩展方法构造完整的模式增长空间,然后根据待增长模式的拓扑结构确定其增长点并构造相应投影库,从而将挖掘频繁子树模式问题转化为在各投影库中寻找频繁节点问题.通过与HybridTreeMiner算法的实验比较,表明其具有更高的效率。 相似文献
4.
5.
直接对生物序列进行频繁模式挖掘会产生很多冗余模式,闭合模式更能表达出序列的功能和结构。根据生物序列的特点,提出了基于相邻闭合频繁模式段的模式挖掘算法-JCPS。首先产生闭合相邻频繁模式段,然后对这些闭合频繁模式段进行组合,同时进行闭合检测,产生新的闭合频繁模式。通过对真实的蛋白质序列家族库的处理,证明该算法能有效处理生物序列数据。 相似文献
6.
提出用模式增长方法在带标记有序树构成的森林中挖掘嵌入式频繁子树.算法利用最右路径扩展方法构造完整的模式增长空间,然后根据待增长模式的拓扑结构确定其增长点并构造相应投影库,从而将挖掘频繁子树问题转化为在各投影库中寻找频繁节点问题.这大大降低算法的复杂性.实验表明其具有较高的时空效率. 相似文献
7.
针对传统模式挖掘方法挖掘生物序列会生成大量不必要的短而且无用的模式,导致效率降低,在多支持度思想的基础上提出了基于邻近频繁模式段的模式挖掘算法JBioPM。首先,产生邻近短频繁模式段,然后组合这些短频繁模式段,产生新的长频繁模式。通过实验分析,该方法在相似性很强的序列数据库中比BioPM算法效率高。通过对真实的蛋白质序列家族库的处理,证明该算法能有效处理生物序列数据。 相似文献
8.
关联分析作为数据挖掘的主要研究模块之一,主要用于发现隐藏在大型数据集中的强关联特征。而多数关联规则挖掘任务可分为频繁模式(频繁项集、频繁序列、频繁子图)的产生和规则的产生。前者发现数据集中满足最小支持度阈值的项集、序列与子图;后者从上一步发现的频繁模式中提取高置信度的规则。频繁项集挖掘是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心。十几年来,学者们致力于提高频繁项集的生成效率,从不同的角度进行改进以提高算法效率,大量的高效可伸缩性算法被提出。文中对频繁项集挖掘进行深入分析,对完全频繁项集、闭频繁项集、极大频繁项集的典型算法进行介绍和评述,最后对频繁项集挖掘算法的研究方向进行简要分析。 相似文献
9.
提出了一种分布多库环境下的全局库分类规则发现算法——FGCMAR。FGCMAR在各个站点采用CMAR算法分别生成频繁模式树,并在各个站点间传送条件模式基来形成全局条件频繁模式树,最终通过挖掘条件频繁模式树来得到全局分类规则。该算法能够有效的减小网络通信量,提高挖掘效率。理论分析和实验结果表明该算法是有效可行的。 相似文献
10.
一种数据流中的频繁模式挖掘算法 总被引:1,自引:0,他引:1
时序数据流的无限性、流动性和不规则性使得传统的频繁模式挖掘算法难以适用。针对时序数据流的特点,提出了一类特殊非规则数据流频繁模式挖掘的新算法。新算法采用时序数据分段的思想,逐段挖掘局部频繁模式,然后依据局部频繁模式有效地挖掘出所有的全局频繁模式。将新算法应用于电信领域的收入保障项目之中,结果表明,新算法具有良好的性能,能有效发现挖掘时序数据流中的频繁模式。 相似文献
11.
12.
13.
提出一种适合于入侵检测系统IDS(intrusion detection system)的频繁模式算法,该算法基于关联规则算法和序列模式算法,把属性间的关联与记录间的串行序列模式有效地结合到一条规则中.通过改进关联规则算法能避免产生大量无用的频繁模式.利用频繁模式算法(Frequent Pattern Algorithm)提取规则,构建规则库.并且对规则库进行不断地扩充与合并,能更有效地检测入侵. 相似文献
14.
传统的关联规则挖掘研究事务中所包含的项与项之间的关联性,而负关联规则挖掘不仅要考虑事务中包含的项,还要考虑事务中不包含的项。给出了完全负关联规则的定义,提出一种基于树的算法Free-PNP,通过此算法挖掘数据库中的负频繁模式,继而得到所要挖掘的完全负关联规则。通过实验验证了算法的有效性。 相似文献
15.
16.
17.
18.
19.
随着人们利用信息技术生产和搜集数据的能力的提高,数据资料的规模急速膨胀,从庞大的数据中提取有用的知识和信息是数据挖掘的主要任务,而关联规则的挖掘足数据挖掘领域中的一个重要分支.Fp-gmwth算法是目前最有效的关联规则频繁模式挖掘算法之一,然而,由于在挖掘的过程中需要递归的生成频繁模式树,直接把Fp-growth算法应用在文本中的算法效率并不高.针对文本数据的稀疏性,提出了一个基于频繁模式树即Fp-tree和支持度矩阵相结合的最大频繁项目集挖掘算法,缩小了搜索空间,提高了算法的效率.算法分析和实验表明,算法对稀疏型数据集和稠密型数据均适用. 相似文献