排序方式: 共有128条查询结果,搜索用时 15 毫秒
1.
基于数据空间网格划分的PK 树索引结构* 总被引:1,自引:0,他引:1
在大规模高维数据挖掘研究中,数据存储与索引方法的有效性是决定算法时空效率的重要因素。将数据空间网格划分策略与高效率的树型索引结构结合起来,可以充分发挥两者在数据组织上的综合优势,将复杂问题转换为结构化的简单重复问题。在统一的框架下给出了各种数据空间网格划分的定义,讨论了两种适用于实现网格化数据索引的R树和PK树索引结构。试验结果表明,PK树在数据存储和索引上具有更高的效率,与网格化数据组织方法结合起来,对于降低大规模高维数据分析问题的时空复杂度具有重要意义。 相似文献
2.
3.
4.
挖掘关联规别是数据挖掘研究的一个重要方面,而如何快速有效地挖掘出关联规则是当前研究的热点.本文提出了一种前缀广义链表,并应用此结构进行关联规则的挖掘,得到了一种快速的关联规则发现算法、该算法不仅方便、效率高,而且避免了产生组合爆炸问题. 相似文献
5.
基于投影数据集的序列模式增量挖掘算法 总被引:1,自引:0,他引:1
提出一种基于投影数据集的序列增量更新算法Inc_SPM,该算法以PrefixSpan算法为基础。首先利用已有的知识得出频繁1序列,然后生成投影数据集以迭代产生频繁k序列;同时为了控制投影数据集的规模,利用等价投影数据集来改进投影终止条件。 相似文献
6.
数据挖掘技术在能量管理系统中的应用 总被引:3,自引:0,他引:3
长期运行的电力系统能量管理系统数据库积聚了大量的时态数据,有效地利用这些丰富的数据资源,并采用适当的数据挖掘技术进行处理,可以发现潜在的运行规律和知识,将有助于系统更高效更安全的运行。 相似文献
7.
快速挖掘全局最大频繁项目集 总被引:18,自引:1,他引:18
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题.现行可用的最大频繁项目集挖掘算法大多基于单机环境,针对分布式环境下的全局最大频繁项目集挖掘尚不多见.若将基于单机环境的最大频繁项目集挖掘算法运用于分布式环境,或运用分布式环境下的全局频繁项目集挖掘算法来挖掘全局最大频繁项目集,均会产生大量的候选频繁项目集,且网络通信代价高.为此,提出了快速挖掘全局最大频繁项目集算法FMGMFI(fast mining global maximum frequent itemsets),该算法采用FP-tree存储结构,可方便地从各局部FP-tree的相关路径中得到项目集的频度,同时采用自顶向下和自底向上的双向搜索策略,可有效地降低网络通信代价.实验结果表明,FMGMF算法是有效、可行的. 相似文献
8.
处理海量和高维数据已经成为设计离群点算法面临的重要任务和挑战,针对海量数据的特点提出一种基于网格和密度的增量式离群点挖掘算法IGDLOF,算法的基本思想为:采用网格的七元组信息减少数据维数和数量,利用增量更新减少内存需求.通过代表点过滤相应的主体数据,先判断再进行近似密度计算的方法减少计算量,降低算法的复杂度.通过在真实和仿真数据集的测试表明,IGDLOF增量算法可与LOF算法保持相同的精确度,而执行效率得到显著的提高. 相似文献
9.
10.
国内外研究成果表明,将数据挖掘技术应用于异常检测在理论上是可行的,在技术上建立这样一套系统是可能的。关联模式的挖掘是基于异常检测的数据挖掘技术中的一个十分重要的研究课题,文章的目的就是建立基于异常检测的关联模式挖掘模型,并给出了相应的算法。 相似文献