排序方式: 共有128条查询结果,搜索用时 15 毫秒
1.
为聚类非线性相关的数据对象,引入广义信息论中二次互信息作为相似性度量,利用矩阵理论降低了二次互信息的计算量,并结合滑动窗口技术,建立了一种时序数据非线性相关模型.在此基础上提出了适用于时序基因表达数据的确定性联合聚类算法MI-TSB.该算法将时序数据转化为抽象字符序列,然后插入到MI-泛化后缀树中,避免了穷举各种组合,从而快速索引全部聚类结果.实验结果显示MI-TSB算法具有良好的运行性能,成功聚类出非线性相关的对象;利用Gene Ontology对聚类结果进行基因注释,也验证了聚类结果的生物学意义. 相似文献
2.
处理海量和高维数据已经成为设计离群点算法面临的重要任务和挑战,针对海量数据的特点提出一种基于网格和密度的增量式离群点挖掘算法IGDLOF,算法的基本思想为:采用网格的七元组信息减少数据维数和数量,利用增量更新减少内存需求.通过代表点过滤相应的主体数据,先判断再进行近似密度计算的方法减少计算量,降低算法的复杂度.通过在真实和仿真数据集的测试表明,IGDLOF增量算法可与LOF算法保持相同的精确度,而执行效率得到显著的提高. 相似文献
3.
基于数据空间网格划分的PK 树索引结构* 总被引:1,自引:0,他引:1
在大规模高维数据挖掘研究中,数据存储与索引方法的有效性是决定算法时空效率的重要因素。将数据空间网格划分策略与高效率的树型索引结构结合起来,可以充分发挥两者在数据组织上的综合优势,将复杂问题转换为结构化的简单重复问题。在统一的框架下给出了各种数据空间网格划分的定义,讨论了两种适用于实现网格化数据索引的R树和PK树索引结构。试验结果表明,PK树在数据存储和索引上具有更高的效率,与网格化数据组织方法结合起来,对于降低大规模高维数据分析问题的时空复杂度具有重要意义。 相似文献
4.
5.
6.
挖掘关联规别是数据挖掘研究的一个重要方面,而如何快速有效地挖掘出关联规则是当前研究的热点.本文提出了一种前缀广义链表,并应用此结构进行关联规则的挖掘,得到了一种快速的关联规则发现算法、该算法不仅方便、效率高,而且避免了产生组合爆炸问题. 相似文献
7.
国内外研究成果表明,将数据挖掘技术应用于异常检测在理论上是可行的,在技术上建立这样一套系统是可能的。关联模式的挖掘是基于异常检测的数据挖掘技术中的一个十分重要的研究课题,文章的目的就是建立基于异常检测的关联模式挖掘模型,并给出了相应的算法。 相似文献
8.
基于投影数据集的序列模式增量挖掘算法 总被引:1,自引:0,他引:1
提出一种基于投影数据集的序列增量更新算法Inc_SPM,该算法以PrefixSpan算法为基础。首先利用已有的知识得出频繁1序列,然后生成投影数据集以迭代产生频繁k序列;同时为了控制投影数据集的规模,利用等价投影数据集来改进投影终止条件。 相似文献
9.
基于k均值分区的数据流离群点检测算法 总被引:10,自引:0,他引:10
离群知识发现是数据挖掘研究的一个重要方面,数据流离群点挖掘更因其挖掘对象具有动态性、不可复读性、数据量大等特点而成为离群知识发现研究的一个难点.提出一种基于k均值分区的流数据离群点发现算法,先对数据流进行分区做k均值聚类生成中间聚类结果(均值参考点集),随后在这些均值参考点中,根据离群点的定义找出可能存在的离群点.理论分析和实验结果表明,算法可以有效解决数据流离群点检测问题,算法是有效可行的. 相似文献
10.
高维数据流聚类及其演化分析研究 总被引:5,自引:0,他引:5
基于数据流数据的聚类分析算法已成为研究的热点.提出一种基于子空间的高维数据流聚类及演化分析算法CAStream,该算法对数据空间进行网格化,采用近似的方法记录网格单元的统计信息,并将潜在密集网格单元快照以改进的金字塔时间结构进行存储,最后采用深度优先搜索方法进行聚类及其演化分析.CAStream能够有效处理高雏数据流,并能发现任意形状分布的聚类.基于真实数据集与仿真数据集的实验表明,算法具有良好的适用性和有效性. 相似文献