首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 83 毫秒
1.
高维数据挖掘算法的研究与进展   总被引:1,自引:1,他引:1  
生物信息学和电子商务应用的迅速发展积累了大量高维数据,对高维数据的挖掘变得越来越重要,一般的数据挖掘方法在处理高维数据时会遇到维灾的问题,同时传统相似性度量在高维空间中也变得没有意义。文章从频繁项集挖掘、聚类、分类等三个方面对最新的高维数据挖掘算法的现状进行了综述,对这些算法如何解决高维数据挖掘存在的问题进行研究。  相似文献   

2.
数据挖掘技术   总被引:4,自引:0,他引:4  
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。本文简略介绍了数据挖掘的分析处理过程、分析处理模式、数据挖掘在电信企业中的应用以及数据挖掘的发展趋势。  相似文献   

3.
从不确定图中挖掘频繁子图模式   总被引:8,自引:0,他引:8  
邹兆年  李建中  高宏  张硕 《软件学报》2009,20(11):2965-2976
研究不确定图数据的挖掘,主要解决不确定图数据的频繁子图模式挖掘问题.介绍了一种数据模型来表示图的不确定性,以及一种期望支持度来评价子图模式的重要性.利用期望支持度的Apriori性质,给出了一种基于深度优先搜索策略的挖掘算法.该算法使用高效的期望支持度计算方法和搜索空间裁剪技术,使得计算子图模式的期望支持度所需的子图同构测试的数量从指数级降低到线性级.实验结果表明,该算法比简单的深度优先搜索算法快3~5个数量级,有很高的效率和可扩展性.  相似文献   

4.
RAKING:一种高效的不确定图K-极大频繁模式挖掘算法   总被引:2,自引:1,他引:2  
由于不确定图蕴含了指数级的可能图实例,基于确定图模型的频繁图模式挖掘算法通常难以在不确定图集合上高效运行.文中提出了一种不确定图数据集上的基于随机游走的K极大频繁子模式挖掘算法.首先,将每个不确定图转换为相应的确定图并挖掘候选频繁模式;然后,将候选频繁模式恢复为不确定图并生成极大频繁模式搜索空间;最后,通过随机游走以相同概率随机地选择K个极大频繁模式.理论分析和实验结果表明文中提出的算法能够高效地获得不确定图集合的K-极大频繁模式.  相似文献   

5.
随着信息技术的快速发展,特别是计算机技术的不断普及,使得“数据丰富而信息贫乏”这对矛盾显得日益突出.数据挖掘技术正是应了这一需求而结合了数理统计学、人工智能、神经网络和信息枝术等多学科而出现的一项新技术,且在广大应用领域产生了和正在产生着巨大的作用:因特网在目前为一个分布式的、全球的、巨大的信息服务中心,每时每刻有海量数据产生于此.这无疑对数据挖掘这门新兴的学科提出了巨大的挑战.Web不仅由页面组成,而且还包含了由一个页面指向另一个页面的链接结构和用户使用记录.而大量的这些Web内容、链接结构和用户使用记录隐含了人们使用web页面行为习惯、页面质量、用户类别等大量有趣信息.本文就Web挖掘技术的web内容挖掘、web结构挖掘、Web使用记录挖掘作了深入、详细的探讨.  相似文献   

6.
数据挖掘技术初探   总被引:15,自引:0,他引:15  
数据挖掘技术已成为机器学习、数据库系统、人工智能等领域内热门的研究方向 .本文将讨论数据挖掘的基本概念 ,并在此基础上介绍、分析挖掘关联规则技术、决策树、聚类分析、数据管道等常用数据挖掘技术  相似文献   

7.
社交网络数据的高度复杂性给数据挖掘研究带来了巨大的挑战,而社交网络数据挖掘更注重实体之间相互关联的特点,使得图数据挖掘技术的研究与应用逐渐成为该领域的热点。传统数据挖掘,如聚类、分类、频繁模式挖掘等技术逐渐拓展到图数据挖掘领域。文中首先介绍了现阶段图数据挖掘算法(其中包括图查询、图聚类、图分类和图的频繁子图挖掘)的研究内容和存在的问题;其次介绍了图形数据库研究现状,以及对比了主流图形数据库管理系统的优劣;最后介绍了图挖掘技术在社交网络中的应用。  相似文献   

8.
介绍图数据分类方法,总结采用两步过程进行分类固有的问题--较高的计算成本以及频繁子图成指数增长.介绍能够解决这些问题的一种图分类框架,该框架采用分治算法直接从图数据中得到有意义的图模式.  相似文献   

9.
数据挖掘技术的研究现状及发展方向   总被引:10,自引:0,他引:10  
数据挖掘技术是当前数据库和人工智能领域研究的热点。文章对国内外数据挖掘技术的总体情况进行了概括性的介绍,其中包括数据挖掘技术的产生背景、应用领域等,并对当前数据挖掘的分类以及数据挖掘技术中常用的一些挖掘算法进行了说明,最后列出了一些数据挖掘在实际领域中的应用,并对数据挖掘技术的前景作出了展望。  相似文献   

10.
介绍了离群数据挖掘的基本概念,全面回顾分析并总结了离群数据挖掘研究的历史与现状,以及离群数据挖掘的几类方法,介绍了一种传统的基于距离的离群数据挖掘算法SL算法,并对该方法进行了分析和评价,指出传统方法的优点和不足,展望了今后的研究工作。  相似文献   

11.
数据流挖掘算法研究综述   总被引:15,自引:3,他引:15  
蒋盛益  李庆华  李新 《计算机工程与设计》2005,26(5):1130-1132,1169
流数据挖掘是数据挖掘的一个新的研究方向,已逐渐成为许多领域的有用工具。在介绍数据流的基本特点以及数据流挖掘的意义的基础上,对现有数据流挖掘算法的主要思想方法进行了总结,并指出了这些方法的局限性。最后对数据流挖掘的发展方向进行了展望。  相似文献   

12.
鉴于图结构能简单方便地描绘复杂的数据以及实际应用中图数据的获得具有不确定性,不确定频繁子图挖掘算法得到广泛的研究。目前一个典型的图挖掘算法是MUSE,但MUSE算法存在期望支持度计算消耗大、时间效率不够高等问题。针对此问题提出了一种基于划分思想混合搜索策略的不确定子图挖掘算法EDFS,它用改进过的GSpan算法进行不确定的子图数据预处理,用裁剪子图模式的搜索空间裁剪不确定子图数据,用基于划分思想的混合策略进行频繁子图的挖掘。子图同构与边存在概率的实验结果证明了EDFS算法能更高效地挖掘出不确定数据频繁子图。  相似文献   

13.
近几年来,不确定数据广泛出现在传感器网络、Web应用等领域中。不确定数据挖掘已经成为了新的研究热点,主要包括聚类、分类、频繁项集挖掘、孤立点检测等方面,其中频繁项集挖掘是重点研究的问题之一。综述了传统的频繁项集挖掘的两类基本算法,分析了在此基础上提出的适用于不确定数据以及不确定数据流的频繁项集挖掘的方法,并探讨了今后可能的研究方向。  相似文献   

14.
针对已有概率频繁项集挖掘算法采用模式增长的方式构建树时产生大量树节点,导致内存空间占用较大以及发现概率频繁项集效率低等问题,提出了改进的不确定数据频繁模式增长(PUFP-Growth)算法。该算法通过逐条读取不确定事务数据库中数据,构造类似频繁模式树(FP-Tree)的紧凑树结构,同时更新项头表中保存所有尾节点相同项集的期望值的动态数组。当所有事务数据插入到改进的不确定数据频繁模式树(PUFP-Tree)中以后,通过遍历数组得到所有的概率频繁项集。最后通过实验结果和理论分析表明:PUFP-Growth算法可以有效地发现概率频繁项集;与不确定数据频繁模式增长(UF-Growth)算法和压缩的不确定频繁模式挖掘(CUFP-Mine)算法相比,提出的PUFP-Growth算法能够提高不确定数据概率频繁项集挖掘的效率,并且减少了内存空间的使用。  相似文献   

15.
数据挖掘中聚类算法研究进展   总被引:6,自引:0,他引:6  
聚类分析是数据挖掘中重要的研究内容之一,对聚类准则进行了总结,对五类传统的聚类算法的研究现状和进展进行了较为全面的总结,就一些新的聚类算法进行了梳理,根据样本归属关系、样本数据预处理、样本的相似性度量、样本的更新策略、样本的高维性和与其他学科的融合等六个方面对聚类中近20多个新算法,如粒度聚类、不确定聚类、量子聚类、核聚类、谱聚类、聚类集成、概念聚类、球壳聚类、仿射聚类、数据流聚类等,分别进行了详细的概括。这对聚类是一个很好的总结,对聚类的发展具有积极意义。  相似文献   

16.
Mining frequent patterns from datasets is one of the key success of data mining research. Currently,most of the studies focus on the data sets in which the elements are independent, such as the items in the marketing basket. However, the objects in the real world often have close relationship with each other. How to extract frequent patterns from these relations is the objective of this paper. The authors use graphs to model the relations, and select a simple type for analysis. Combining the graph theory and algorithms to generate frequent patterns, a new algorithm called Topology, which can mine these graphs efficiently, has been proposed.The performance of the algorithm is evaluated by doing experiments with synthetic datasets and real data. The experimental results show that Topology can do the job well. At the end of this paper, the potential improvement is mentioned.  相似文献   

17.
为提高不确定数据集上频繁模式挖掘的效率, 针对已有算法在判断是否需要为头表中的某项创建子头表时的计算量比较大的问题, 给出一个近似挖掘策略AAT-Mine, 以损失小部分频繁项集为代价, 提高整个算法的挖掘效率。采用三个不同的典型数据集进行了算法的测试, 分别与目前最好的算法和典型算法进行性能对比。实验结果验证了近似算法AAT-Mine的时空效率都得到了提高。  相似文献   

18.
孟彩霞 《计算机应用研究》2009,26(11):4054-4056
数据流的无限性、高速性使得经典的频繁模式挖掘方法难以适用到数据流中。针对数据流的特点,对数据流中频繁模式挖掘问题进行了研究,提出了数据流频繁模式挖掘算法FP-SegCount。该算法将数据流分段并利用改进的FP-growth算法挖掘分段中的频繁项集,然后利用Count-Min Sketch进行项集计数。算法解决了压缩统计和计算快速高效的问题。通过实验分析,FP-SegCount算法是有效的。  相似文献   

19.
面向数据流的频繁项集挖掘研究   总被引:1,自引:0,他引:1       下载免费PDF全文
针对数据流的特点,对数据流中频繁模式挖掘问题进行了研究,提出了数据流频繁项集挖掘算法FP-SegCount。该算法将数据流分段并利用改进的FP-growth算法挖掘分段中的频繁项集。然后,利用Count Min Sketch进行项集计数。算法解决了压缩统计和计算快速高效的问题。通过和FP-DS算法的实验对比,FP-SegCount算法具有较好的时间效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号