共查询到19条相似文献,搜索用时 83 毫秒
1.
高维数据挖掘算法的研究与进展 总被引:1,自引:1,他引:1
生物信息学和电子商务应用的迅速发展积累了大量高维数据,对高维数据的挖掘变得越来越重要,一般的数据挖掘方法在处理高维数据时会遇到维灾的问题,同时传统相似性度量在高维空间中也变得没有意义。文章从频繁项集挖掘、聚类、分类等三个方面对最新的高维数据挖掘算法的现状进行了综述,对这些算法如何解决高维数据挖掘存在的问题进行研究。 相似文献
2.
3.
4.
5.
随着信息技术的快速发展,特别是计算机技术的不断普及,使得“数据丰富而信息贫乏”这对矛盾显得日益突出.数据挖掘技术正是应了这一需求而结合了数理统计学、人工智能、神经网络和信息枝术等多学科而出现的一项新技术,且在广大应用领域产生了和正在产生着巨大的作用:因特网在目前为一个分布式的、全球的、巨大的信息服务中心,每时每刻有海量数据产生于此.这无疑对数据挖掘这门新兴的学科提出了巨大的挑战.Web不仅由页面组成,而且还包含了由一个页面指向另一个页面的链接结构和用户使用记录.而大量的这些Web内容、链接结构和用户使用记录隐含了人们使用web页面行为习惯、页面质量、用户类别等大量有趣信息.本文就Web挖掘技术的web内容挖掘、web结构挖掘、Web使用记录挖掘作了深入、详细的探讨. 相似文献
6.
7.
社交网络数据的高度复杂性给数据挖掘研究带来了巨大的挑战,而社交网络数据挖掘更注重实体之间相互关联的特点,使得图数据挖掘技术的研究与应用逐渐成为该领域的热点。传统数据挖掘,如聚类、分类、频繁模式挖掘等技术逐渐拓展到图数据挖掘领域。文中首先介绍了现阶段图数据挖掘算法(其中包括图查询、图聚类、图分类和图的频繁子图挖掘)的研究内容和存在的问题;其次介绍了图形数据库研究现状,以及对比了主流图形数据库管理系统的优劣;最后介绍了图挖掘技术在社交网络中的应用。 相似文献
8.
介绍图数据分类方法,总结采用两步过程进行分类固有的问题--较高的计算成本以及频繁子图成指数增长.介绍能够解决这些问题的一种图分类框架,该框架采用分治算法直接从图数据中得到有意义的图模式. 相似文献
9.
数据挖掘技术的研究现状及发展方向 总被引:10,自引:0,他引:10
数据挖掘技术是当前数据库和人工智能领域研究的热点。文章对国内外数据挖掘技术的总体情况进行了概括性的介绍,其中包括数据挖掘技术的产生背景、应用领域等,并对当前数据挖掘的分类以及数据挖掘技术中常用的一些挖掘算法进行了说明,最后列出了一些数据挖掘在实际领域中的应用,并对数据挖掘技术的前景作出了展望。 相似文献
10.
介绍了离群数据挖掘的基本概念,全面回顾分析并总结了离群数据挖掘研究的历史与现状,以及离群数据挖掘的几类方法,介绍了一种传统的基于距离的离群数据挖掘算法SL算法,并对该方法进行了分析和评价,指出传统方法的优点和不足,展望了今后的研究工作。 相似文献
11.
数据流挖掘算法研究综述 总被引:15,自引:3,他引:15
流数据挖掘是数据挖掘的一个新的研究方向,已逐渐成为许多领域的有用工具。在介绍数据流的基本特点以及数据流挖掘的意义的基础上,对现有数据流挖掘算法的主要思想方法进行了总结,并指出了这些方法的局限性。最后对数据流挖掘的发展方向进行了展望。 相似文献
12.
鉴于图结构能简单方便地描绘复杂的数据以及实际应用中图数据的获得具有不确定性,不确定频繁子图挖掘算法得到广泛的研究。目前一个典型的图挖掘算法是MUSE,但MUSE算法存在期望支持度计算消耗大、时间效率不够高等问题。针对此问题提出了一种基于划分思想混合搜索策略的不确定子图挖掘算法EDFS,它用改进过的GSpan算法进行不确定的子图数据预处理,用裁剪子图模式的搜索空间裁剪不确定子图数据,用基于划分思想的混合策略进行频繁子图的挖掘。子图同构与边存在概率的实验结果证明了EDFS算法能更高效地挖掘出不确定数据频繁子图。 相似文献
13.
近几年来,不确定数据广泛出现在传感器网络、Web应用等领域中。不确定数据挖掘已经成为了新的研究热点,主要包括聚类、分类、频繁项集挖掘、孤立点检测等方面,其中频繁项集挖掘是重点研究的问题之一。综述了传统的频繁项集挖掘的两类基本算法,分析了在此基础上提出的适用于不确定数据以及不确定数据流的频繁项集挖掘的方法,并探讨了今后可能的研究方向。 相似文献
14.
针对已有概率频繁项集挖掘算法采用模式增长的方式构建树时产生大量树节点,导致内存空间占用较大以及发现概率频繁项集效率低等问题,提出了改进的不确定数据频繁模式增长(PUFP-Growth)算法。该算法通过逐条读取不确定事务数据库中数据,构造类似频繁模式树(FP-Tree)的紧凑树结构,同时更新项头表中保存所有尾节点相同项集的期望值的动态数组。当所有事务数据插入到改进的不确定数据频繁模式树(PUFP-Tree)中以后,通过遍历数组得到所有的概率频繁项集。最后通过实验结果和理论分析表明:PUFP-Growth算法可以有效地发现概率频繁项集;与不确定数据频繁模式增长(UF-Growth)算法和压缩的不确定频繁模式挖掘(CUFP-Mine)算法相比,提出的PUFP-Growth算法能够提高不确定数据概率频繁项集挖掘的效率,并且减少了内存空间的使用。 相似文献
15.
数据挖掘中聚类算法研究进展 总被引:6,自引:0,他引:6
聚类分析是数据挖掘中重要的研究内容之一,对聚类准则进行了总结,对五类传统的聚类算法的研究现状和进展进行了较为全面的总结,就一些新的聚类算法进行了梳理,根据样本归属关系、样本数据预处理、样本的相似性度量、样本的更新策略、样本的高维性和与其他学科的融合等六个方面对聚类中近20多个新算法,如粒度聚类、不确定聚类、量子聚类、核聚类、谱聚类、聚类集成、概念聚类、球壳聚类、仿射聚类、数据流聚类等,分别进行了详细的概括。这对聚类是一个很好的总结,对聚类的发展具有积极意义。 相似文献
16.
Mining frequent patterns from datasets is one of the key success of data mining research. Currently,most of the studies focus on the data sets in which the elements are independent, such as the items in the marketing basket. However, the objects in the real world often have close relationship with each other. How to extract frequent patterns from these relations is the objective of this paper. The authors use graphs to model the relations, and select a simple type for analysis. Combining the graph theory and algorithms to generate frequent patterns, a new algorithm called Topology, which can mine these graphs efficiently, has been proposed.The performance of the algorithm is evaluated by doing experiments with synthetic datasets and real data. The experimental results show that Topology can do the job well. At the end of this paper, the potential improvement is mentioned. 相似文献
17.
18.
数据流的无限性、高速性使得经典的频繁模式挖掘方法难以适用到数据流中。针对数据流的特点,对数据流中频繁模式挖掘问题进行了研究,提出了数据流频繁模式挖掘算法FP-SegCount。该算法将数据流分段并利用改进的FP-growth算法挖掘分段中的频繁项集,然后利用Count-Min Sketch进行项集计数。算法解决了压缩统计和计算快速高效的问题。通过实验分析,FP-SegCount算法是有效的。 相似文献
19.
孟彩霞 《计算机工程与应用》2010,46(24):138-140
针对数据流的特点,对数据流中频繁模式挖掘问题进行了研究,提出了数据流频繁项集挖掘算法FP-SegCount。该算法将数据流分段并利用改进的FP-growth算法挖掘分段中的频繁项集。然后,利用Count Min Sketch进行项集计数。算法解决了压缩统计和计算快速高效的问题。通过和FP-DS算法的实验对比,FP-SegCount算法具有较好的时间效率。 相似文献