首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 125 毫秒
1.
高维数据挖掘算法的研究与进展   总被引:1,自引:1,他引:1  
生物信息学和电子商务应用的迅速发展积累了大量高维数据,对高维数据的挖掘变得越来越重要,一般的数据挖掘方法在处理高维数据时会遇到维灾的问题,同时传统相似性度量在高维空间中也变得没有意义。文章从频繁项集挖掘、聚类、分类等三个方面对最新的高维数据挖掘算法的现状进行了综述,对这些算法如何解决高维数据挖掘存在的问题进行研究。  相似文献   

2.
数据挖掘出现于20世纪80年代后期,是数据库研究中一个很有应用价值的领域.随着大数据出现,高维数据的挖掘成为了热点和难点。本文在介绍传统数据挖掘的基础上,介绍了高维数据的特点以及目前面临的问题,高维数据挖掘最新研究的情况,并在此基础上进行了总结和展望。  相似文献   

3.
考虑到传统算法在推荐高维数据时存在覆盖率和准确率低、平均绝对误差和均方根误差大的问题,提出了基于数据挖掘的高维数据协同过滤推荐算法研究。根据高维数据属性特征的偏好值,预测评分高维数据属性特征,采用关联规则对分解后的属性特征重构,得到高维数据属性特征的数据挖掘分类树,提取出高维数据属性特征,利用空间向量法,判断高维数据信息间的权重信息值,根据权重信息设置相应的门限值,得到高维数据信息间相似度的分布情况,完成对高维数据间的相似度值的计算,利用数据挖掘技术,对高维数据信息预处理,结合高维数据协同过滤推荐算法设计,实现了高维数据的协同过滤推荐。实验结果表明,基于数据挖掘的推荐算法不仅可以通过提高覆盖率和准确率增强推荐效果,还可以通过降低平均绝对误差和均方根误差提高推荐性能。  相似文献   

4.
高维数据挖掘由于特征空间占用开销较大,挖掘的复杂度较高,挖掘精度不高,为了提高对高维数据挖掘的准确性能,提出一种基于相空间重构和K-L变换特征压缩的高维数据挖掘数学建模方法。采用集成学习技术,对高维数据信息流进行相空间重构处理,考虑类间的数据不平衡性,求得高维数据的关联维特征参量,根据数据的链距离进行稀疏性融合,计算高维数据流模型的最大Lyapunove指数谱,根据谱分析方法实现数据聚类,对聚类后的数据采用K-L特征压缩方法进行降维处理,降低数据挖掘的内存及计算开销。仿真结果表明,采用该方法进行高维数据挖掘,数据挖掘的准确概率较高,占用内存消耗较少,计算开销较小。  相似文献   

5.
高维数据挖掘是对发现数据库中的知识进行发现,而入侵检测则是可以检测到所有的存在风险或是已经开始入侵想要损害系统完整性、安全性、保密性的一种网络安全技术,对大数据环境喜爱高维数据挖掘在入侵检测中存在的问题以及有效应用进行分析.  相似文献   

6.
对随机投影算法的离群数据挖掘技术研究   总被引:1,自引:0,他引:1  
[d]维点集离群数据挖掘技术是目前数据挖掘领域的研究热点之一。当前基于距离或最近邻概念进行离群数据挖掘时,在高维数据情况下的挖掘效果不佳,鉴于此,将基于角度的离群因子应用到高维离群数据挖掘中,提出一种新的基于随机投影算法的离群数据挖掘方案,它只需要用接近线性时间的方法就能预测所有数据点的基于角度的离群因子。该方法可以用于并行环境进行并行加速。对近似质量进行了理论分析,以保证算法的可靠性。合成和真实数据集实验结果表明,对超高维数据集,该方法效率高、可伸缩性强。  相似文献   

7.
近年来隐私保护数据挖掘已经成为数据挖掘的研究热点, 并取得了丰富的研究成果。但是, 随着移动通信、嵌入式、定位等技术的发展与物联网、位置服务、基于位置的社交网络等应用的出现, 具有个人隐私的信息内容更加丰富, 利用数据挖掘工具对数据进行综合分析更容易侵犯个人隐私。针对新的应用需求, 对隐私保护数据挖掘方法进行深入研究具有重要的现实意义。在分析现有的隐私保护数据挖掘方法分类与技术特点的基础上, 提出现有方法并应用于新型分布式系统架构应用系统、高维数据及时空数据等领域存在的挑战性问题, 并指出了今后研究的方向。  相似文献   

8.
随着流数据收集大量应用,数据流挖掘是数据挖掘的一个新的研究方向。本文在介绍数据流的基本特点以及分析了数据流对聚类的要求,并对现有高维数据流映射聚类算法的主要思想方法进行了总结。最后对面向高维数据流聚类的发展方向进行了展望。  相似文献   

9.
裘国永  张娇 《计算机应用研究》2012,29(10):3685-3687
分析和研究了自适应降维算法在高维数据挖掘中的应用。针对已有数据挖掘算法因维灾难导致的在处理高维数据时准确率和聚类质量都较低的情况,将二分K-均值聚类和SVM决策树算法结合在一起,提出了一种适用于高维数据聚类的自适应方法 BKM-SVMDT。该算法能保证二分K-均值聚类是在低维数据空间中进行,其结果再反过来帮助SVM在高维空间中的执行,这样反复执行以取得较好的分类精度和效率。标准数据集的实验结果证明了该方法的有效性。  相似文献   

10.
数据可视化在数据挖掘中的应用   总被引:2,自引:0,他引:2  
数据挖掘是从大量历史数据中抽取潜在的、有价值的知识或规则的过程。数据可视化对于快速分析数据,表示高维数据方面非常直观、有效。本文首先讨论了几种可视化技术,随后就数据可视化在数据挖掘的模型、过程中的应用进行探讨。  相似文献   

11.
异常发现是数据挖掘领域的一类重要任务.针对高维对象的异常度量问题和异常点集合的冗余问题,提出了一种新的面向高维数据的异常点发现方法.该方法通过采用高维数据的二部图表示,以高维对象的压缩能力作为其异常程度的度量,能够有效支持包含不同类型属性的高维数据.为了解决top-k异常点集合中的冗余问题,提出了低冗余top-k异常点的概念.由于精确计算低冗余的top-k异常点是NP-hard问题,设计了计算近似低冗余的top-k异常点的启发式方法k-AnomaliesHD算法.从在真实和人工数据集上的实验结果可以看出,该方法具有较好的扩展性;而且与不考虑冗余的异常点发现方法相比较,能够更有效地概括数据中的异常模式.  相似文献   

12.
聚类分析是数据挖掘中的一个重要研究课题。在许多实际应用中,聚类分析的数据往往具有很高的维度,例如文档数据、基因微阵列等数据可以达到上千维,而在高维数据空间中,数据的分布较为稀疏。受这些因素的影响,许多对低维数据有效的经典聚类算法对高维数据聚类常常失效。针对这类问题,本文提出了一种基于遗传算法的高维数据聚类新方法。该方法利用遗传算法的全局搜索能力对特征空间进行搜索,以找出有效的聚类特征子空间。同时,为了考察特征维在子空间聚类中的特征,本文设计出一种基于特征维对子空间聚类贡献率的适应度函数。人工数据、真实数据的实验结果以及与k-means算法的对比实验证明了该方法的可行性和有效性。  相似文献   

13.
李昕  钱旭  王自强 《计算机工程》2010,36(21):34-36
针对高维异常数据的挖掘问题,提出一种基于最大间隔准则和最小最大概率机的高维异常数据挖掘算法。利用最大间隔准则算法将高维数据投影到低维特征空间,再利用最小最大概率机进行异常数据的挖掘。实验结果表明,该算法检测准确率较高。  相似文献   

14.
项响琴  汪彩梅 《微机发展》2010,(1):124-127,131
离群数据挖掘是数据挖掘领域的一个研究分支,而聚类算法分析则是进行离群数据挖掘的重要研究方法之一。文中首先分析研究离群数据挖掘方法,对多个离群数据挖掘算法进行分析比较,讨论各自的优点和不足,同时针对高维空间数据的特点,分析挖掘高维空间数据中的离群点方法。其次对聚类分析算法进行讨论,分析一种基于网格和基于密度的聚类方法——聚类高维空间算法(CLIQUE算法),运用它可以更好地挖掘高维空间中的离群数据。提出了CLIQUE算法的有待改进的思想,为以后的研究指明方向。  相似文献   

15.
农民工医疗健康问题是政府长期关注的难题之一, 农民工医疗健康信息分析系统旨在对农民工医疗健康信息数据进行统计与挖掘, 辅助政府决策. 基于数据仓库中的维度建模理论, 结合农民工医疗保健需求及卫生服务活动特点, 建立面向数据分析的农民工医疗健康信息的多维数据模型, 对数据分析及挖掘的应用及方法进行初步设计, 为农民工医疗健康信息数据分析提供基础, 并为政府相关部门提供参考.  相似文献   

16.
高维数据之间的相似性度量问题是高维空间数据挖掘中所面临的问题之一。为了有效解决高维效应给相似性度量带来的种种问题,首先分析传统相似性度量算法,得出其局限性。再通过对传统度量算法进行改进,提出新的Close函数,以弥补传统相似性度量算法应用在高维空间时的不足。提出Close函数后,将其与几种传统的相似性度量算法作比较,得出新算法在高维空间相似性度量方面的优越性。文中最后用Matlab对该函数做了定量分析,实验证明该函数在高维空间中能有效避免噪声和维灾效应的影响。  相似文献   

17.
常规高维混合属性数据挖掘方法多采用云平台技术,无法完整保留数据的结构相似性,使得数据挖掘效率较低。为此,提出了基于FP-growth算法的高维混合属性数据挖掘方法。为了改善数据质量,根据高维混合属性数据在数据库中的存储结构,采用了一种固定算法实现数据去噪,并依据数据类型计算分类型和数值型相似度,结合FP-growth算法对频繁项样本分支进行筛选生成项表头,保证数据结构相似性的完整性,通过搜索项表头输出有效关联规则,实现数据挖掘过程。实验结果表明,所提方法具有较高的挖掘效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号