首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
基于数据挖掘的启发式抽样方法研究   总被引:1,自引:0,他引:1  
在数据挖掘中应用抽样技术,可以显著提高数据挖掘任务的效率.通过采用不同的抽样方法,使得数据挖掘算法可以针对比原始数据集小得多的样本数据集进行分析,从而大幅度提高性能.随之而来的问题就是,由于采用了抽样方法,在大幅提高性能的同时,对分析的精确性就会产生影响.如何选取合适的反映总体数据水平的样本成为数据挖掘中的关键问题.传统意义上的抽样大多采用单一的抽样方法,进行单一抽样,抽取的样本在一定程度上具有局限性.本文对传统抽样方法和样本容量的选取进行总结,对传统的分层抽样思想进行改进,提出了一种新的基于数据挖掘的启发式抽样思想,大大提高了抽取样本的精确性.  相似文献   

2.
在“信息爆炸”的当今社会,海量数据对数据挖掘提出新的挑战。在数据挖掘转向云计算平台实现并行化的同时,研究并行化数据随机抽样进一步降低处理的数据规模。提出一种单次扫描即可实现清理脏数据并实现等概率抽样的mapreduce并行抽样算法。在hadoop平台上实现并与普通随机抽样方法进行比较,得出其时间效率非常高,是一种行之有效的方法。为以后数据挖掘中的抽样研究和推动数据挖掘在海量数据下的发展奠定良好基础。  相似文献   

3.
数据挖掘和知识发现技术是当前数据库和信息决策领域最前沿研究的方向之一.在各个领域中的研究和应用越来越多,本文主要介绍了工程装备发展专家系统中应用数据挖掘和知识发现的几个方法,最后应用该技术对工程装备发展专家系统中的相关数据简单地进行分析.  相似文献   

4.
孙中祥  彭湘君  杨玉平  贺一 《电脑学习》2012,2(1):78-80,F0003
随着教育信息化的不断发展,基于数据库技术的数据挖掘与教育教学的联系也越来越紧密。通过对国内外数据挖掘在教育教学领域中的应用研究相关文献进行分析,从数据挖掘相关技术的角度出发,总结并归纳了各自在该领域中的应用和研究现状。最后提出了数据挖掘在该领域研究中存在的一些问题与难题以及发展前景。  相似文献   

5.
基于策略模式的中医数据挖掘平台   总被引:1,自引:0,他引:1  
随着数据挖掘技术的发展和中医信息化的逐渐深入,很多数据挖掘方法被应用到中医研究领域。针对面向对象软件设计模式中的策略模式在数据挖掘科研软件平台设计开发上的应用进行了研究,并提出了平台设计概要。在此基础之上,提出了一种中医数据挖掘研究的思想方法:将中医问题(数据)封装、将数据挖掘方法(算法)封装,实现统一的接口,从而实现在某一类中医问题中尝试不同的数据挖掘方法、将某一种数据挖掘方法应用于不同的中医问题。基于上述思想方法,实现了中医数据挖掘平台,用于中医相关领域的数据挖掘研究。  相似文献   

6.
基于策略模式的中医数据挖掘平台的设计与研究   总被引:1,自引:0,他引:1  
随着数据挖掘技术的发展和中医信息化的逐渐深入,很多数据挖掘方法被应用到中医研究领域.本文针对面向对象软件设计模式中的策略模式在数据挖掘科研软件平台设计开发上的应用进行了研究,并提出平台设计概要.在此基础之上,提出一种中医数据挖掘研究的思想方法:将中医问题(数据)封装、将数据挖掘方法(算法)封装,实现统一的接口,从而实现在某一类中医问题中尝试不同的数据挖掘方法、将某一种数据挖掘方法应用于不同的中医问题.基于上述思想方法,实现了中医数据挖掘平台,用于中医相关领域的数据挖掘研究.  相似文献   

7.
数据挖掘在网络取证中的应用方法研究   总被引:1,自引:0,他引:1  
计算机取证学科是一门正在兴起的新型学科,如何从海量和纷繁复杂的数据中,获取与案件相关的电子证据,是计算机取证的重要内容。本文介绍了数据挖掘方法解决计算机取证中的电子证据关联性和内在联系的分析思路,并提出了数据挖掘在计算机取证中的应用框架,给出数据挖掘方法在网络取证中的具体应用。  相似文献   

8.
陈利 《信息与电脑》2023,(18):26-29
随着计算机技术的发展和数据的增长,数据挖掘在各领域都有广泛的应用前景。基于此,文章分析了数据挖掘技术在计算机软件工程中的应用。首先,介绍数据挖掘技术,了解该技术在计算机软件工程中的应用流程。其次,总结数据挖掘技术的常用方法。最后,从软件项目管理、代码克隆检测、程序规约、版本控制信息、软件故障检测与修复以及源代码开发6方面,总结数据挖掘技术的应用要点。通过分析数据挖掘技术在计算机软件工程中应用的价值和优势,以期为从事数据挖掘技术和研究的相关读者提供参考。  相似文献   

9.
分析了数据挖掘中可视化技术应用的特点与方法,给出了数据挖掘中可视对象与参数的确定及算法分解的方法,提出了一种基于平行坐标技术的度量指标体系,证明了其中的相关性质与结论,并给出基于平行坐标技术的度量模型以及在实验数据上的应用例.结果表明这种方法对于数据挖掘中的数据可视化表示是有效的.基于度量指标的可视化技术在对可视对象的分析处理上可以借助适用的数学方法建模与评测,这有助于数据挖掘可视化的研究与应用.  相似文献   

10.
数据挖掘是大数据服务计算的一个重要方法,对于优化服务计算有重要意义。作为一种典型的数据挖掘方法,随机森林有着较高的正确率,因而得到广泛的应用。为了更加准确高效地处理服务计算中的大数据问题,进一步提升随机森林的正确率和效率,成为一项极其重要的研究。通过改变训练集的样本量和样本抽样方法,对平衡样本集和不平衡样本集进行分析,发现通过上述两个改进后,在优化区间内,平衡样本集泛化误差会减小12%~20%;单项改变抽样方法,可以使算法时间缩短,提升效率达10%~40%;对不平衡数据,也能够明显提升效率。理论和实验均证明,基于综合不放回抽样的随机森林算法改进能够提升平衡样本的正确率,使得该数据挖掘方法更适用于服务计算中的大数据分析和处理。  相似文献   

11.
We investigate the use of biased sampling according to the density of the data set to speed up the operation of general data mining tasks, such as clustering and outlier detection in large multidimensional data sets. In density-biased sampling, the probability that a given point will be included in the sample depends on the local density of the data set. We propose a general technique for density-biased sampling that can factor in user requirements to sample for properties of interest and can be tuned for specific data mining tasks. This allows great flexibility and improved accuracy of the results over simple random sampling. We describe our approach in detail, we analytically evaluate it, and show how it can be optimized for approximate clustering and outlier detection. Finally, we present a thorough experimental evaluation of the proposed method, applying density-biased sampling on real and synthetic data sets, and employing clustering and outlier detection algorithms, thus highlighting the utility of our approach.  相似文献   

12.
近年来空间colocation模式挖掘由传统数据扩展到了不确定数据、模糊数据领域,但在模糊数据层面上,只有少量关于对象模糊的研究,而对于模糊空间这一论域的研究还是空白。基于经典的colocation模式挖掘的理论,针对性地提出了面向模糊空间的colocation模式挖掘及相关定义,增加了模糊数据领域内研究的深度和广度,并根据模糊数学理论结合空间colocation挖掘的特点,在模糊距离隶属度函数未知的情况下建立了具有较好适用性的FS基本算法。该算法一改以往在经典数据集上需要验证”团实例”的复杂做法,大大提高了算法性能。在已知模糊距离隶属度函数时,给出一个同时适用于经典数据以及模糊数据的增加数据完整性的通用方法;引进模糊方位,给出完全有别于以往的FS补充算法,增加了数据的完整性,并能实现模糊数据空间向经典数据空间的转换。  相似文献   

13.
Fast algorithms for frequent itemset mining using FP-trees   总被引:9,自引:0,他引:9  
Efficient algorithms for mining frequent itemsets are crucial for mining association rules as well as for many other data mining tasks. Methods for mining frequent itemsets have been implemented using a prefix-tree structure, known as an FP-tree, for storing compressed information about frequent itemsets. Numerous experimental results have demonstrated that these algorithms perform extremely well. In this paper, we present a novel FP-array technique that greatly reduces the need to traverse FP-trees, thus obtaining significantly improved performance for FP-tree-based algorithms. Our technique works especially well for sparse data sets. Furthermore, we present new algorithms for mining all, maximal, and closed frequent itemsets. Our algorithms use the FP-tree data structure in combination with the FP-array technique efficiently and incorporate various optimization techniques. We also present experimental results comparing our methods with existing algorithms. The results show that our methods are the fastest for many cases. Even though the algorithms consume much memory when the data sets are sparse, they are still the fastest ones when the minimum support is low. Moreover, they are always among the fastest algorithms and consume less memory than other methods when the data sets are dense.  相似文献   

14.
大数据下关联规则算法的改进及应用   总被引:1,自引:0,他引:1  
大数据时代对数据挖掘的技术和应用提出了更高的要求,关联规则算法作为数据挖掘的一个主要方向,能够在大量数据中发现频繁项集和关联知识。Apriori算法是关联规则的经典算法,本文对其在大数据下应用的缺点提出改进的方法,并结合用户收视行为的海量数据对改进后的算法进行应用,提高了数据挖掘的效率并得到较好的挖掘结果,同时为后续的应用提出了新的课题。  相似文献   

15.
RUSBoost: A Hybrid Approach to Alleviating Class Imbalance   总被引:3,自引:0,他引:3  
Class imbalance is a problem that is common to many application domains. When examples of one class in a training data set vastly outnumber examples of the other class(es), traditional data mining algorithms tend to create suboptimal classification models. Several techniques have been used to alleviate the problem of class imbalance, including data sampling and boosting. In this paper, we present a new hybrid sampling/boosting algorithm, called RUSBoost, for learning from skewed training data. This algorithm provides a simpler and faster alternative to SMOTEBoost, which is another algorithm that combines boosting and data sampling. This paper evaluates the performances of RUSBoost and SMOTEBoost, as well as their individual components (random undersampling, synthetic minority oversampling technique, and AdaBoost). We conduct experiments using 15 data sets from various application domains, four base learners, and four evaluation metrics. RUSBoost and SMOTEBoost both outperform the other procedures, and RUSBoost performs comparably to (and often better than) SMOTEBoost while being a simpler and faster technique. Given these experimental results, we highly recommend RUSBoost as an attractive alternative for improving the classification performance of learners built using imbalanced data.  相似文献   

16.
SLA管理已经成为服务商和用户关心的重要内容。在进行服务质量管理时,服务质量的测量是其他管理功能的基础。本文从采样的角度分析了服务质量测量和传统网络测量的异同点,给出了服务质量采样频率的理论下限。在讨论已有方法不足的基础上,提出了基于预测的自适应采样算法,该算法在采样区间内随机确定采样的具体时间点,并结合自回归预测方法对即将采样的结果进行预测,在此基础上以一定的概率接受预测结果,放弃对准确预测时间点的采样,从而减少了采样次数,降低了对服务的影响。最后的实验结果说明了算法的有效性。  相似文献   

17.
入侵检测中的模糊数据挖掘技术   总被引:3,自引:0,他引:3  
本文论述了模糊数据挖掘技术在入侵检测中的应用,详细描述了利用审计数据挖掘模糊相联规则的算法,给出了相联规则集合相似度的函数,最后给出了利用它进行异常检测的简单的试验结果,结果表明利用模糊数据挖掘可以识别系统的异常行为。  相似文献   

18.
在数据挖掘之前对待挖掘数据进行一些选择与准备的预处理工作,可以对数据挖掘的过程和结果产生直接影响。其中数据缩减技术最大限度地精简数据量,提高数据挖掘的执行速度与效率。论述一些典型的数据缩减方法,说明典型方法的应用情况,分析典型方法的使用特点,通过对训练集数据的应用对数据缩减方法进行研究。  相似文献   

19.
Data anonymisation is of increasing importance for allowing sharing individual data among various data requesters for a variety of social network data analysis and mining applications. Most existing works of data anonymisation target at the optimization of the anonymisation metrics to balance the data utility and privacy, whereas they ignore the effects of a requester’s trust level and application purposes during the data anonymisation. Our aim of this paper is to propose a much finer level anonymisation scheme with regard to the data requester’s trust and specific application purpose. We firstly prioritize the attributes for anonymisation based on their importance to application purposes. Secondly, we build the projection between the trust value and the degree of data anonymiztion, which intends to determine to what extent the data should be anonymized. The decomposition algorithm is developed to find the desired anonymous solution, which ensures the uniqueness and correctness. Finally, we conduct extensive experiments on two real-world data sets and the results show the benefits of our approach for both data requesters and providers.  相似文献   

20.
An important issue that needs to be addressed when using data mining tools is the validity of the rules outside of the data set from which they are generated. Rules are typically derived from the patterns in a particular data set. When a new situation occurs, the change in the set of rules obtained from the new data set could be significant. In this paper, we provide a novel model for understanding how the differences between two situations affect the changes of the rules, based on the concept of fine partitioned groups that we call caucuses. Using this model, we provide a simple technique called combination data set, to get a good estimate of the set of rules for a new situation. Our approach works independently of the core mining process and it can be easily implemented with all variations of rule mining techniques. Through experiments with real-life and synthetic data sets, we show the effectiveness of our technique in finding the correct set of rules under different situations.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号