共查询到20条相似文献,搜索用时 796 毫秒
1.
赵北庚 《电脑编程技巧与维护》2015,(2):54-56
Apriori算法是一种挖掘关联规则的频繁项集算法,广泛应用于商业领域与网络安全领域.描述了使用R语言arules扩展包的Apriori算法对真实的商品交易数据进行关联规则挖掘的过程,并对挖掘结果进行分析.对商品交易数据的关联规则挖掘思路可借鉴应用于其他情景的关联规则挖掘. 相似文献
2.
张颖 《计算机光盘软件与应用》2011,(11)
关联规则是一个应用广泛的数据挖掘算法,本文介绍了关联规则算法的工作原理,如何配置关联规则算法的参数及建立挖掘模型.结合一个高职院校的实例,对关联规则挖掘算法在专业课设置中的应用进行了研究,并对挖掘得到的结果进行了具体分析. 相似文献
3.
董志 《电脑编程技巧与维护》2016,(3)
提出了集成聚类分析、凸包分析、叠置分析和面积计算等各种地理空间分析与计算方法,实现了一种对在线地理数据进行地理空间关联规则挖掘的算法.该算法对非空间数据的关联规则发现算法Apriori进行了空间化处理,使该算法能够进行空间数据挖掘,发现空间关联规则.实现了在线地理空间数据的空间关联规则挖掘程序,并采用实际数据对算法进行了检验,验证了它们的可用性与有效性,并对挖掘所得的空间关联规则进行了多种可视化表达.从实验效果来看,空间关联规则的支持度和准确度主要依赖数据空间特征,如长度、面积(选择的计算基准)、体积等,发现了一些有趣的空间关联信息. 相似文献
4.
5.
6.
从实际应用角度,在对模糊关联规则挖掘算法进行改进的基础上,提出了模糊关联规则的加权挖掘算法(FARMA),以及简化的关联规则的加权挖掘算法(SFARMA),通过实验验证了算法的可行性,并对算法的性能进行了讨论. 相似文献
7.
随着现实待挖掘数据库规模不断增长,系统可使用的内存成为用FP-GROWTH算法进行关联规则挖掘的瓶颈.为了摆脱内存的束缚,对大规模数据库中的数据进行关联规则挖掘,基于磁盘的关联规则挖掘成为重要的研究方向.对此,改进原始的FP-TREE数据结构,提出了一种新颖的基于磁盘表的DTRFP-GROWTH(disk table resident FP-TREE growth)算法.该算法利用磁盘表存储FP-TREE,降低内存使用,在传统FP-GROWTH算法占用过多内存、挖掘工作无法进行时,以独特的磁盘表存储FP-TREE技术,减少内存使用,能够继续完成挖掘工作,适合空间性能优先的场合.不仅如此,该算法还将关联规则挖掘和关系型数据库整合,克服了基于文件系统相关算法效率较低、开发难度较大等问题.在真实数据集上进行了验证实验以及性能分析.实验结果表明,在内存空间有限的情况下,DTRFP-GROWTH算法是一种有效的基于磁盘的关联规则挖掘算法. 相似文献
8.
采用频繁项目链表变换的频繁项目集挖掘算法 总被引:1,自引:0,他引:1
周海岩 《小型微型计算机系统》2008,29(7)
频繁项目集的产生是关联规则挖掘的关键问题,经典的关联规则挖掘算法是通过对事务数据库的多次扫描实现的.最新的研究已经开始探索合适的数据结构以支持进行极少次数的事务数据库的扫描,进而减少关联规则挖掘过程中巨大的I/O开销以获得更高的效率.文中利用频繁项目链表的数据结构,给出了一种仅需扫描两次事务数据库的关联规则挖掘算法 ,称为FILLT算法.该算法采取分而治之策略,对频繁项目链表实施分割、变换来进行关联规则挖掘.文中最后对这一算法的效率进行了理论分析和实验验证. 相似文献
9.
10.
关联规则挖掘是数据挖掘的重要领域之一,利用粗糙集理论来挖掘关联规则的方法已经得到广泛关注.针对不完备信息系统,提出了基于粗糙集理论的快速ORD关联规则挖掘算法.该算法首先采用基于粗糙集理论的属性约简算法进行属性约简,然后采用快速、高效的冗余项集和冗余规则修剪算法--ORD算法获取关联规则.将该算法与其它同类流行的算法在4个UCI数据集上进行实验比较,结果表明该算法性能良好. 相似文献
11.
12.
Xin-Dong Wu 《计算机科学技术学报》2009,24(6):1018-1027
Due to the increasing availability and sophistication of data recording techniques, multiple information sources and distributed
computing are becoming the important trends of modern information systems. Many applications such as security informatics
and social computing require a ubiquitous data analysis platform so that decisions can be made rapidly under distributed and
dynamic system environments. Although data mining has now been popularly used to achieve such goals, building a data mining
system is, however, a nontrivial task, which may require a complete understanding on numerous data mining techniques as well
as solid programming skills. Employing agent techniques for data analysis thus becomes increasingly important, especially
for users not familiar with engineering and computational sciences, to implement an effective ubiquitous mining platform.
Such data mining agents should, in practice, be intelligent, complete, and compact. In this paper, we present an interactive
data mining agent — OIDM (online interactive data mining), which provides three categories (classification, association analysis,
and clustering) of data mining tools, and interacts with the user to facilitate the mining process. The interactive mining
is accomplished through interviewing the user about the data mining task to gain efficient and intelligent data mining control.
OIDM can help users find appropriate mining algorithms, refine and compare the mining process, and finally achieve the best
mining results. Such interactive data mining agent techniques provide alternative solutions to rapidly deploy data mining
techniques to broader areas of data intelligence and knowledge informatics. 相似文献
13.
随着数据挖掘技术的发展,各种各样的数据挖掘工具不断开发出来,如何把握这些工具的功能、挖掘技术和未来发展趋势,是一个非常困难的事情。文中借助数据挖掘技术提出了数据挖掘软件工具的一个多维立方体分类模型,给出了一个具体分类实例,总结出数据挖掘工具的技术发展路线和未来发展趋势,并通过对三个不同阶段的数据挖掘工具的深入比较,进一步验证了文中的结论。 相似文献
14.
随着数据挖掘技术的发展,各种各样的数据挖掘工具不断开发出来,如何把握这些工具的功能、挖掘技术和未来发展趋势,是一个非常困难的事情。文中借助数据挖掘技术提出了数据挖掘软件工具的一个多维立方体分类模型,给出了一个具体分类实例,总结出数据挖掘工具的技术发展路线和未来发展趋势,并通过对三个不同阶段的数据挖掘工具的深入比较,进一步验证了文中的结论。 相似文献
15.
本文介绍了Web数据挖掘的概念及其分类,并对Web数据挖掘技术的研究进行概述。利用Apriori算法发现频繁集,找到页面间的关联规则。针对网页超链接结构的特点:一条超链接只能建立在两个网页上,发现频繁集只要找出所有2-项集即可,从而提出网页超链接挖掘的NApriori算法。NApriori算法显著提高了Apriori算法的效率。 相似文献
16.
Mining With Noise Knowledge: Error-Aware Data Mining 总被引:1,自引:0,他引:1
Xindong Wu Xingquan Zhu 《IEEE transactions on systems, man, and cybernetics. Part A, Systems and humans : a publication of the IEEE Systems, Man, and Cybernetics Society》2008,38(4):917-932
Real-world data mining deals with noisy information sources where data collection inaccuracy, device limitations, data transmission and discretization errors, or man-made perturbations frequently result in imprecise or vague data. Two common practices are to adopt either data cleansing approaches to enhance the data consistency or simply take noisy data as quality sources and feed them into the data mining algorithms. Either way may substantially sacrifice the mining performance. In this paper, we consider an error-aware (EA) data mining design, which takes advantage of statistical error information (such as noise level and noise distribution) to improve data mining results. We assume that such noise knowledge is available in advance, and we propose a solution to incorporate it into the mining process. More specifically, we use noise knowledge to restore original data distributions, which are further used to rectify the model built from noise- corrupted data. We materialize this concept by the proposed EA naive Bayes classification algorithm. Experimental comparisons on real-world datasets will demonstrate the effectiveness of this design. 相似文献
17.
18.
19.
Text Mining 总被引:2,自引:1,他引:1
Zusammenfassung Im Blickpunkt dieses Artikels stehen die Funktionsweise und die Einsatzpotenziale des Text Mining. Text Mining läuft in einem mehrstufigen Prozess ab, dessen einzelne Schritte knapp vorgestellt werden. Der Fokus liegt hierbei auf der Datenaufbereitung, bei der mittels Techniken des Natural Language Processing Terme aus den zugrunde liegenden Texten extrahiert werden. 相似文献
20.