首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
大数据分类挖掘过程中所涉及的数据量较大,导致大数据挖掘结果的查全率、查准率以及分类正确率下降。为解决以上问题,设计了基于云计算的大数据分类挖掘算法。利用云计算技术设计大数据采集架构,在此基础上,利用改进随机森林算法分类处理采集的大数据,通过并行化聚类算法聚类数据,实现大数据分类挖掘。实验结果表明,本文算法的查全率与查准率、分类正确率较高,实际应用效果好。  相似文献   

2.
遗传算法是数据挖掘中一种重要的分类挖掘算法,但简单的遗传算法具有很大的随机性,出错率较高,难以满足数据挖掘的需要。为此,提出一种基于遗传算法和Apriori的分类挖掘算法——GAA。从编码设计、适应度函数、遗传算子的设计方面进行讨论和分析,结合一个具体实例进行应用,结果表明算法在代数较少情况下,可有效提高分类的准确性,具有一定的应用价值。  相似文献   

3.
关联规则挖掘与分类规则挖掘的比较研究   总被引:1,自引:0,他引:1  
关联规则挖掘与分类规则挖掘都是数据挖掘,领域中很重要的技术。本文首先简要介绍了关联规则挖掘和分类规则挖掘的基本知识,主要从挖掘目的、发现规则算法的方法、算法的设计思想等几个方面对它们进行了比较,最后介绍了它们之间的联系。  相似文献   

4.
空间分类规则挖掘的一种决策树算法   总被引:3,自引:0,他引:3  
蔡之华  李宏  胡军 《计算机工程》2003,29(11):74-75,118
空间分类规则挖掘是空间数据挖掘研究的一个重要领域。文章提出一个空间分类规则挖掘问题,并为解决该问题介绍了一种空间分类规则挖掘的决策树算法。  相似文献   

5.
TH-Miner是以JaVa实现的跨平台数据挖掘可视化系统。在TH-Miner中实现了多种经典的数据挖掘算法,并构造了几种新的改进算法。TH-Miner包括可视化聚类挖掘工具、分类算法工具、序列模式挖掘算法工具以及文本分类工具。  相似文献   

6.
计算机及通信网络的快速发展,对数据挖掘算法的分布化提出了要求.介绍分布式数据挖掘的结构,然后重点针对分类知识的挖掘,探讨目前分布式环境下主要的分类挖掘算法.  相似文献   

7.
关联规则挖掘算法在分类中的应用研究   总被引:1,自引:0,他引:1  
提出了一个基于关联规则挖掘算法的医疗数据分类方法。介绍了关联规则的理论基础、关联规则挖掘算法及其在医疗数据挖掘中的应用方法,并利用介绍的算法对乳腺癌数据进行挖掘。获得了分类的实验结果,该模型系统达到了较高的分类准确率,证明了数据挖掘在辅助医疗诊断中有着广泛的应用前景。  相似文献   

8.
分类算法在数据挖掘中的应用,可以避免出现传统数据挖掘弊端,同时提高挖掘数据的应用有效性。本文结合具体实例,分析数据挖掘中的分裂算法。  相似文献   

9.
针对数据挖掘中挖掘过程不透明以及用户交互少的问题,本文设计并实现了VISDMiner系统。VISDMiner系统将可视化技术和数据挖掘技术结合在一起,提供对挖掘过程中各阶段产生的可视化子结果集的分析。用户可根据自己的领域知识和经验去调整数据挖掘算法模型的参数和可视化模型的参数,促进算法和挖掘分析过程的有效调优。为了处理高维数据集,VISDMiner系统采用一种基于最大信息系数的主成分分析改进算法MIC-PCA,该算法主要是针对传统PCA算法降维能力和分类准确率低的问题进行改进。实验结果表明,VISDMine不仅实现了数据挖掘过程的可视化,还提高了用户对数据挖掘〖JP2〗执行结果的可理解性,其采用的改进的MIC-PCA算法提高了PCA算法的降维能力和分类准确率。  相似文献   

10.
《软件》2019,(10):155-158
为了更加灵活的应用分类算法,针对数据挖掘中分类算法的可扩展性展开分析,首先介绍决策树分类算法、K最近邻分类算法这2种常见分类算法,并且分析分类算法的可扩展性,明确分类算法的作用以及扩展分类算法的3点原因,最后从应用快速算法、及时分割数据、表达与维护数据关系这3个方面着手,阐述可扩展性的实现方法。数据挖掘中分类算法的可扩展性能够充分发挥分类算法优势,提高分类结果准确性,及时完成数据挖掘。因此本文主要研究了数据挖掘中分类算法的可扩展性,希望能够提供一定的参考价值。  相似文献   

11.
大数据时代,数据的共享与挖掘存在隐私泄露的安全隐患。针对使用K-匿名隐藏实现隐私保护会大幅降低数据分类挖掘性能问题,提出一种基于随机森林特征重要性的K-匿名特征选择算法(RFKA)用于分类挖掘。使用随机森林特征重要性度量特征的分类性能;采用前向序列搜索策略每次选择不破坏K-匿名且分类性能最大的特征加入特征子集;使用特征子集对应的数据集构建模型进行分类实验。实验结果表明,该算法能更有效地平衡K-匿名和分类挖掘性能,且算法运行效率更高。  相似文献   

12.
邓正宏  张阳 《计算机工程与设计》2007,28(6):1292-1293,1323
分类分析是数据挖掘技术中的关键技术,但传统的分类分析算法对入侵检测数据进行处理有许多不足之处.使用DRC-BK算法分类入侵数据,一方面可以取得良好的分类准确度,另一方面分类规则可以被人类专家理解,从而有助于制定入侵预防和防止的措施,非常适合入侵数据的二次挖掘.  相似文献   

13.
本文介绍了Web数据挖掘的概念及其分类,并对Web数据挖掘技术的研究进行概述。利用Apriori算法发现频繁集,找到页面间的关联规则。针对网页超链接结构的特点:一条超链接只能建立在两个网页上,发现频繁集只要找出所有2-项集即可,从而提出网页超链接挖掘的NApriori算法。NApriori算法显著提高了Apriori算法的效率。  相似文献   

14.
概念漂移数据流挖掘算法综述   总被引:1,自引:0,他引:1  
丁剑  韩萌  李娟 《计算机科学》2016,43(12):24-29, 62
数据流是一种新型的数据模型,具有动态、无限、高维、有序、高速和变化等特性。在真实的数据流环境中,一些数据分布是随着时间改变的,即具有概念漂移特征,称为可变数据流或概念漂移数据流。因此处理数据流模型的方法需要处理时空约束和自适应调整概念变化。对概念漂移问题和概念漂移数据流分类、聚类和模式挖掘等内容进行综述。首先介绍概念漂移的类型和常用概念改变检测方法。为了解决概念漂移问题,数据流挖掘中常使用滑动窗口模型对新近事务进行处理。数据流分类常用的模型包括单分类模型和集成分类模型,常用的方法包括决策树、分类关联规则等。数据流聚类方式通常包括基于k- means的和非基于k- means的。模式挖掘可以为分类、聚类和关联规则等提供有用信息。概念漂移数据流中的模式包括频繁模式、序列模式、episode、模式树、模式图和高效用模式等。最后详细介绍其中的频繁模式挖掘算法和高效用模式挖掘算法。  相似文献   

15.
分类问题是数据挖掘中的基本问题之一,时间序列的特征表示及相似性度量是时间序列数据挖掘中分类、聚类及模式发现等任务的基础。SAX方法是一种典型的时间序列符号化表示方法,在采用该方法的基础上对时间序列进行分类,不仅可以有效地降维、降噪,而且具有简单、直观等特点,但是该方法有可能造成信息损失并影响到分类结果的准确性。为了弥补信息损失对分类结果的影响,采用了集成学习中大多数投票方法来弥补BOP表示后的信息损失,从而提高整个分类器的效率。针对一些样本在BOP表示中都损失了相似的重要信息,以至于大多数投票无法进一步提高分类效率的问题,进一步提出了结合集成学习中AdaBoost算法,通过对训练样本权重的调整,从而达到以提高分类器性能来弥补信息损失的效果。实验结果表明,将BOP方法与集成学习相结合的方法框架,不仅能很好地处理SAX符号化表示中的信息损失问题,而且与已有方法相比,在分类准确度方面也有显著的提高。  相似文献   

16.
This paper provides an overview of the current state-of-the-art on using constraints in knowledge discovery and data mining. The use of constraints in a data mining task requires specific definition and satisfaction tools during knowledge extraction. This survey proposes three groups of studies based on classification, clustering and pattern mining, whether the constraints are on the data, the models or the measures, respectively. We consider the distinctions between hard and soft constraint satisfaction, and between the knowledge extraction phases where constraints are considered. In addition to discussing how constraints can be used in data mining, we show how constraint-based languages can be used throughout the data mining process.  相似文献   

17.
本文基于公安业务中的治安防控原理,构建了面向情报分析和决策指挥的犯罪情报数据挖掘框架.首先,对案事件数据库进行预处理和空间编码的基础上得到标准化的案件信息数据,随后,利用聚类分析、关联分析和分类分析中的相关方法可得到治安案件的时空风险、重点人特征和作案手段特征等信息.通过对北京市实际盗窃案件数据进行挖掘,证明了数据挖掘技术能够很好的应用于犯罪情报的分析.  相似文献   

18.
Data mining is the process of secondary analysis of large databases aimed at finding unsuspected relationships which are of interest or value to the database owners. We analyze the statistical methods in the classification in data mining, include: preprocessing techniques, classification algorithms, and post-classification analysis. Also, we introduce the Bayesian networks for data mining.  相似文献   

19.
本文主要研究深度学习在抗菌药物使用方法分类及数据挖掘应用,在现有的疾病和电子病历抗菌药物使用方法的文本数据挖掘过程中,利用基于注意力机制的长短期记忆网络模型训练抗菌药物语料数据,通过自我学习特征的方式表示和理解问题,避免人工特征的提取误差,使分类的准确率最大值较传统数据挖掘方法提高至89.97%,从而更好地为不同疾病患者提供相应的抗菌药物治疗方案.根据实验结果,该方法在不需要人工制定特征规则的条件下,可以自主学习生成治疗方案知识库,从而为医生治疗患者提供最佳的辅助决策支持.  相似文献   

20.
Information visualization and visual data mining   总被引:12,自引:0,他引:12  
Never before in history has data been generated at such high volumes as it is today. Exploring and analyzing the vast volumes of data is becoming increasingly difficult. Information visualization and visual data mining can help to deal with the flood of information. The advantage of visual data exploration is that the user is directly involved in the data mining process. There are a large number of information visualization techniques which have been developed over the last decade to support the exploration of large data sets. In this paper, we propose a classification of information visualization and visual data mining techniques which is based on the data type to be visualized, the visualization technique, and the interaction and distortion technique. We exemplify the classification using a few examples, most of them referring to techniques and systems presented in this special section  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号