首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
2.
<正> “人类正在被数据淹没,但人类却饥饿于知识”。信息爆炸、信息泛滥是当今数字化社会所面临的一个巨大的挑战。据估计,全世界的数据总量每18个月就要翻一番,以目前社会的信息化和自动化发展趋势来看,这个速度还会更快。 由于科学的进步和技术的发展,越来越多的先进技术、仪器和工具被广泛地应用于政府、商业、工业及科学等部门。科学  相似文献   

3.
数据挖掘技术及应用   总被引:1,自引:0,他引:1  
<正> 基本概念 知识发现(Knowledge Discovery in Database)是使用数据挖掘来抽象或识别知识的过程。数据库中的知识发现过程并不是一个琐碎无用的过程,它的每个过程都很重要——是在数据中获取并验证正确的、新奇的、潜在有用的和最终可理解的模  相似文献   

4.
数据挖掘管理系统   总被引:14,自引:0,他引:14  
林杰  薛华成 《微型电脑应用》2000,16(11):13-15,23
本文分析了数据挖掘的常用技术和分析方法,详细探讨了数据挖掘过程,在此基础上,设计了一个由多模型构成的数据挖掘管理系统的一般框架,其能支持数据挖掘分析的全过程。  相似文献   

5.
数据挖掘发展研究   总被引:21,自引:0,他引:21  
1 引言世纪之交,人类面临着新的问题:不缺数据缺知识。随着数据库技术的成熟和数据应用的普及,人类积累的数据量正以指数速度增长。例如,Wal Mart公司每天要处理二千万个事务;美国航天局1999年发射的地球观测系统每小时要产生50Gb的图像数据等。毫无疑问,这些庞大的数据库及其中的海量数据是极其丰富的信息源,但是仅仅依靠传统的数据检索机制和统  相似文献   

6.
提出一个新的数据挖掘结构FP_tree及相应的构造算法。基于FP_tree之上的挖掘算法及相关的性质与引理也相应给出,最后给出了本算法与以往算法的性能评价。  相似文献   

7.
周汝宗  王翔 《计算机工程》2002,28(11):281-283
探讨了数据库应用重要技术-数据挖掘技术,描述了数据查询的结构,已有的各种方式及常用技术,涵盖了大部分流行工具,比如分类、聚类、概括,总结了目前使用的统计与机器学习方法和新的解决方案。  相似文献   

8.
模糊数据挖掘   总被引:5,自引:0,他引:5  
本文在数据库中知识发现(KDD)和数据挖掘(DM)技术的基础上,提出了模糊数据库中知识发现(KDFD)和模糊数据挖掘(FDM)的概念与技术,并给出FDM的算法,它能有效地挖掘出模糊数据库中潜在的有价值的知识。本文具体讨论了模糊关联规则及模糊数据依赖的挖掘。  相似文献   

9.
数据挖掘在电子商务中的应用   总被引:7,自引:1,他引:6  
朱蔚恒  陈健  印鉴 《计算机工程》2002,28(8):73-74,113
详细介绍了数据挖掘方法与电子商务各方面的结合,并给出了一个以C/S体系结构为基础,与数据挖掘功能紧密结合的电子商务系统实例。》  相似文献   

10.
从数据挖掘到知识发现   总被引:1,自引:0,他引:1  
<正> KDD简介 过去的十年里,生成和收集数据的能力迅猛发展。科学数据集、商品的条形码、商业的计算机化和政府事务等都产生了海量的数据。 如此大量的数据明显超出了传统手工数据分析方法的分析能力。这些方法能够从数据中产生信息报告,但不能分析这些报告的内容以便集中处理。这就要求新一代技术与工具具备智能地并且自动地帮助人们分析海量数据来获取有用知识的能力。 从原始数据中发现有用的模式(或知识)通常称之为数据库中的知识发现,简称KDD。这种称法出现于  相似文献   

11.
二次集成学习在医疗数据挖掘中的应用   总被引:1,自引:0,他引:1  
CCDM 2014数据挖掘竞赛基于医学诊断数据,提出了实际生活中广泛出现的多类标问题和多类分类问题。针对两个问题出现的类别不平衡现象以及训练样本较少等特点,为了更好地完成数据挖掘任务,借助二次学习和集成学习的思想,提出了一个新的学习框架--二次集成学习。该学习框架通过首次集成学习得到若干置信度较高的样本,将其加入到原始训练集,并在新的训练集上进行二次学习,进而得到泛化性能更高的分类器。竞赛结果表明,与常用的集成学习相比,二次集成学习在两个问题上均取得了非常理想的结果。  相似文献   

12.
In this paper, we examine the use of ensemble methods in a multirobot task allocation environment. The aim is to enable a robot that needs to estimate the required resources to complete a task, to utilize information coming from other robots of the same type. To our knowledge, it is the first attempt made, to use such methods, to combine data of the same type, coming from data sets of different agents, to form a prediction. Knowledge exchange is not continuous, but only ad hoc. To merge data, we use ensemble models. This keeps communication needs to a minimum, as only the models themselves—and no actual data— need to be exchanged. To further reduce communication costs, the number of robots that contribute information is being limited. Finally, we make an attempt to see how well the concept we use would perform in other domains. This is to examine whether the approach could yield the same results in other domains, or it is limited to the task allocation problem, as formulated in Tolmidis and Petrou (Eng. Appl. Artif. Intell., 2013;26(5–6):1458–1468) . For this, we selected two additional, different, publicly available data sets.  相似文献   

13.
机器学习在数据挖掘中的作用   总被引:1,自引:0,他引:1  
本文介绍了机器学习与数据挖掘方法的基本特点,包括概念、发展、应用和分类概况,提供了一个了解机器学习与数据挖掘的应用视角。  相似文献   

14.
离群点检测任务通常缺少可用的标注数据,且离群数据只占整个数据集的很小一部分,相较于其他的数据挖掘任务,离群点检测的难度较大,尚没有单一的算法适合于所有的场景。因此,结合多样性模型集成和主动学习思想,提出了一种基于主动学习的离群点集成检测方法OMAL(Outlier Mining based on Active Learning)。在主动学习框架指导下,根据各种基学习器的对比分析,选择了基于统计的、基于相似性的、基于子空间划分的三个无监督模型作为基学习器。将各基学习器评判的处于离群和正常边界的数据整合后呈现给人类专家进行标注,以最大化人类专家反馈的信息量;从标注的数据集和各基学习器投票产生的数据集中抽样,基于GBM(Gradient BoostingMachine)训练一个有监督二元分类模型,并将该模型应用于全数据集,得出最终的挖掘结果。实验表明,提出方法的AUC有了较为明显的提升,且具有良好的运行效率,具备较好的实用价值。  相似文献   

15.
中国在扶贫工作取得决定性成就的同时,仍有一些脱贫人口存在返贫风险。本文基于不平衡数据集,利用SMOTE模型对返贫类别样本进行过采样处理,处理后的返贫与未返贫样本数据比例为3:1;接着建立基于Stacking集成学习的返贫预测模型,利用网格搜索对各个模型超参数进行寻优,结合10折交叉验证提高模型的泛化能力。本文使用4种不同的融合模型对脱贫户是否返贫进行预测。实验结果表明,与单一模型相比,模型融合后的分类效果要优于单独的分类器,其中最优融合模型的Acc为0.962,F1-score为0.946。  相似文献   

16.
17.
18.
已有的数据流分类算法多采用有监督学习,需要使用大量已标记数据训练分类器,而获取已标记数据的成本很高,算法缺乏实用性。针对此问题,文中提出基于半监督学习的集成分类算法SEClass,能利用少量已标记数据和大量未标记数据,训练和更新集成分类器,并使用多数投票方式对测试数据进行分类。实验结果表明,使用同样数量的已标记训练数据,SEClass算法与最新的有监督集成分类算法相比,其准确率平均高5。33%。且运算时间随属性维度和类标签数量的增加呈线性增长,能够适用于高维、高速数据流分类问题。  相似文献   

19.
20.
Ensemble methods aim at combining multiple learning machines to improve the efficacy in a learning task in terms of prediction accuracy, scalability, and other measures. These methods have been applied to evolutionary machine learning techniques including learning classifier systems (LCSs). In this article, we first propose a conceptual framework that allows us to appropriately categorize ensemble‐based methods for fair comparison and highlights the gaps in the corresponding literature. The framework is generic and consists of three sequential stages: a pre‐gate stage concerned with data preparation; the member stage to account for the types of learning machines used to build the ensemble; and a post‐gate stage concerned with the methods to combine ensemble output. A taxonomy of LCSs‐based ensembles is then presented using this framework. The article then focuses on comparing LCS ensembles that use feature selection in the pre‐gate stage. An evaluation methodology is proposed to systematically analyze the performance of these methods. Specifically, random feature sampling and rough set feature selection‐based LCS ensemble methods are compared. Experimental results show that the rough set‐based approach performs significantly better than the random subspace method in terms of classification accuracy in problems with high numbers of irrelevant features. The performance of the two approaches are comparable in problems with high numbers of redundant features.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号