共查询到20条相似文献,搜索用时 62 毫秒
1.
2.
3.
4.
5.
6.
7.
探讨了数据库应用重要技术-数据挖掘技术,描述了数据查询的结构,已有的各种方式及常用技术,涵盖了大部分流行工具,比如分类、聚类、概括,总结了目前使用的统计与机器学习方法和新的解决方案。 相似文献
8.
9.
10.
从数据挖掘到知识发现 总被引:1,自引:0,他引:1
<正> KDD简介 过去的十年里,生成和收集数据的能力迅猛发展。科学数据集、商品的条形码、商业的计算机化和政府事务等都产生了海量的数据。 如此大量的数据明显超出了传统手工数据分析方法的分析能力。这些方法能够从数据中产生信息报告,但不能分析这些报告的内容以便集中处理。这就要求新一代技术与工具具备智能地并且自动地帮助人们分析海量数据来获取有用知识的能力。 从原始数据中发现有用的模式(或知识)通常称之为数据库中的知识发现,简称KDD。这种称法出现于 相似文献
11.
二次集成学习在医疗数据挖掘中的应用 总被引:1,自引:0,他引:1
CCDM 2014数据挖掘竞赛基于医学诊断数据,提出了实际生活中广泛出现的多类标问题和多类分类问题。针对两个问题出现的类别不平衡现象以及训练样本较少等特点,为了更好地完成数据挖掘任务,借助二次学习和集成学习的思想,提出了一个新的学习框架--二次集成学习。该学习框架通过首次集成学习得到若干置信度较高的样本,将其加入到原始训练集,并在新的训练集上进行二次学习,进而得到泛化性能更高的分类器。竞赛结果表明,与常用的集成学习相比,二次集成学习在两个问题上均取得了非常理想的结果。 相似文献
12.
In this paper, we examine the use of ensemble methods in a multirobot task allocation environment. The aim is to enable a robot that needs to estimate the required resources to complete a task, to utilize information coming from other robots of the same type. To our knowledge, it is the first attempt made, to use such methods, to combine data of the same type, coming from data sets of different agents, to form a prediction. Knowledge exchange is not continuous, but only ad hoc. To merge data, we use ensemble models. This keeps communication needs to a minimum, as only the models themselves—and no actual data— need to be exchanged. To further reduce communication costs, the number of robots that contribute information is being limited. Finally, we make an attempt to see how well the concept we use would perform in other domains. This is to examine whether the approach could yield the same results in other domains, or it is limited to the task allocation problem, as formulated in Tolmidis and Petrou (Eng. Appl. Artif. Intell., 2013;26(5–6):1458–1468) . For this, we selected two additional, different, publicly available data sets. 相似文献
13.
14.
离群点检测任务通常缺少可用的标注数据,且离群数据只占整个数据集的很小一部分,相较于其他的数据挖掘任务,离群点检测的难度较大,尚没有单一的算法适合于所有的场景。因此,结合多样性模型集成和主动学习思想,提出了一种基于主动学习的离群点集成检测方法OMAL(Outlier Mining based on Active Learning)。在主动学习框架指导下,根据各种基学习器的对比分析,选择了基于统计的、基于相似性的、基于子空间划分的三个无监督模型作为基学习器。将各基学习器评判的处于离群和正常边界的数据整合后呈现给人类专家进行标注,以最大化人类专家反馈的信息量;从标注的数据集和各基学习器投票产生的数据集中抽样,基于GBM(Gradient BoostingMachine)训练一个有监督二元分类模型,并将该模型应用于全数据集,得出最终的挖掘结果。实验表明,提出方法的AUC有了较为明显的提升,且具有良好的运行效率,具备较好的实用价值。 相似文献
15.
中国在扶贫工作取得决定性成就的同时,仍有一些脱贫人口存在返贫风险。本文基于不平衡数据集,利用SMOTE模型对返贫类别样本进行过采样处理,处理后的返贫与未返贫样本数据比例为3:1;接着建立基于Stacking集成学习的返贫预测模型,利用网格搜索对各个模型超参数进行寻优,结合10折交叉验证提高模型的泛化能力。本文使用4种不同的融合模型对脱贫户是否返贫进行预测。实验结果表明,与单一模型相比,模型融合后的分类效果要优于单独的分类器,其中最优融合模型的Acc为0.962,F1-score为0.946。 相似文献
16.
17.
18.
已有的数据流分类算法多采用有监督学习,需要使用大量已标记数据训练分类器,而获取已标记数据的成本很高,算法缺乏实用性。针对此问题,文中提出基于半监督学习的集成分类算法SEClass,能利用少量已标记数据和大量未标记数据,训练和更新集成分类器,并使用多数投票方式对测试数据进行分类。实验结果表明,使用同样数量的已标记训练数据,SEClass算法与最新的有监督集成分类算法相比,其准确率平均高5。33%。且运算时间随属性维度和类标签数量的增加呈线性增长,能够适用于高维、高速数据流分类问题。 相似文献
19.
20.
On Taxonomy and Evaluation of Feature Selection‐Based Learning Classifier System Ensemble Approaches for Data Mining Problems 下载免费PDF全文
Ensemble methods aim at combining multiple learning machines to improve the efficacy in a learning task in terms of prediction accuracy, scalability, and other measures. These methods have been applied to evolutionary machine learning techniques including learning classifier systems (LCSs). In this article, we first propose a conceptual framework that allows us to appropriately categorize ensemble‐based methods for fair comparison and highlights the gaps in the corresponding literature. The framework is generic and consists of three sequential stages: a pre‐gate stage concerned with data preparation; the member stage to account for the types of learning machines used to build the ensemble; and a post‐gate stage concerned with the methods to combine ensemble output. A taxonomy of LCSs‐based ensembles is then presented using this framework. The article then focuses on comparing LCS ensembles that use feature selection in the pre‐gate stage. An evaluation methodology is proposed to systematically analyze the performance of these methods. Specifically, random feature sampling and rough set feature selection‐based LCS ensemble methods are compared. Experimental results show that the rough set‐based approach performs significantly better than the random subspace method in terms of classification accuracy in problems with high numbers of irrelevant features. The performance of the two approaches are comparable in problems with high numbers of redundant features. 相似文献