共查询到19条相似文献,搜索用时 156 毫秒
1.
决策树算法及其在乳腺疾病图像数据挖掘中的应用 总被引:5,自引:1,他引:5
介绍了ID3决策树算法建立决策树的基本原理,着重介绍了决策树的修剪问题和两种典型的修剪算法-减少分类错误修剪算法和最小代价-复杂度修剪算法,并利用介绍的决策树算法和修剪算法对乳腺疾病图像进行数据挖掘,得到了一些有实际参考价值的规则,获得了很高的分类准确率,证明了决策树算法在医学图像数据挖掘领域有着广泛的应用前景。 相似文献
2.
根据医学图像数据的特性,提出一种基于粗糙集和决策树相结合的数据挖掘新方法。该方法利用粗糙集中基于属性重要性的离散化方法对医学图像特征进行离散化,采用粗糙集对其属性进行约简,得到低维训练数据,再用SLIQ决策树算法产生决策规则。实验表明:将粗糙理论与SLIQ相结合的数据挖掘方法既保留了原始数据的内部特点,同时剔除了与分类无关或关系不大的冗余特征,从而提高了分类的准确率和效率。 相似文献
3.
4.
5.
决策树算法在天气评估中的应用 总被引:1,自引:0,他引:1
分类算法是数据挖掘中的一个最重要技术.本文分析了决策树分类算法中的ID3算法和C4.5算法.利用它们建立天气评估的决策树模型.研究了该决策树模型在天气评估中的应用,分析了决策树算法应用于数据分类和知识发现的过程和特点.同时文章中也指出了分类算法的不足之处和待解决的问题。 相似文献
6.
该文在描述决策树分类算法的基础上,叙述了决策树分类算法用于网络入侵检测领域,给出了决策树分类模型的构造过程,并说明了应用基于决策树模型检测入侵的过程。最后用KDD CUP 99数据进行实验,验证了用本文描述的方法检测入侵行为的有效性。 相似文献
7.
提出了利用Cascade组合方法生成基于贝叶斯、神经网络与决策树的组合分类器,并将之应用到肝脏图像的分类中。实验结果表明,与现有医学图像分类方法相比,该组合方法可以有效地提高医学图像分类的准确性和稳定性。 相似文献
8.
决策树算法是经典的分类挖掘算法之一,具有广泛的实际应用价值。经典的ID3决策树算法是内存驻留算法,只能处理小数据集,在面对海量数据集时显得无能为力。为此,对经典ID3决策树生成算法的可并行性进行了深入分析和研究,利用云计算的MapReduce编程技术,提出并实现面向海量数据的ID3决策树并行分类算法。实验结果表明该算法是有效可行的。 相似文献
9.
10.
11.
12.
医学数据挖掘系统研究——糖尿病并发症流行病学知识发现 总被引:4,自引:0,他引:4
针对流行病学研究的特点,论文提出计算机辅助医学数据挖掘系统构架,以糖尿病并发症为研究实例,探讨医学数据的冗余性消除、规范化储存、知识归纳及可视化表达等问题。以天津总医院3022例普查数据为研究对象,尝试解决用计算机实现糖尿病并发症这类定性数据的定量化数据挖掘和知识发现。通过对于43种并发症的定性数据挖掘,可以发现诸如高血脂、冠心病、高血压、脑血管病等具有明显并发倾向的知识规则18条。同时,采用知识树方式和决策树等方法实现知识规则的可视化表达。基于数据挖掘和知识发现计算机辅助医学数据挖掘系统能够对现有病历数据库中数据进行自动分析并且提供有价值医学知识,特别适合流行病学分析和全民健康评估,因此与社区医疗和医院HIS系统结合是未来一个非常现实的发展方向。 相似文献
13.
人乳头瘤病毒(HPV)是导致宫颈癌的一大要素。利用Weka这个数据挖掘平台,对中国肿瘤防治数据库山西子宫颈癌医学数据集进行C4.5决策树分类研究,从决策树中提取了一些比较有意义的规则,发现一些容易导致感染HPV病毒的因素。 相似文献
14.
大数据环境下高效用项集挖掘算法中过多的候选项集极大地降低了算法的时空效率,提出了一种减少候选项集的数据流高效用项集挖掘算法。首先,通过数据流中当前窗口的一次扫描建立一个全局树,并降低全局树中头表入口与节点的冗余效用值;然后,基于全局树生成候选模式,基于增长算法降低局部树的候选项集效用;最终,从候选模式中选出高效用模式。基于真实数据流的实验结果表明,本算法的时空效率与内存占用比均优于其他数据流的高效用模式挖掘算法。 相似文献
15.
16.
关联规则挖掘算法在分类中的应用研究 总被引:1,自引:0,他引:1
提出了一个基于关联规则挖掘算法的医疗数据分类方法。介绍了关联规则的理论基础、关联规则挖掘算法及其在医疗数据挖掘中的应用方法,并利用介绍的算法对乳腺癌数据进行挖掘。获得了分类的实验结果,该模型系统达到了较高的分类准确率,证明了数据挖掘在辅助医疗诊断中有着广泛的应用前景。 相似文献
17.
Ahmed Chowdhury Farhan Tanbeer Syed Khairuzzaman Jeong Byeong-Soo Lee Young-Koo 《Knowledge and Data Engineering, IEEE Transactions on》2009,21(12):1708-1721
Recently, high utility pattern (HUP) mining is one of the most important research issues in data mining due to its ability to consider the nonbinary frequency values of items in transactions and different profit values for every item. On the other hand, incremental and interactive data mining provide the ability to use previous data structures and mining results in order to reduce unnecessary calculations when a database is updated, or when the minimum threshold is changed. In this paper, we propose three novel tree structures to efficiently perform incremental and interactive HUP mining. The first tree structure, Incremental HUP Lexicographic Tree ({rm IHUP}_{{rm {L}}}-Tree), is arranged according to an item's lexicographic order. It can capture the incremental data without any restructuring operation. The second tree structure is the IHUP Transaction Frequency Tree ({rm IHUP}_{{rm {TF}}}-Tree), which obtains a compact size by arranging items according to their transaction frequency (descending order). To reduce the mining time, the third tree, IHUP-Transaction-Weighted Utilization Tree ({rm IHUP}_{{rm {TWU}}}-Tree) is designed based on the TWU value of items in descending order. Extensive performance analyses show that our tree structures are very efficient and scalable for incremental and interactive HUP mining. 相似文献
18.
Sid Ahmed Mokeddem 《Applied Intelligence》2018,48(5):1233-1250
The use of data mining approaches for analyzing patients trace in different medical databases has become an important research field especially with the evolution of these methods and their contributions in medical decision support. In this paper, we develop a new clinical decision support system (CDSS) to diagnose Coronary Artery Diseases (CAD). According to CAD experts, Angiography is most accurate CAD diagnosis technique. However, it has many aftereffects and is very costly. Existing studies showed that CAD diagnosis requires heterogeneous patients traces from medical history while applying data mining techniques to achieve high accuracy. In this paper, an automatic approach to design CDSS for CAD assessment is proposed. The proposed diagnosis model is based on Random Forest algorithm, C5.0 decision tree algorithm and Fuzzy modeling. It consists of two stages: first, Random Forest algorithm is used to rank the features and a C5.0 decision tree based approach for crisp rule generation is developed. Then, we created the fuzzy inference system. The generation of fuzzy weighted rules is carried out automatically from the previous crisp rules. Moreover, a critical issue about the CDSS is that some values of the features are missing in most cases. A new method to deal with the problem of missing data, which allows evaluating the similarity despite the missing information, was proposed. Finally, experimental results underscore very promising classification accuracy of 90.50% while optimizing training time using UCI (the University of California at Irvine) heart diseases datasets compared to the previously reported results. 相似文献
19.
针对SQL数据挖掘在复杂动力学系统故障诊断中的模式分类问题,以决策树参数优化为例,开展SQL数据挖掘分类算法参数优化研究。目前数据挖掘中的各类算法参数往往根据经验值设定,预测精度不高;只用遗传算法进行参数优化,分类预测结果容易发生振荡和早熟现象。采用改进的退火遗传算法对SQL数据挖掘中的决策树算法参数进行优化,解决了人工经验设置参数效率低下、精度不高的问题,同时实现了全局搜索,快速收敛到全局最优解。 相似文献