首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
缺失数据处理方法的比较研究   总被引:9,自引:0,他引:9  
数据挖掘已被广泛用于医疗领域,而大多数医疗数据集都存在缺失值。本文介绍了一些缺失值估计算法。建立了5种模型来提高预测的有效性,它们是保留缺失模型、直接丢弃模型、贝叶斯补缺模型、贝叶斯重叠补缺模型和基于信息增益的贝叶斯重叠补缺模型。这些模型在Clinics数据集上进行了处理和分析。用C4.5决策树和10叠交叉确认法来检验这些模型的性能,结果表明根据信息增益递减顺序排序,用朴素贝叶斯分类器来预测缺失值是有效的。  相似文献   

2.
朴素贝叶斯分类器(NBC)是一种简洁而有效的分类模型。介绍了NBC模型的基本原理,并着重分析了该模型的独立性假设条件。在总结现有独立性假设研究的基础上,通过例子和实验分析得出结论:NBC模型的表现和独立性假设是否满足没有必然联系。  相似文献   

3.
用Matlab语言建构贝叶斯分类器   总被引:2,自引:1,他引:2  
文本分类是文本挖掘的基础与核心,分类器的构建是文本分类的关键,利用贝叶斯网络可以构造出分类性能较好的分类器。文中利用Matlab构造出了两种分类器:朴素贝叶斯分类器NBC,用互信息测度和条件互信息测度构建了TANC。用UCI上下载的标准数据集验证所构造的分类器,实验结果表明,所建构的几种分类器的性能总体比文献中列的高些,从而表明所建立的分类器的有效性和正确性。笔者对所建构的分类器进行优化并应用于文本分类中。  相似文献   

4.
个人信用评估是金融与银行界研究的重要内容。论文研究了三种朴素贝叶斯分类器信用评估模型的精度。在两个真实数据集上用10层交叉验证对朴素贝叶斯信用评估模型进行了测试,并与五种DavidWest的神经网络个人信用评估模型进行了对比。结果表明朴素贝叶斯分类器具有较低的分类误差,在信用评估中有优势。  相似文献   

5.
数据缺失条件下的贝叶斯推断方法   总被引:1,自引:0,他引:1  
Recently Bayesian network(BN) becomus a noticeable research direction in Data Mining.In this paper we introduce missing data mechanisms firstly,and then some methods to do Baysesian inference with missing data based on these missing data mechanisms.All of these must be useful in practice especially when data is scare and expensive.It can foresee that Bayesian networks will become a powerful tool in Data Mining with all of these methods above offered.  相似文献   

6.
利用数据挖掘工具Weka,在常态数据集adult上进行实验,从时间、正确率、误差率三个指标对比分析J48(C4.5决策树),朴素贝叶斯分类器,朴素贝叶斯树(NBTree)三种分类算法.结论为:在内存充足,时间要求不高的情况下,使用朴素贝叶斯树(NBTree)能获得更高的正确率和错误率;J48则是一种折中的方案;朴素贝叶斯分类器完成时间最短,但正确率和错误率为三种算法中最差.  相似文献   

7.
文本分类是文本挖掘的基础与核心,分类器的构建是文本分类的关键,利用贝叶斯网络可以构造出分类性能较好的分类器.文中利用Matlab构造出了两种分类器:朴素贝叶斯分类器NBC,用互信息测度和条件互信息测度构建了TANC.用UCI上下载的标准数据集验证所构造的分类器,实验结果表明,所建构的几种分类器的性能总体比文献中列的高些,从而表明所建立的分类器的有效性和正确性.笔者对所建构的分类器进行优化并应用于文本分类中.  相似文献   

8.
朴素贝叶斯分类器建立在其数据特征值之间相互条件独立的基础上,而在实际应用中该假设难以完全成立。针对这种现象提出一种算法,即通过寻找对产生错误分类影响最大的特征值,并依此特征值的关联项对数据项扩充,在此基础上对扩充项添加权重,以达到提升分类器精度的效果。最后对权重的大小加以论证,实验分析了不同大小的权重对分类器正确率的影响。实验结果表明,添加关联项扩充训练集,可以有效提升贝叶斯分类器的正确率。  相似文献   

9.
缺失数据处理方法研究综述   总被引:1,自引:0,他引:1       下载免费PDF全文
大数据时代,数据爆炸式的增长,数据获取变得更容易的同时数据缺失现象也更加普遍.数据的缺失极大地降低了数据的实用性.数据缺失问题的处理成为大数据处理的热点研究课题.介绍了数据缺失问题的研究意义和国内外研究现状.系统地分析了造成数据缺失的原因,对数据缺失问题进行了分类.对近年来国内外缺失数据处理方法进行了综述,总结了各自优...  相似文献   

10.
现代社会网络招聘兴起,为社会、企业节省了不少物力、人力、财力,但如何快速、简捷地从众多的电子简历中找出符合要求的简历又是一个让人头疼的问题.文中在贝叶斯网络的基础上,分别从朴素贝叶斯分类器和 TAN 分类器角度,构建一个基于贝叶斯分类器的电子简历筛选模型,并通过实验验证该模型对电子简历进行分类时的准确率和查全率,且引入一个新的评价指标 f 同时考虑准确率和查全率,得出没有属性变量相互独立限制的 TAN 分类器具有较好的分类效果的结论.  相似文献   

11.
对于时间序列挖掘过程中的缺失值处理,目前有许多方法。在处理数据变量成一定的相关的数据集时,回归模型不失为较好的插补方法。利用均值插补、一元线性回归、多元线性回归、迭代回归方法对水文时间序列数据集的缺失数据进行处理,比较不同的皮氏相关系数下各方法的优劣及适用性。文中研究表明当数据集中存在与缺值变量相关度较大的变量时,一元线性回归的插补简单直观,且有较高的精度,结果接近真实;当数据集中不存在与缺值变量显著相关的自变量时,一元线性回归的结果变差,多元线性回归与多元迭代回归具有较好的结果,但多元迭代回归迭代次数难以确定,插补代价较大,多元线性回归为最佳选择;当缺值变量与其他自变量相关系数均较小时,回归插补的结果不理想,此时可考虑其他插补方法。  相似文献   

12.
基于Sas的时间序列缺失值处理方法比较   总被引:1,自引:0,他引:1  
对于时间序列挖掘过程中的缺失值处理,目前有许多方法.在处理数据变量成一定的相关的数据集时,回归模型不失为较好的插补方法.利用均值插补、一元线性回归、多元线性回归、迭代回归方法对水文时间序列数据集的缺失数据进行处理,比较不同的皮氏相关系数下各方法的优劣及适用性.文中研究表明当数据集中存在与缺值变量相关度较大的变量时,一元线性回归的插补简单直观,且有较高的精度,结果接近真实;当数据集中不存在与缺值变量显著相关的自变量时,一元线性回归的结果变差,多元线性回归与多元迭代回归具有较好的结果.但多元迭代回归迭代次数难以确定,插补代价较大.多元线性回归为最佳选择;当缺值变量与其他自变量相关系数均较小时,回归插补的结果不理想,此时可考虑其他插补方法.  相似文献   

13.
This paper is concerned with problems that arise when submitting large quantities of data to analysis by an Inductive Logic Programming (ILP) system. Complexity arguments usually make it prohibitive to analyse such datasets in their entirety. We examine two schemes that allow an ILP system to construct theories by sampling from this large pool of data. The first, “subsampling”, is a single-sample design in which the utility of a potential rule is evaluated on a randomly selected sub-sample of the data. The second, “logical windowing”, is multiple-sample design that tests and sequentially includes errors made by a partially correct theory. Both schemes are derived from techniques developed to enable propositional learning methods (like decision trees) to cope with large datasets. The ILP system CProgol, equipped with each of these methods, is used to construct theories for two datasets—one artificial (a chess endgame) and the other naturally occurring (a language tagging problem). In each case, we ask the following questions of CProgol equipped with sampling: (1) Is its theory comparable in predictive accuracy to that obtained if all the data were used (that is, no sampling was employed)?; and (2) Is its theory constructed in less time than the one obtained with all the data? For the problems considered, the answers to these questions is “yes”. This suggests that an ILP program equipped with an appropriate sampling method could begin to address problems satisfactorily that have hitherto been inaccessible simply due to data extent.  相似文献   

14.
针对电力系统中出现的电力量测数据缺失的问题,本文采用统计方法、插值方法和机器学习方法进行了研究和实践。首先,本文分析了电力量测数据缺失的原因,重点探讨了量测数据在采集、传输、存储以及其他环节对数据缺失的影响。接着,本文详细介绍和分析了三种量测数据缺失补齐方法,并对不同方法进行了实验评估,包括相关系数评价、拟合优度评价和平均绝对误差占比评价等多种评价方法。实验结果表明,机器学习方法在量测数据缺失补齐精度和效果方面优于其他两种方法,表现出更好的效果。最后,本文对研究结果进行了总结和展望,指出机器学习方法在电力量测数据缺失补齐中的应用前景,本文的研究成果可为电力系统中量测数据缺失处理提供一定的参考价值。  相似文献   

15.
文本摘要成为人们从互联网上海量文本信息中便捷获取知识的重要手段。现有方法都是在特定数据集上进行训练和效果评价,包括一些公用数据集和作者自建数据集。已有综述文献对现有方法进行全面细致的总结,但大多都是对方法进行总结,而缺少对数据集的详细描述。该文从调研数据集的角度出发,对文本摘要常用数据集及在该数据集上的经典和最新方法进行综述。对公用数据集的综述包括数据来源、语言及获取方式等,对自建数据集的总结包括数据规模、获取和标注方式等。对于每一种公用数据集,给出了文本摘要问题的形式化定义。同时,对经典和最新方法在特定数据集上的实验效果进行了分析。最后,总结了已有常用数据集和方法的现状,并指出存在的一些问题。  相似文献   

16.
数据缺失是统计调查中经常存在的问题,若是少量缺失则可以利用删除法;若缺失值较多,利用删除法则会丢失大量有用信息,这时候就需利用插补法来补全数据,从而减少对统计分析的影响。根据统计年鉴上近几年的粮食产量、种植规模、有效灌溉面积等系列数据,分别采用贝叶斯多重插值法和刀切多重插值法展开了模拟研究,通过对两种方法所得数据的比对分析,来进一步掌握实际的插值效果。研究发现,利用这两种方法构建的模型都有较好的估计结果,但是贝叶斯多重插补法更为精确,而Jackknife法在操作方面则更为简单。  相似文献   

17.
快速图像处理中阈值选取方法的比较研究   总被引:14,自引:28,他引:14  
图像分割是图像处理中的一个重要问题。阈值法计算简单,具有较高的运行效率,这使得其在实时图像处理系统中得以广泛的应用。本文选取在实时性强的系统中使用较好的几种阈值化方法进行分析,阐述了各种方法的基本思想,以及各自的优缺点和适用范围,并对相应的改进算法进行了综述,对进行图像分割研究的科研人员具有一定的参考价值和启发作用。  相似文献   

18.
This paper proposes a grey-based nearest neighbor approach to predict accurately missing attribute values. First, grey relational analysis is employed to determine the nearest neighbors of an instance with missing attribute values. Accordingly, the known attribute values derived from these nearest neighbors are used to infer those missing values. Two datasets were used to demonstrate the performance of the proposed method. Experimental results show that our method outperforms both multiple imputation and mean substitution. Moreover, the proposed method was evaluated using five classification problems with incomplete data. Experimental results indicate that the accuracy of classification is maintained or even increased when the proposed method is applied for missing attribute value prediction.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号