首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
由于数据挖掘技术日益广泛地应用于各个领域,而大多数领域中数据都存在缺失值,因此基于缺失数据的数据挖掘方法的研究具有重要意义.利用直接删除、特殊值填充、平均值填充、Robust方法4种处理缺失值的方法建立4个缺失值处理模型以及相应的朴素贝叶斯分类器模型.通过在5个实际数据集上进行实验比较,并采用五重交叉验证来检验这些模型的性能.结果表明,用这些模型处理缺失值构建的朴素贝叶斯分类器是有效的.  相似文献   

2.
基于信息增益的数据库缺失值填充算法   总被引:1,自引:1,他引:1  
覃泽 《微计算机信息》2007,23(12):180-181
在数据挖掘以及机器学习等领域,都需要涉及一个数据预处理过程。其中,缺失值的填充是一个非常具有挑战性的任务,因为填充效果的好坏会极大的影响学习算法及挖掘算法的后续处理过程.目前已有的一些填充算法在一定程度上能够处理缺失值问题.与已有的方法不同,提出了一种扩展的基于信息增益的缺失值填充算法,它充分利用数据集中各属性之间隐含的关系对缺失的数据进行填充。大量的实验表明,提出的扩展的基于信息增益的缺失值填充算法是有效的.  相似文献   

3.
朴素贝叶斯分类器(NBC)是一种简洁而有效的分类模型。介绍了NBC模型的基本原理,并着重分析了该模型的独立性假设条件。在总结现有独立性假设研究的基础上,通过例子和实验分析得出结论:NBC模型的表现和独立性假设是否满足没有必然联系。  相似文献   

4.
用Matlab语言建构贝叶斯分类器   总被引:2,自引:1,他引:2  
文本分类是文本挖掘的基础与核心,分类器的构建是文本分类的关键,利用贝叶斯网络可以构造出分类性能较好的分类器。文中利用Matlab构造出了两种分类器:朴素贝叶斯分类器NBC,用互信息测度和条件互信息测度构建了TANC。用UCI上下载的标准数据集验证所构造的分类器,实验结果表明,所建构的几种分类器的性能总体比文献中列的高些,从而表明所建立的分类器的有效性和正确性。笔者对所建构的分类器进行优化并应用于文本分类中。  相似文献   

5.
在数据挖掘以及机器学习等领域,都需要涉及一个数据预处理过程,以消除数据中所包含的错误、噪声、不一致数据或缺失值。其中,缺失值的填充是一个非常具有挑战性的任务,因为填充效果的好坏会极大的影响学习算法及挖掘算法的后续处理过程。目前已有的一些填充算法,如基于粗糙集的和基于最近邻法的算法等,在一定程度上能够处理缺失值问题。与以上方法不同,提出了一种扩展的基于信息增益的缺失值填充算法,它充分利用数据集中各属性之间隐含的关系对缺失的数据进行填充。大量的实验表明,提出的扩展的基于信息增益的缺失值填充算法是有效的。  相似文献   

6.
数据缺失条件下的贝叶斯推断方法   总被引:1,自引:0,他引:1  
Recently Bayesian network(BN) becomus a noticeable research direction in Data Mining.In this paper we introduce missing data mechanisms firstly,and then some methods to do Baysesian inference with missing data based on these missing data mechanisms.All of these must be useful in practice especially when data is scare and expensive.It can foresee that Bayesian networks will become a powerful tool in Data Mining with all of these methods above offered.  相似文献   

7.
文本分类是文本挖掘的基础与核心,分类器的构建是文本分类的关键,利用贝叶斯网络可以构造出分类性能较好的分类器.文中利用Matlab构造出了两种分类器:朴素贝叶斯分类器NBC,用互信息测度和条件互信息测度构建了TANC.用UCI上下载的标准数据集验证所构造的分类器,实验结果表明,所建构的几种分类器的性能总体比文献中列的高些,从而表明所建立的分类器的有效性和正确性.笔者对所建构的分类器进行优化并应用于文本分类中.  相似文献   

8.
利用数据挖掘工具Weka,在常态数据集adult上进行实验,从时间、正确率、误差率三个指标对比分析J48(C4.5决策树),朴素贝叶斯分类器,朴素贝叶斯树(NBTree)三种分类算法.结论为:在内存充足,时间要求不高的情况下,使用朴素贝叶斯树(NBTree)能获得更高的正确率和错误率;J48则是一种折中的方案;朴素贝叶斯分类器完成时间最短,但正确率和错误率为三种算法中最差.  相似文献   

9.
朴素贝叶斯分类器建立在其数据特征值之间相互条件独立的基础上,而在实际应用中该假设难以完全成立。针对这种现象提出一种算法,即通过寻找对产生错误分类影响最大的特征值,并依此特征值的关联项对数据项扩充,在此基础上对扩充项添加权重,以达到提升分类器精度的效果。最后对权重的大小加以论证,实验分析了不同大小的权重对分类器正确率的影响。实验结果表明,添加关联项扩充训练集,可以有效提升贝叶斯分类器的正确率。  相似文献   

10.
本文针对垃圾邮件过滤问题,结合中文自身的特点,把广泛适用于英文文本和邮件分类的朴素贝叶斯过滤方法应用在垃圾邮件网关邮件过滤层;把信息增益修剪方法经过改进作为中文特征选择方法,应用在数据管理层;从而极大提高了垃圾邮件的过滤精度。  相似文献   

11.
对于时间序列挖掘过程中的缺失值处理,目前有许多方法。在处理数据变量成一定的相关的数据集时,回归模型不失为较好的插补方法。利用均值插补、一元线性回归、多元线性回归、迭代回归方法对水文时间序列数据集的缺失数据进行处理,比较不同的皮氏相关系数下各方法的优劣及适用性。文中研究表明当数据集中存在与缺值变量相关度较大的变量时,一元线性回归的插补简单直观,且有较高的精度,结果接近真实;当数据集中不存在与缺值变量显著相关的自变量时,一元线性回归的结果变差,多元线性回归与多元迭代回归具有较好的结果,但多元迭代回归迭代次数难以确定,插补代价较大,多元线性回归为最佳选择;当缺值变量与其他自变量相关系数均较小时,回归插补的结果不理想,此时可考虑其他插补方法。  相似文献   

12.
基于Sas的时间序列缺失值处理方法比较   总被引:1,自引:0,他引:1  
对于时间序列挖掘过程中的缺失值处理,目前有许多方法.在处理数据变量成一定的相关的数据集时,回归模型不失为较好的插补方法.利用均值插补、一元线性回归、多元线性回归、迭代回归方法对水文时间序列数据集的缺失数据进行处理,比较不同的皮氏相关系数下各方法的优劣及适用性.文中研究表明当数据集中存在与缺值变量相关度较大的变量时,一元线性回归的插补简单直观,且有较高的精度,结果接近真实;当数据集中不存在与缺值变量显著相关的自变量时,一元线性回归的结果变差,多元线性回归与多元迭代回归具有较好的结果.但多元迭代回归迭代次数难以确定,插补代价较大.多元线性回归为最佳选择;当缺值变量与其他自变量相关系数均较小时,回归插补的结果不理想,此时可考虑其他插补方法.  相似文献   

13.
缺失数据处理方法研究综述   总被引:1,自引:0,他引:1       下载免费PDF全文
大数据时代,数据爆炸式的增长,数据获取变得更容易的同时数据缺失现象也更加普遍.数据的缺失极大地降低了数据的实用性.数据缺失问题的处理成为大数据处理的热点研究课题.介绍了数据缺失问题的研究意义和国内外研究现状.系统地分析了造成数据缺失的原因,对数据缺失问题进行了分类.对近年来国内外缺失数据处理方法进行了综述,总结了各自优...  相似文献   

14.
针对电力系统中出现的电力量测数据缺失的问题,本文采用统计方法、插值方法和机器学习方法进行了研究和实践。首先,本文分析了电力量测数据缺失的原因,重点探讨了量测数据在采集、传输、存储以及其他环节对数据缺失的影响。接着,本文详细介绍和分析了三种量测数据缺失补齐方法,并对不同方法进行了实验评估,包括相关系数评价、拟合优度评价和平均绝对误差占比评价等多种评价方法。实验结果表明,机器学习方法在量测数据缺失补齐精度和效果方面优于其他两种方法,表现出更好的效果。最后,本文对研究结果进行了总结和展望,指出机器学习方法在电力量测数据缺失补齐中的应用前景,本文的研究成果可为电力系统中量测数据缺失处理提供一定的参考价值。  相似文献   

15.
数据缺失是统计调查中经常存在的问题,若是少量缺失则可以利用删除法;若缺失值较多,利用删除法则会丢失大量有用信息,这时候就需利用插补法来补全数据,从而减少对统计分析的影响。根据统计年鉴上近几年的粮食产量、种植规模、有效灌溉面积等系列数据,分别采用贝叶斯多重插值法和刀切多重插值法展开了模拟研究,通过对两种方法所得数据的比对分析,来进一步掌握实际的插值效果。研究发现,利用这两种方法构建的模型都有较好的估计结果,但是贝叶斯多重插补法更为精确,而Jackknife法在操作方面则更为简单。  相似文献   

16.
快速图像处理中阈值选取方法的比较研究   总被引:14,自引:28,他引:14  
图像分割是图像处理中的一个重要问题。阈值法计算简单,具有较高的运行效率,这使得其在实时图像处理系统中得以广泛的应用。本文选取在实时性强的系统中使用较好的几种阈值化方法进行分析,阐述了各种方法的基本思想,以及各自的优缺点和适用范围,并对相应的改进算法进行了综述,对进行图像分割研究的科研人员具有一定的参考价值和启发作用。  相似文献   

17.
This paper proposes a grey-based nearest neighbor approach to predict accurately missing attribute values. First, grey relational analysis is employed to determine the nearest neighbors of an instance with missing attribute values. Accordingly, the known attribute values derived from these nearest neighbors are used to infer those missing values. Two datasets were used to demonstrate the performance of the proposed method. Experimental results show that our method outperforms both multiple imputation and mean substitution. Moreover, the proposed method was evaluated using five classification problems with incomplete data. Experimental results indicate that the accuracy of classification is maintained or even increased when the proposed method is applied for missing attribute value prediction.  相似文献   

18.
Many data mining and data analysis techniques operate on dense matrices or complete tables of data. Real‐world data sets, however, often contain unknown values. Even many classification algorithms that are designed to operate with missing values still exhibit deteriorated accuracy. One approach to handling missing values is to fill in (impute) the missing values. In this article, we present a technique for unsupervised learning called unsupervised backpropagation (UBP), which trains a multilayer perceptron to fit to the manifold sampled by a set of observed point vectors. We evaluate UBP with the task of imputing missing values in data sets and show that UBP is able to predict missing values with significantly lower sum of squared error than other collaborative filtering and imputation techniques. We also demonstrate with 24 data sets and nine supervised learning algorithms that classification accuracy is usually higher when randomly withheld values are imputed using UBP, rather than with other methods.  相似文献   

19.
A Note on Two Methods for Estimating Missing Pairwise Preference Values   总被引:2,自引:0,他引:2  
This note analyzes two methods for calculating missing values of an incomplete reciprocal fuzzy preference relation. The first method by Herrera-Viedma appeared in the IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics [vol. 37, no. 1 (2007) 176-189], while the second one by Fedrizzi and Giove appeared later in the European Journal of Operational Research [vol. 183 (2007) 303-313]. The underlying concept driving both methods is the additive consistency property. We show that both methods, although different, are very similar. Both methods derive the same estimated values for the independent-missing-comparison case, while they differ in the dependent-missing-comparison case. However, it is shown that a modification of the first method coincides with the second one. Regarding the total reconstruction of an incomplete preference relation, it is true that the second method performs worse than the first one. When Herrera-Viedma 's method is unsuccessful, Fedrizzi-Giove's method is as well. However, in those cases when Fedrizzi-Giove's method cannot guarantee the successful reconstruction of an incomplete preference relation, we have that Herrera-Viedma 's method can. These results lead us to claim that both methods should be seen as complementary rather than competitors in their application, and as such, we propose a reconstruction policy of incomplete fuzzy preference relations using both methods. By doing this, the only unsuccessful reconstruction case is when there is a chain of missing pairwise comparisons involving each one of the feasible alternatives at least once.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号