期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

乔珠峰田凤占黄厚宽陈景年《计算机研究与发展》2006,43(Z1)

由于数据挖掘技术日益广泛地应用于各个领域,而大多数领域中数据都存在缺失值,因此基于缺失数据的数据挖掘方法的研究具有重要意义.利用直接删除、特殊值填充、平均值填充、Robust方法4种处理缺失值的方法建立4个缺失值处理模型以及相应的朴素贝叶斯分类器模型.通过在5个实际数据集上进行实验比较,并采用五重交叉验证来检验这些模型的性能.结果表明,用这些模型处理缺失值构建的朴素贝叶斯分类器是有效的. 相似文献

2.

基于信息增益的数据库缺失值填充算法 总被引：1，自引：1，他引：1

覃泽《微计算机信息》2007,23(12):180-181

在数据挖掘以及机器学习等领域,都需要涉及一个数据预处理过程。其中,缺失值的填充是一个非常具有挑战性的任务,因为填充效果的好坏会极大的影响学习算法及挖掘算法的后续处理过程.目前已有的一些填充算法在一定程度上能够处理缺失值问题.与已有的方法不同,提出了一种扩展的基于信息增益的缺失值填充算法,它充分利用数据集中各属性之间隐含的关系对缺失的数据进行填充。大量的实验表明,提出的扩展的基于信息增益的缺失值填充算法是有效的. 相似文献

3.

朴素贝叶斯分类器的独立性假设研究

范金金刘鹏《计算机工程与应用》2008,44(34):139-141

朴素贝叶斯分类器(NBC)是一种简洁而有效的分类模型。介绍了NBC模型的基本原理,并着重分析了该模型的独立性假设条件。在总结现有独立性假设研究的基础上,通过例子和实验分析得出结论:NBC模型的表现和独立性假设是否满足没有必然联系。相似文献

4.

用Matlab语言建构贝叶斯分类器 总被引：2，自引：1，他引：2

陆小艺程泽凯林士敏《微机发展》2004,14(9):33-35,39

文本分类是文本挖掘的基础与核心，分类器的构建是文本分类的关键，利用贝叶斯网络可以构造出分类性能较好的分类器。文中利用Matlab构造出了两种分类器：朴素贝叶斯分类器NBC，用互信息测度和条件互信息测度构建了TANC。用UCI上下载的标准数据集验证所构造的分类器，实验结果表明，所建构的几种分类器的性能总体比文献中列的高些，从而表明所建立的分类器的有效性和正确性。笔者对所建构的分类器进行优化并应用于文本分类中。相似文献

5.

缺失值填充:基于信息增益的方法

张红霞《计算机工程与设计》2006,27(24):4810-4812

在数据挖掘以及机器学习等领域,都需要涉及一个数据预处理过程,以消除数据中所包含的错误、噪声、不一致数据或缺失值。其中,缺失值的填充是一个非常具有挑战性的任务,因为填充效果的好坏会极大的影响学习算法及挖掘算法的后续处理过程。目前已有的一些填充算法,如基于粗糙集的和基于最近邻法的算法等,在一定程度上能够处理缺失值问题。与以上方法不同,提出了一种扩展的基于信息增益的缺失值填充算法,它充分利用数据集中各属性之间隐含的关系对缺失的数据进行填充。大量的实验表明,提出的扩展的基于信息增益的缺失值填充算法是有效的。相似文献

6.

数据缺失条件下的贝叶斯推断方法 总被引：1，自引：0，他引：1

虞健飞张恒喜朱家元《计算机科学》2002,29(2):122-123

Recently Bayesian network(BN) becomus a noticeable research direction in Data Mining.In this paper we introduce missing data mechanisms firstly,and then some methods to do Baysesian inference with missing data based on these missing data mechanisms.All of these must be useful in practice especially when data is scare and expensive.It can foresee that Bayesian networks will become a powerful tool in Data Mining with all of these methods above offered. 相似文献

7.

用Matlab语言建构贝叶斯分类器

陆小艺程泽凯林士敏《计算机技术与发展》2004,14(9)

文本分类是文本挖掘的基础与核心,分类器的构建是文本分类的关键,利用贝叶斯网络可以构造出分类性能较好的分类器.文中利用Matlab构造出了两种分类器:朴素贝叶斯分类器NBC,用互信息测度和条件互信息测度构建了TANC.用UCI上下载的标准数据集验证所构造的分类器,实验结果表明,所建构的几种分类器的性能总体比文献中列的高些,从而表明所建立的分类器的有效性和正确性.笔者对所建构的分类器进行优化并应用于文本分类中. 相似文献

8.

决策树、朴素贝叶斯和朴素贝叶斯树的比较

王守选叶柏龙李伟健谭一云《计算机系统应用》2012,21(12):221-224

利用数据挖掘工具Weka,在常态数据集adult上进行实验,从时间、正确率、误差率三个指标对比分析J48（C4．5决策树）,朴素贝叶斯分类器,朴素贝叶斯树（NBTree）三种分类算法．结论为：在内存充足,时间要求不高的情况下,使用朴素贝叶斯树（NBTree）能获得更高的正确率和错误率;J48则是一种折中的方案;朴素贝叶斯分类器完成时间最短,但正确率和错误率为三种算法中最差．相似文献

9.

以特征值关联项改进贝叶斯分类器正确率

《计算机应用与软件》2017,(8)

朴素贝叶斯分类器建立在其数据特征值之间相互条件独立的基础上,而在实际应用中该假设难以完全成立。针对这种现象提出一种算法,即通过寻找对产生错误分类影响最大的特征值,并依此特征值的关联项对数据项扩充,在此基础上对扩充项添加权重,以达到提升分类器精度的效果。最后对权重的大小加以论证,实验分析了不同大小的权重对分类器正确率的影响。实验结果表明,添加关联项扩充训练集,可以有效提升贝叶斯分类器的正确率。相似文献

10.

基于朴素贝叶斯算法的垃圾邮件网关

刘宏伟黄静《微计算机信息》2006,22(18):73-75

本文针对垃圾邮件过滤问题,结合中文自身的特点,把广泛适用于英文文本和邮件分类的朴素贝叶斯过滤方法应用在垃圾邮件网关邮件过滤层;把信息增益修剪方法经过改进作为中文特征选择方法,应用在数据管理层;从而极大提高了垃圾邮件的过滤精度。相似文献

11.

基于Sas的时间序列缺失值处理方法比较

兰妥 ;江弋 ;刘光生《微机发展》2008,(10):43-45

对于时间序列挖掘过程中的缺失值处理,目前有许多方法。在处理数据变量成一定的相关的数据集时,回归模型不失为较好的插补方法。利用均值插补、一元线性回归、多元线性回归、迭代回归方法对水文时间序列数据集的缺失数据进行处理,比较不同的皮氏相关系数下各方法的优劣及适用性。文中研究表明当数据集中存在与缺值变量相关度较大的变量时,一元线性回归的插补简单直观,且有较高的精度,结果接近真实;当数据集中不存在与缺值变量显著相关的自变量时,一元线性回归的结果变差,多元线性回归与多元迭代回归具有较好的结果,但多元迭代回归迭代次数难以确定,插补代价较大,多元线性回归为最佳选择;当缺值变量与其他自变量相关系数均较小时,回归插补的结果不理想,此时可考虑其他插补方法。相似文献

12.

基于Sas的时间序列缺失值处理方法比较 总被引：1，自引：0，他引：1

兰妥江弋刘光生《计算机技术与发展》2008,18(10)

对于时间序列挖掘过程中的缺失值处理,目前有许多方法.在处理数据变量成一定的相关的数据集时,回归模型不失为较好的插补方法.利用均值插补、一元线性回归、多元线性回归、迭代回归方法对水文时间序列数据集的缺失数据进行处理,比较不同的皮氏相关系数下各方法的优劣及适用性.文中研究表明当数据集中存在与缺值变量相关度较大的变量时,一元线性回归的插补简单直观,且有较高的精度,结果接近真实;当数据集中不存在与缺值变量显著相关的自变量时,一元线性回归的结果变差,多元线性回归与多元迭代回归具有较好的结果.但多元迭代回归迭代次数难以确定,插补代价较大.多元线性回归为最佳选择;当缺值变量与其他自变量相关系数均较小时,回归插补的结果不理想,此时可考虑其他插补方法. 相似文献

13.

缺失数据处理方法研究综述 总被引：1，自引：0，他引：1

下载免费PDF全文

熊中敏郭怀宇吴月欣《计算机工程与应用》2021,57(14):27-38

大数据时代,数据爆炸式的增长,数据获取变得更容易的同时数据缺失现象也更加普遍.数据的缺失极大地降低了数据的实用性.数据缺失问题的处理成为大数据处理的热点研究课题.介绍了数据缺失问题的研究意义和国内外研究现状.系统地分析了造成数据缺失的原因,对数据缺失问题进行了分类.对近年来国内外缺失数据处理方法进行了综述,总结了各自优... 相似文献

14.

电力量测数据缺失补齐方法研究与实践

下载免费PDF全文

陆嘉铭奚增辉瞿海妮许唐云姚嵘屈志坚《电力大数据》2023,26(7)

针对电力系统中出现的电力量测数据缺失的问题,本文采用统计方法、插值方法和机器学习方法进行了研究和实践。首先,本文分析了电力量测数据缺失的原因,重点探讨了量测数据在采集、传输、存储以及其他环节对数据缺失的影响。接着,本文详细介绍和分析了三种量测数据缺失补齐方法,并对不同方法进行了实验评估,包括相关系数评价、拟合优度评价和平均绝对误差占比评价等多种评价方法。实验结果表明,机器学习方法在量测数据缺失补齐精度和效果方面优于其他两种方法,表现出更好的效果。最后,本文对研究结果进行了总结和展望,指出机器学习方法在电力量测数据缺失补齐中的应用前景,本文的研究成果可为电力系统中量测数据缺失处理提供一定的参考价值。相似文献

15.

正态模型缺失数据的贝叶斯和Jackknife多重插补法的比较

丁明珠《计算技术与自动化》2020,39(2):119-123

数据缺失是统计调查中经常存在的问题,若是少量缺失则可以利用删除法;若缺失值较多,利用删除法则会丢失大量有用信息,这时候就需利用插补法来补全数据,从而减少对统计分析的影响。根据统计年鉴上近几年的粮食产量、种植规模、有效灌溉面积等系列数据,分别采用贝叶斯多重插值法和刀切多重插值法展开了模拟研究,通过对两种方法所得数据的比对分析,来进一步掌握实际的插值效果。研究发现,利用这两种方法构建的模型都有较好的估计结果,但是贝叶斯多重插补法更为精确,而Jackknife法在操作方面则更为简单。相似文献

16.

快速图像处理中阈值选取方法的比较研究 总被引：14，自引：28，他引：14

李卓郭立红《微计算机信息》2006,22(7):224-225

图像分割是图像处理中的一个重要问题。阈值法计算简单,具有较高的运行效率,这使得其在实时图像处理系统中得以广泛的应用。本文选取在实时性强的系统中使用较好的几种阈值化方法进行分析,阐述了各种方法的基本思想,以及各自的优缺点和适用范围,并对相应的改进算法进行了综述,对进行图像分割研究的科研人员具有一定的参考价值和启发作用。相似文献

17.

A Grey-Based Nearest Neighbor Approach for Missing Attribute Value Prediction 总被引：2，自引：0，他引：2

Chi-Chun Huang Hahn-Ming Lee 《Applied Intelligence》2004,20(3):239-252

This paper proposes a grey-based nearest neighbor approach to predict accurately missing attribute values. First, grey relational analysis is employed to determine the nearest neighbors of an instance with missing attribute values. Accordingly, the known attribute values derived from these nearest neighbors are used to infer those missing values. Two datasets were used to demonstrate the performance of the proposed method. Experimental results show that our method outperforms both multiple imputation and mean substitution. Moreover, the proposed method was evaluated using five classification problems with incomplete data. Experimental results indicate that the accuracy of classification is maintained or even increased when the proposed method is applied for missing attribute value prediction. 相似文献

18.

Missing Value Imputation with Unsupervised Backpropagation

下载免费PDF全文

Michael S. Gashler Michael R. Smith Richard Morris Tony Martinez 《Computational Intelligence》2016,32(2):196-215

Many data mining and data analysis techniques operate on dense matrices or complete tables of data. Real‐world data sets, however, often contain unknown values. Even many classification algorithms that are designed to operate with missing values still exhibit deteriorated accuracy. One approach to handling missing values is to fill in (impute) the missing values. In this article, we present a technique for unsupervised learning called unsupervised backpropagation (UBP), which trains a multilayer perceptron to fit to the manifold sampled by a set of observed point vectors. We evaluate UBP with the task of imputing missing values in data sets and show that UBP is able to predict missing values with significantly lower sum of squared error than other collaborative filtering and imputation techniques. We also demonstrate with 24 data sets and nine supervised learning algorithms that classification accuracy is usually higher when randomly withheld values are imputed using UBP, rather than with other methods. 相似文献

19.

A Note on Two Methods for Estimating Missing Pairwise Preference Values 总被引：2，自引：0，他引：2

Chiclana F. Herrera-Viedma E. Alonso S. 《IEEE transactions on systems, man, and cybernetics. Part B, Cybernetics》2009,39(6):1628-1633

This note analyzes two methods for calculating missing values of an incomplete reciprocal fuzzy preference relation. The first method by Herrera-Viedma appeared in the IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics [vol. 37, no. 1 (2007) 176-189], while the second one by Fedrizzi and Giove appeared later in the European Journal of Operational Research [vol. 183 (2007) 303-313]. The underlying concept driving both methods is the additive consistency property. We show that both methods, although different, are very similar. Both methods derive the same estimated values for the independent-missing-comparison case, while they differ in the dependent-missing-comparison case. However, it is shown that a modification of the first method coincides with the second one. Regarding the total reconstruction of an incomplete preference relation, it is true that the second method performs worse than the first one. When Herrera-Viedma 's method is unsuccessful, Fedrizzi-Giove's method is as well. However, in those cases when Fedrizzi-Giove's method cannot guarantee the successful reconstruction of an incomplete preference relation, we have that Herrera-Viedma 's method can. These results lead us to claim that both methods should be seen as complementary rather than competitors in their application, and as such, we propose a reconstruction policy of incomplete fuzzy preference relations using both methods. By doing this, the only unsuccessful reconstruction case is when there is a chain of missing pairwise comparisons involving each one of the feasible alternatives at least once. 相似文献