首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 765 毫秒
1.
分类是一种常见的数据挖掘方法,而属性值缺失是分类过程中常见的一类数据质量问题,缺失值填充可以减少属性值缺失造成的分类错误。缺失值填充首先要求准确率高,在许多实际应用当中,缺失值填充还必须保证较高的计算效率。提出了一种填充缺失属性值算法APT-KNN,APT-KNN算法利用属性与属性之间的相互关系,根据与目标最相似的几个实例属性值来估计缺失值,以保证填充结果具有更高的准确性,同时设计了一种优化的AntiPole树索引结构,提高了缺失属性值的填充效率。实验表明,APT-KNN方法与现有的几种缺失属性填充方法相比,具有更高的准确率和填充效率。  相似文献   

2.
针对欧式距离填充算法不足和微阵列数据集中缺失数据比率过大问题,提出了使用马氏距离有序填充微阵列的最近邻算法,能充分使用数据集中所有有效信息填充缺失数据,真实基因数据集的实验结果显示改进后的最近邻算法明显优于存在算法。  相似文献   

3.
数据缺失对聚类算法提出了挑战,传统方法往往采用均值或回归方法将不完整数据进行填充,再对填充后的数据进行聚类.为解决均值填充和回归填充等方法在数据缺失比率增大时填充精度以及聚类效果变差的问题,提出一种新的不完整数据相似度计算方法.以期望互信息为依据对数据集中的属性排序,充分考虑了数据集中与位置相关的属性值特征,以数据集本身元素作为缺失值填充的来源,对排序后的不完整数据集进行相似度填充计算,最后采用基于局部密度的聚类算法进行聚类.利用UCI机器学习库中的数据集验证本文填充聚类算法,实验结果表明,当数据集中缺失值增多时,算法对缺失值的容忍性较好,对缺失元素的恢复能力较强,填充精度以及最终聚类结果方面均表现良好.本文填充计算相似度的方法考虑数据集的每个属性值来对缺失值逐个填充,因而耗时较多.  相似文献   

4.
在多维数据分析和处理中,经常会出现部分数据丢失或者部分数据未知的情况,如何利用已知数据的潜在结构对这些缺失数据进行填充是一个亟待解决的问题。目前对于缺失数据填充的研究大多是针对矩阵或者向量形式的低维数据,而对于三维以上高维数据填充的研究则很少。针对该问题,提出一种基于张量分解的多维数据填充算法,利用张量分解中CP分解模型的结构特性和分解的唯一性,实现对多维数据中缺失数据的有效填充。通过实验对以三维形式存储的部分数据缺失图像进行填充修复,并与CP-WOPT算法进行比较,结果表明,该算法具有较高的准确度以及较快的运行速度。  相似文献   

5.
针对k最近邻填充算法(kNNI)在缺失数据的k个最近邻可能存在噪声,提出一种新的缺失值填充算法——相互k最近邻填充算法MkNNI(Mutualk-NearestNeighborImputa—tion)。用于填充缺失值的数据,不仅是缺失数据的k最近邻,而且它的k最近邻也包含该缺失数据.从而有效地防止kNNI算法选取的k个最近邻点可能存在噪声这一情况。实验结果表明.MkNNI算法的填充准确性总体上要优于kNNI算法。  相似文献   

6.
在数据挖掘以及机器学习等领域,都需要涉及一个数据预处理过程,以消除数据中所包含的错误、噪声、不一致数据或缺失值。其中,缺失值的填充是一个非常具有挑战性的任务,因为填充效果的好坏会极大的影响学习算法及挖掘算法的后续处理过程。目前已有的一些填充算法,如基于粗糙集的和基于最近邻法的算法等,在一定程度上能够处理缺失值问题。与以上方法不同,提出了一种扩展的基于信息增益的缺失值填充算法,它充分利用数据集中各属性之间隐含的关系对缺失的数据进行填充。大量的实验表明,提出的扩展的基于信息增益的缺失值填充算法是有效的。  相似文献   

7.
基于信息增益的数据库缺失值填充算法   总被引:1,自引:1,他引:1  
覃泽 《微计算机信息》2007,23(12):180-181
在数据挖掘以及机器学习等领域,都需要涉及一个数据预处理过程。其中,缺失值的填充是一个非常具有挑战性的任务,因为填充效果的好坏会极大的影响学习算法及挖掘算法的后续处理过程.目前已有的一些填充算法在一定程度上能够处理缺失值问题.与已有的方法不同,提出了一种扩展的基于信息增益的缺失值填充算法,它充分利用数据集中各属性之间隐含的关系对缺失的数据进行填充。大量的实验表明,提出的扩展的基于信息增益的缺失值填充算法是有效的.  相似文献   

8.
构造性覆盖下不完整数据修正填充方法   总被引:1,自引:0,他引:1       下载免费PDF全文
不完整数据处理是数据挖掘、机器学习等领域中的重要问题,缺失值填充是处理不完整数据的主流方法。当前已有的缺失值填充方法大多运用统计学和机器学习领域的相关技术来分析原始数据中的剩余信息,从而得到较为合理的值来替代缺失部分。缺失值填充大致可以分为单一填充和多重填充,这些填充方法在不同的场景下有着各自的优势。但是,很少有方法能进一步考虑样本空间分布中的邻域信息,并以此对缺失值的填充结果进行修正。鉴于此,本文提出了一种可广泛应用于诸多现有填充方法的框架用以提升现有方法的填充效果,该框架由预填充、空间邻域信息挖掘和修正填充三部分构成。本文对7种填充方法在8个UCI数据集上进行了实验,实验结果验证了本文所提框架的有效性和鲁棒性。  相似文献   

9.
不完整大数据的分布式聚类填充算法   总被引:2,自引:0,他引:2  
传统大数据填充算法是根据整个数据集对缺失数据进行填充,使得填充值容易受到不同类别数据的干扰,导致填充结果不精确。针对该问题,给出不完整数据的相似度度量方法,使用近邻传播( AP )算法对不完整数据进行聚类。采用云计算技术优化AP聚类算法,实现一种基于MapReduce的分布式聚类算法,根据算法聚类结果将同一类数据对象划分到相同簇中,并利用同一类对象的属性值对缺失值进行填充。实验结果表明,该算法能实现不完整大数据的聚类,同时加快聚类速度,提高缺失数据的填充精度。  相似文献   

10.
如何解决在创建决策树时出现缺失值是决策树算法在规则提取方面的一个重要难题.讨论了决策树分类算法的基本原理后,对于数据集的数据不完整进行了分析,并给出了缺失值的具体解决方法.在创建决策树的过程中对缺失值进行填充时提出了填充缺失值的解决算法.  相似文献   

11.
当前的不完整数据处理算法填充缺失值时,精度低下。针对这个问题,提出一种基于CFS聚类和改进的自动编码模型的不完整数据填充算法。利用CFS聚类算法对不完整数据集进行聚类,对降噪自动编码模型进行改进,根据聚类结果,利用改进的自动编码模型对缺失数据进行填充。为了使得CFS聚类算法能够对不完整数据集进行聚类,提出一种部分距离策略,用于度量不完整数据对象之间的距离。实验结果表明提出的算法能够有效填充缺失数据。  相似文献   

12.
针对三维环境中导弹追踪目标时制导和控制算法复杂而导致计算量非常大的问题,提出了一种基于隐性交叉遗传算法优化广义回归神经网络的实时动态目标追踪模型。通过将导弹防御区离散化为多个小模块生成输入数据,并针对每个可接受的目标参数数据集,使用RCGA估算导航常量和导弹注意时间;利用输入和输出的目标参数集生成GRNN所需的训练数据集;针对任意位置的目标轨道,将训练后的GRNN应用于实时导弹导引系统的实现中。通过战术目标仿真模型验证了所提算法的有效性及可靠性,仿真结果表明,相比其他几种目标追踪算法,算法取得了更好的实时性和更高的目标定位精度,脱靶率接近零。  相似文献   

13.
材料腐蚀带来巨大的损失。对于大部分地区来说,大气腐蚀等级是未知的。如何准确的补偿缺失的大气腐蚀等级数据成为函待解决的问题。分别针对大气腐蚀等级的两个关键因素氯离子浓度、二氧化硫浓度单独缺失的情况进行数据建模补偿。针对中国地区腐蚀等级以及相关环境参数数据稀疏分布的特性,提出了一种基于稀疏数据规约的CMAC大气腐蚀数据补偿方法。同时,针对二氧化硫浓度缺失的情况,根据现有的有效数据,提出了二氧化硫浓度的经验公式。结果表明,氯离子浓度单独缺失时预测准确率为86.5%,二氧化硫浓度单独缺失时预测准确率为82.6%。该算法提高了大气腐蚀等级数据补偿准确率,为材料选择提供了重要依据。  相似文献   

14.
Data incompleteness is one of the most important data quality problems in enterprise information systems. Most existing data imputing techniques just deduce approximate values for the incomplete attributes by means of some specific data quality rules or some mathematical methods. Unfortunately, approximation may be far away from the truth. Furthermore, when observed data is inadequate, they will not work well. The World Wide Web (WWW) has become the most important and the most widely used information source. Several current works have proven that using Web data can augment the quality of databases. In this paper, we propose a Web-based relational data imputing framework, which tries to automatically retrieve real values from the WWW for the incomplete attributes. In the paper, we try to take full advantage of relations among different kinds of objects based on the idea that the same kind of things must have the same kind of relations with their relatives in a specific world. Our proposed techniques consist of two automatic query formulation algorithms and one graph-based candidates extraction model. Several evaluations are proposed on two high-quality real datasets and one poor-quality real dataset to prove the effectiveness of our approaches.  相似文献   

15.
马茜  谷峪  李芳芳  于戈 《软件学报》2016,27(9):2332-2347
近年来,随着感知网络的广泛应用,感知数据呈爆炸式增长.但是由于受到硬件设备的固有限制、部署环境的随机性以及数据处理过程中的人为失误等多方面因素的影响,感知数据中通常包含大量的缺失值.而大多数现有的上层应用分析工具无法处理包含缺失值的数据集,因此对缺失数据进行填补是不可或缺的.目前也有很多缺失数据填补算法,但在缺失数据较为密集的情况下,已有算法的填补准确性很难保证,同时未考虑填补顺序对填补精度的影响.基于此,提出了一种面向多源感知数据且顺序敏感的缺失值填补框架OMSMVI(order-sensitive missing value imputation framework for multi-source sensory data).该框架充分利用感知数据特有的多维度相关性:时间相关性、空间相关性、属性相关性,对不同数据源间的相似度进行衡量;进而,基于多维度相似性构建以缺失数据源为中心的相似图,并将已填补的缺失值作为观测值用于后续填补过程中.同时考虑缺失数据源的整体分布,提出对缺失值进行顺序敏感的填补,即:首先对缺失值的填补顺序进行决策,再对缺失值进行填补.对缺失值进行顺序填补能够有效缓解在缺失数据较为密集的情况下,由于缺失数据源的完整近邻与其相似度较低引起的填补精度下降问题;最后,对KNN填补算法进行改进,提出一种新的基于近邻节点的缺失值填补算法NI(neighborhood-based imputation),该算法利用感知数据的多维度相似性对缺失数据源的所有近邻节点进行查找,解决了KNN填补算法K值难以确定的问题,也进一步提高了填补准确性.利用两个真实数据集,并与基本填补算法进行对比,验证了算法的准确性及有效性.  相似文献   

16.
Many data mining and data analysis techniques operate on dense matrices or complete tables of data. Real‐world data sets, however, often contain unknown values. Even many classification algorithms that are designed to operate with missing values still exhibit deteriorated accuracy. One approach to handling missing values is to fill in (impute) the missing values. In this article, we present a technique for unsupervised learning called unsupervised backpropagation (UBP), which trains a multilayer perceptron to fit to the manifold sampled by a set of observed point vectors. We evaluate UBP with the task of imputing missing values in data sets and show that UBP is able to predict missing values with significantly lower sum of squared error than other collaborative filtering and imputation techniques. We also demonstrate with 24 data sets and nine supervised learning algorithms that classification accuracy is usually higher when randomly withheld values are imputed using UBP, rather than with other methods.  相似文献   

17.
刘星毅 《计算机应用》2009,29(9):2502-2504
针对kNN算法中欧氏距离具有密度相关性敏感的缺点,提出综合马氏距离和灰色分析方法代替kNN算法中欧式距离的新算法,应用到缺失数据填充方面。其中马氏距离能解决密度相关明显的数据集,灰色分析方法能处理密度相关不明显的情况。因此,该算法能很好处理任何数据集,实验结果显示,算法在填充结果上明显优于现有的其他算法。  相似文献   

18.
针对基于数值计算理论的单源交通流数据质量控制算法作程序实现。首先进行程序流程设计,包括数据读取模块、数据识别模块、数据修正模块、数据存储模块和数据输出模块五部分,各模块间相互联系,按照数据流的方向结合在一起按顺序使用。其次,给出了详细的总体程序工作流程,并且针对其中的两个核心模块给出了具体的工作流程。最后,针对北京市实时交通流数据进行了检验,结果表明程序设计实现了算法设计的要求,并且极大改进了质量控制的自动化程度,提高了质量控制的工作效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号