首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 265 毫秒
1.
粟佳  于洪 《计算机应用》2024,(5):1423-1427
应用中的各种因素可能造成数据缺失,影响后续任务的分析。因此,数据集缺失值的插补尤为重要。相比原本没有插补的处理,错误的插补值也会对分析造成更严重的偏差。针对这种情况,提出新的采用双重判别器的基于条件生成对抗插补网络(C-GAIN)的缺失值插补算法DDC-GAIN(Dual Discriminator based on C-GAIN)。该算法通过一个辅助判别器辅助主判别器判断预测值的真假,即根据一个样本的全局信息判断这个样本生成的真假,更注重特征之间的关系,以此估算预测值。在4个数据集上与5种经典插补算法进行对比实验,结果表明:同样条件下,DDC-GAIN算法在样本量较大时的均方根误差(RMSE)最低;在Default credit card数据集上缺失率为15%时,DDC-GAIN算法的RMSE比次优算法C-GAIN降低了28.99%。这说明利用辅助判别器帮助主判别器学习特征之间的关系是有效的。  相似文献   

2.
针对野外小气象观测站点半小时温度观测长时间数据缺失问题,结合较低频次的人工温度观测数据,采用时间序列分析和深度学习等方法,对缺失的半小时温度观测数据进行高精度插补。首先,选用深度学习数据插补中的序列-序列(Seq2Seq)方法,建立了适合高精度温度数据插补需求的编码-解码深度学习模型BiLSTM-I;然后,选用了传统的代表性方法,从时间序列回归分析——差分整合移动平均自回归模型(ARIMA)状态方程形式中,获取卡尔曼平滑状态估计方程的各项参数,由卡尔曼平滑估计实现对温度观测数据缺失值的插补。实验分析结果表明,所设计的BiLSTM-I深度学习气温插补方法要优于时间序列的双向递归插补方法(BRITS-I)。对缺失值时间窗口为30 d的测试集,测试结果中均方根误差(RMSE)为0.47℃,相较于BRITS-I得到的RMSE,精度提升了0.90;对缺失值时间窗口为60 d的测试集,RMSE为0.49℃,相较于BRITS-I得到的RMSE,精度提升了0.90;基于ARIMA状态模型的插补方法也有较高的精度,RMSE为0.75℃。最后,还分析了BiLSTM-I深度学习插补方法对不同温度缺失时间长度...  相似文献   

3.
针对野外小气象观测站点半小时温度观测长时间数据缺失问题,结合较低频次的人工温度观测数据,采用时间序列分析和深度学习等方法,对缺失的半小时温度观测数据进行高精度插补。首先,选用深度学习数据插补中的序列-序列(Seq2Seq)方法,建立了适合高精度温度数据插补需求的编码-解码深度学习模型BiLSTM-I;然后,选用了传统的代表性方法,从时间序列回归分析——差分整合移动平均自回归模型(ARIMA)状态方程形式中,获取卡尔曼平滑状态估计方程的各项参数,由卡尔曼平滑估计实现对温度观测数据缺失值的插补。实验分析结果表明,所设计的BiLSTM-I深度学习气温插补方法要优于时间序列的双向递归插补方法(BRITS-I)。对缺失值时间窗口为30 d的测试集,测试结果中均方根误差(RMSE)为0.47℃,相较于BRITS-I得到的RMSE,精度提升了0.90;对缺失值时间窗口为60 d的测试集,RMSE为0.49℃,相较于BRITS-I得到的RMSE,精度提升了0.90;基于ARIMA状态模型的插补方法也有较高的精度,RMSE为0.75℃。最后,还分析了BiLSTM-I深度学习插补方法对不同温度缺失时间长度...  相似文献   

4.
对于时间序列挖掘过程中的缺失值处理,目前有许多方法。在处理数据变量成一定的相关的数据集时,回归模型不失为较好的插补方法。利用均值插补、一元线性回归、多元线性回归、迭代回归方法对水文时间序列数据集的缺失数据进行处理,比较不同的皮氏相关系数下各方法的优劣及适用性。文中研究表明当数据集中存在与缺值变量相关度较大的变量时,一元线性回归的插补简单直观,且有较高的精度,结果接近真实;当数据集中不存在与缺值变量显著相关的自变量时,一元线性回归的结果变差,多元线性回归与多元迭代回归具有较好的结果,但多元迭代回归迭代次数难以确定,插补代价较大,多元线性回归为最佳选择;当缺值变量与其他自变量相关系数均较小时,回归插补的结果不理想,此时可考虑其他插补方法。  相似文献   

5.
基于Sas的时间序列缺失值处理方法比较   总被引:1,自引:0,他引:1  
对于时间序列挖掘过程中的缺失值处理,目前有许多方法.在处理数据变量成一定的相关的数据集时,回归模型不失为较好的插补方法.利用均值插补、一元线性回归、多元线性回归、迭代回归方法对水文时间序列数据集的缺失数据进行处理,比较不同的皮氏相关系数下各方法的优劣及适用性.文中研究表明当数据集中存在与缺值变量相关度较大的变量时,一元线性回归的插补简单直观,且有较高的精度,结果接近真实;当数据集中不存在与缺值变量显著相关的自变量时,一元线性回归的结果变差,多元线性回归与多元迭代回归具有较好的结果.但多元迭代回归迭代次数难以确定,插补代价较大.多元线性回归为最佳选择;当缺值变量与其他自变量相关系数均较小时,回归插补的结果不理想,此时可考虑其他插补方法.  相似文献   

6.
林蔚  尹娟 《计算机应用研究》2012,29(11):4284-4286
针对含有缺失数据的无线传感器网络数据融合问题,提出了一种简单易行的二次数据融合算法(TFA)。考虑到感知数据的时—空相关性,对缺失数据进行线性插值插补和回归分析插补,对插补结果利用线性组合融合算法进行融合。综合考虑各节点的信息,利用自适应加权融合算法进行融合。实验结果表明,该算法在含有缺失数据的前提下,能够以较低的计算开销和较高的估计精度实现数据融合。  相似文献   

7.
油浸式变压器的油色谱数据是一种多元时序传感数据,设备或网络失误往往会导致数据缺失,通常需要通过插补形成完整数据集,才能用于进一步的业务分析研究。但是,现有的插补模型无法面向多元时序数据同时处理因时间不均匀性和时间双向性带来的插补效率低和效果难以保障的问题,对此提出一种名为Conv-WGAIN的生成对抗插补网络模型,通过构建的插补特征图,可利用二维卷积从前后2个方向学习时间特征,处理时间间隔不均匀的数据;在判别器中引入Wasserstein距离来判别生成插补数据与真实观测数据,提升了生成器的稳定性。在真实项目中的油色谱数据集和3个公开数据集上的实验表明,该模型在多元时序缺失数据上具有普遍适用性,而且在不同的缺失率下的插补结果要优于其他对比模型的,RMSE降低了20.75%~73.37%。  相似文献   

8.
数据预处理方法在移动通信行业中的应用   总被引:1,自引:0,他引:1  
解决数据本身的质量问题,以某移动通信用户离网原因分析及预测为主题及为数据挖掘模型处理出需要的数据是文章的主要目的.文中运用了数据预处理中,维规约,属性集成与构造,多重插补,离散化,规范化,数据抽样等方法来得到一个完整的、近似真实的数据集.针对所处理数据含有大量缺失值的特点,选取了插补的方法进行处理.包括方法的插补方法的选择,到最后使用多重插补方法对缺失数据进行修正.预处理后的数据应用到具体数据挖掘模型后提高了数据挖掘的效率,降低了数据挖掘复杂度.  相似文献   

9.
乔永坚  刘晓琳  白亮 《计算机应用》2022,42(11):3322-3329
针对高维特征缺失数据在聚类过程中面临的因数据高维引发的维度灾难问题和数据特征缺失导致的样本间有效距离计算失效问题,提出一种面向高维特征缺失数据的K最近邻(KNN)插补子空间聚类算法KISC。首先,利用高维特征缺失数据的子空间下的近邻关系对原始空间下的特征缺失数据进行KNN插补;然后,利用多次迭代矩阵分解和KNN插补获得数据最终可靠的子空间结构,并在该子空间结构进行聚类分析。在6个图像数据集原始空间的聚类结果表明,相较于经过插补后直接进行聚类的对比算法,KISC算法聚类效果更好,说明子空间结构能够更加容易且有效地识别数据的潜在聚类结构;在6个高维数据集子空间下的聚类结果显示,KISC算法在各个数据集的聚类性能均优于对比算法,且在大多数据集上取得了最优的聚类精确度(ACC)和标准互信息(NMI)。KISC算法能够更加有效地处理高维特征缺失数据,提高算法的聚类性能。  相似文献   

10.
集成方法是处理包含缺失属性数据集分类问题的一种简单有效的方法,但目前针对不完整数据的集成分类算法在衡量各子分类器的权重时只考虑对应的数据子集的维数和大小.考虑到不完整数据集的缺失属性对类别的贡献度,使用信息熵衡量缺失属性之间的差异,提出一种新的针对不完整数据的集成学习分类算法———信息熵集成分类算法(EECA).应用以BP神经网络为基础分类器的集成分类器在UCI数据集上进行实验.实验结果表明,EECA比简单使用缺失属性的多少计算子分类器权重的方法更有效,最终结果准确度更高.  相似文献   

11.
数据缺失在电力负荷数据采集过程中经常发生,对提高算法的预测精确度带来了不利影响。现有的缺失数据补全算法只适用于缺失数据量较少的情况,而对于缺失数据较多的情况表现不佳。面对严重数据缺失的挑战,文中提出了一种基于稀疏表示的电力负荷缺失数据补全方法。首先以数据随机缺失为前提,将训练数据中假定缺失后的数据与完整的训练数据上下拼接构成训练矩阵;其次,利用离散余弦变换(Discrete Cosine Transform,DCT)生成一个过完备字典,并根据训练矩阵对其进行学习,旨在通过调优得到一个合适的字典,能对训练矩阵中的样本进行最好的稀疏表示。最后,在测试阶段,先利用学习后字典的上半部分获得测试集缺失数据的稀疏表示,然后利用稀疏表示和学习后字典的下半部分重构出无缺失的完整数据。实验结果表明,使用该方法对电力负荷数据缺失值进行补全,可以获得比传统插值方法、基于相关性的KNN算法、时空压缩感知估计算法以及时序压缩感知预测算法更高的精度。即使数据缺失率高达95%,该方法依然可以有效地补全缺失数据。  相似文献   

12.
完整高精度的温度观测数据是农业气象灾害监测、生态系统模拟重要的输入参数.由于野外气象观测条件的限制,气象观测数据缺失现象是常态,数据插补方法是气象数据应用必要处理步骤.本文针对野外小气象观测站站点半小时温度观测数据长时间缺失值问题,结合同一地点较低频次的人工温度观测,构建了新的温度缺失值插补深度学习模型,对缺失的半小时...  相似文献   

13.
如何对在有损网络环境中传输的视频进行错误隐匿是视频传输研究中的基本问题。支持向量机(SVM)是一种新兴的通用学习算法,是国际上机器学习领域新的热点。为了取得比现有方法更好的错误隐匿效果,提出了一种新的基于支持向量机回归估计的错误隐匿策略,首先建立了基于支持向量机回归估计的图像插值算法,并将其引入到错误隐匿问题中,然后用空域插值的方法达到错误隐匿的目的。实验结果表明,与目前采用的各种错误隐匿策略相比较,基于支持向量机的错误隐匿策略在错误隐匿效果和推广性能上都具有一定的优越性。  相似文献   

14.
Lan  Qiujun  Jiang  Shan 《Applied Intelligence》2021,51(10):6859-6880

Missing data is a common problem in credit evaluation practice and can obstruct the development and application of an evaluation model. Block-wise missing data is a particularly troublesome issue. Based on multi-task feature selection approach, this paper proposes a method called MMPFS to build a model for credit evaluation that primarily includes two steps: (1) dividing the dataset into several nonoverlapping subsets based on missing patterns, and (2) integrating the multi-task feature selection approach using logistic regression to perform joint feature learning on all subsets. The proposed method has the following advantages: (1) missing data do not need to be managed in advance, (2) available data can be fully used for model learning, (3) information loss or bias caused by general missing data processing methods can be avoided, and (4) overfitting risk caused by redundant features can be reduced. The implementation framework and algorithm principle of the proposed method are described, and three credit datasets from UCI are investigated to compare the proposed method with other commonly used missing data treatments. The results show that MMPFS can produce a better credit evaluation model than data preprocessing methods, such as sample deletion and data imputation.

  相似文献   

15.
Nonparametric neighborhood methods for learning entail estimation of class conditional probabilities based on relative frequencies of samples that are "near-neighbors" of a test point. We propose and explore the behavior of a learning algorithm that uses linear interpolation and the principle of maximum entropy (LIME). We consider some theoretical properties of the LIME algorithm: LIME weights have exponential form; the estimates are consistent; and the estimates are robust to additive noise. In relation to bias reduction, we show that near-neighbors contain a test point in their convex hull asymptotically. The common linear interpolation solution used for regression on grids or look-up-tables is shown to solve a related maximum entropy problem. LIME simulation results support use of the method, and performance on a pipeline integrity classification problem demonstrates that the proposed algorithm has practical value.  相似文献   

16.

One relevant problem in data quality is missing data. Despite the frequent occurrence and the relevance of the missing data problem, many machine learning algorithms handle missing data in a rather naive way. However, missing data treatment should be carefully treated, otherwise bias might be introduced into the knowledge induced. In this work, we analyze the use of the k-nearest neighbor as an imputation method. Imputation is a term that denotes a procedure that replaces the missing values in a data set with some plausible values. One advantage of this approach is that the missing data treatment is independent of the learning algorithm used. This allows the user to select the most suitable imputation method for each situation. Our analysis indicates that missing data imputation based on the k-nearest neighbor algorithm can outperform the internal methods used by C4.5 and CN2 to treat missing data, and can also outperform the mean or mode imputation method, which is a method broadly used to treat missing values.  相似文献   

17.
为了提高无线传感器网络(WSN)中缺失数据估计值的精度,提出了一种自决策插值算法。该算法能够根据数据集的空间相关性以及缺失数据的连续性选择不同的缺失数据估计策略,并将自回归滑动平均(ARMA)模型引入到对缺失数据插值的研究中。与传统缺失值估计算法相比,该算法不仅考虑到无线传感器网络的特性,而且考虑到数据集本身的特性。在真实数据集上测试结果表明,该算法提高了对缺失值估计的精度。  相似文献   

18.
In this paper, a new approach for centralised and distributed learning from spatial heterogeneous databases is proposed. The centralised algorithm consists of a spatial clustering followed by local regression aimed at learning relationships between driving attributes and the target variable inside each region identified through clustering. For distributed learning, similar regions in multiple databases are first discovered by applying a spatial clustering algorithm independently on all sites, and then identifying corresponding clusters on participating sites. Local regression models are built on identified clusters and transferred among the sites for combining the models responsible for identified regions. Extensive experiments on spatial data sets with missing and irrelevant attributes, and with different levels of noise, resulted in a higher prediction accuracy of both centralised and distributed methods, as compared to using global models. In addition, experiments performed indicate that both methods are computationally more efficient than the global approach, due to the smaller data sets used for learning. Furthermore, the accuracy of the distributed method was comparable to the centralised approach, thus providing a viable alternative to moving all data to a central location.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号