共查询到20条相似文献,搜索用时 78 毫秒
1.
传感器网络中一种基于多元回归模型的缺失值估计算法 总被引:1,自引:0,他引:1
在无线传感器网络中,感知数据的缺失问题不可避免,并且给无线传感器网络的各种应用带来了巨大困难.解决该问题的最好办法是对缺失数据进行准确估计.提出了一种基于多元回归模型的缺失值估计算法.该算法首先依感知数据的时间相关性和空间相关性分别采用多元线性回归模型对缺失数据进行估计,然后根据回归模型的拟合优度对基于时间维和空间维求出的两个估计值分别赋予相应的权值系数,并将其加权平均值作为缺失数据的最后估计值.由于该算法在对缺失值进行估计时,同时考察多个邻居节点并联合地用其感知数据来共同估计缺失值,因此该算法具有可靠、稳定的估计性能.在两个真实的数据集合上对该算法进行了测试,实验结果表明提出的缺失值估计算法能够有效估计无线传感器网络中的缺失数据. 相似文献
2.
数据缺失条件下的贝叶斯推断方法 总被引:1,自引:0,他引:1
Recently Bayesian network(BN) becomus a noticeable research direction in Data Mining.In this paper we introduce missing data mechanisms firstly,and then some methods to do Baysesian inference with missing data based on these missing data mechanisms.All of these must be useful in practice especially when data is scare and expensive.It can foresee that Bayesian networks will become a powerful tool in Data Mining with all of these methods above offered. 相似文献
3.
4.
《计算机科学与探索》2017,(10):1557-1569
研究了高维相关性缺失数据的填补方法,提出了分块填补算法。该算法核心思想是:在填补数据的过程中会考虑变量之间的相互关系,仅利用与待填补数据有相关性的数据进行填补,从而降低不相关数据对缺失数据填补的影响,提高数据填补的准确度。同时,该算法能够并行处理缺失数据,从而提高数据填补效率,对于高维缺失数据的填补有重要意义。为了对分块情况未知的缺失数据进行分块,提出了基于k-means聚类的分块算法。大量的仿真实验和基于真实数据集的实验表明,对于相关性数据,分块填补算法能够有效地利用相关信息进行填补,从而提高数据填补准确度。 相似文献
5.
根据SVM在函数拟合方面的特点,建立了一个函数模型。通过确定主要影响因子和选定数据集后,对该模型进行了训练,最后成功地应用于缺失数据补齐。经过真实工程数据实验证实,基于SVM的缺失数据补齐方法具有明显实用性。 相似文献
6.
实际工业过程具有强非线性非高斯噪声等特点,粒子滤波是一种常用的状态估计方法。带约束粒子滤波通过极大后验概率密度函数原则,将超出约束区域的状态估计值映射到约束区域,保证了状态估计的有效性。本文针对检测值部分缺失和全部缺失两种情况,提出一种缺失数据下的带约束粒子滤波算法。该算法基于贝叶斯原理,分别从先验粒子权值的计算以及状态估计值的映射两方面考虑了缺失数据的影响。仿真例子验证了该算法的有效性。 相似文献
7.
针对缺失公交到站信息修补方法考虑因素较少、准确度低、鲁棒性差的现状,提出了基于DBSCAN算法和多源数据的缺失公交到站数据修补方法。该方法使用公交全球定位系统(GPS)、公交集成电路卡(IC)等多源数据进行缺失到站信息的修补。对于缺失的到站名称、到站经纬度数据,用已有完整到站数据和静态线路信息关联分析进行修补。对于缺失的到站时刻数据,则按以下步骤进行修补:首先,对每一个缺失数据站点与其最近的未缺失数据站点,将这两站点间历史完整到站数据的行程时间和班次时序进行基于DBSCAN算法的聚类;其次,判断研究班次的两个相邻的数据完整的班次所属簇是否为同一个簇,若为同一个簇则不作改变,否则将两个簇合并;最后,将簇中点对应最大行程时间作为缺失行程时间判断是否有乘客在该站点上车刷卡,若有则由乘客开始刷卡时刻推算到站时刻,若无则将簇中点对应最大、最小行程时间的均值作为缺失行程时间推算到站时刻。以厦门市公交到站数据为例,在缺失到站名称、经纬度修补中,基于GPS数据聚类的方法、基于极大概率估计的方法和所提方法皆可进行100%的修补;在缺失到站时刻修补中,所提方法的平均相对误差比两种对比方法分别低0.0301%和0.0004%,相关系数比对比方法分别高0.005和0.0075。实验结果表明,所提算法在缺失公交到站数据修补中能有效提高修补的准确度,降低缺失站点个数变化对于准确度的影响。 相似文献
8.
9.
为了进一步提高协同过滤算法的精确性,更好地满足用户需求、进行商品推荐,针对传统推荐算法存在的缺失数据和模糊性问题,构建了直觉模糊粗糙集和基于目标函数的直觉模糊C均值聚类相结合的协同过滤推荐算法(IFRSIFCM-CF)。算法首先运用直觉模糊粗糙集对缺失数据进行处理,并计算直觉模糊数;其次用密度函数初始化聚类中心,并通过直觉模糊C均值聚类找到目标用户所在聚类类别;最后用特征系数代替传统相似系数来确定邻居集,用优先关系定序法代替传统的推荐算法形成推荐列表。在MovieLens与Jester数据集上对算法进行有效性检验,实验结果表明所提算法能够有效解决数据缺失问题并提高推荐精度。 相似文献
10.
11.
12.
特征选择(也称作属性选择)是简化数据表达形式,降低存储要求,提高分类精度和效率的重要途径。实际中遇到的大量的数据集包含着不完整数据。对于不完整数据,构造选择性分类器同样也可以降低存储要求,提高分类精度和效率。因此,对用于不完整数据的选择性分类器的研究是一项重要的研究课题。有鉴于此,提出了一种用于不完整数据的选择性贝叶斯分类器。在12个标准的不完整数据集上的实验结果表明,给出的选择性分类器不仅分类准确率显著高于非常有效地用于不完整数据的RBC分类器,而且分类性能更加稳定。 相似文献
13.
针对具有多观测样本的相似不完整数据分类问题,提出基于SVM和多观测样本的相似数据分类算法。每类数据的多观测样本集由属于同一模式的单观测样本组成,每次分类时,对两个多观测样本集的标签做两次假设,通过比较不同标签假设下的分类误差确定多观测样本集的标签。该方法同时充分利用了样本类内的相关性和类间的差异性,实现了相似不完整数据的分类。实验结果验证了所提出方法的有效性。 相似文献
14.
为了解决当不完备混合决策系统中数据动态增加时,静态属性约简方法的计算复杂度高的问题,提出变精度下不完备混合数据的增量式属性约简方法。首先,在变精度模型下给出了利用条件熵度量属性的重要性程度;然后,详细分析和设计了当数据动态增加时条件熵的增量式更新变化情况和属性约简的更新机制;在此基础上,利用启发式贪心策略构造了增量式的属性约简算法,实现了不完备的数值型和符号型混合数据下属性约简的动态更新。通过UCI数据集中五个真实的混合型数据集的实验比较和分析,在约简效果方面,利用增量式属性约简算法处理Echocardiogram、Hepatitis、Autos、Credit和Dermatology数据集的增量规模为90%+10%时,数据集的原属性个数分别由12、19、25、17和34个约简至6、7、10、11和13个,分别占原属性集的50.0%、36.8%、40.0%、64.7%和38.2%;在执行时间方面,增量式算法在五个数据集的平均耗时分别为2.99 s、3.13 s、9.70 s、274.19 s和50.87 s,静态算法的平均耗时分别为284.92 s、302.76 s、1062.23 s、3510.79 s和667.85 s,且增量式算法的耗时与数据集的实例规模、属性个数和属性值类型的分布相关。实验结果表明,增量式属性约简算法在计算耗时方面要显著优于静态算法,且能有效剔除数据中的冗余属性。 相似文献
15.
吴水亭 《计算机工程与应用》2009,45(35):24-27
针对支持向量回归中由于噪声和孤立点带来的过拟合问题,提出了一种基于支持向量数据域描述的加权系数函数模型,根据样本到特征空间最小包含超球球心的距离来确定其加权系数。将提出的加权系数模型用于加权支持向量回归中,一维数据集仿真表明,提出的模型可以有效减小回归误差,提高支持向量回归算法的抗噪声能力。 相似文献
16.
基于回归系数的变量筛选方法用于近红外光谱分析 总被引:1,自引:0,他引:1
提出了一种基于回归系数的变量逐步筛选方法。对光谱中各变量计算其回归系数后,按其绝对值由大到小将相应变量排列,采用PLS交互检验按前向选择法逐步选择最佳变量子集。用该方法对玉米和柴油近红外光谱数据进行分析,对玉米蛋白质、柴油十六烷值和粘度分别选择出了14、12以及30个最佳变量用于建模,所得预测结果均优于全谱变量建模的预测结果。可见本方法是一种有效实用的近红外光谱变量选择方法。 相似文献
17.
介绍了数据挖掘中不完整数据的研究现状及ICA与SOM的特点,提出了基于ICA与SOM的不完整数据的处理模型IVS-IDH,研究了数据之间存在相关关系且为非高斯分布时不完整数据的处理方法,在SOM基础上取得了不完整数据集的可视化分析结果,从而克服了Wang S提出的不完整数据处理方法的不足。 相似文献
18.
吴新玲 《计算机工程与设计》2006,27(9):1557-1559
将不完全数据分为了两类:属性值残缺和属性值隐含.对基于这两类不完全数据的数据挖掘方法分别进行了探讨,给出了相应的处理方法,并对这些方法及其应用进行了讨论.属性值残缺的处理主要采用一系列"补漏"的方法,使数据成为完全数据集;属性值隐含的处理则通过EM算法来优化模型的参数,弥补数据的不完全性. 相似文献
19.
基于粗糙集的不完备信息系统统计评判填补方法 总被引:1,自引:0,他引:1
提出了一种基于粗糙集的不完备信息系统数据填补方法。该方法利用粗糙集中下近似集的性质进行初次数据填补,然后根据属性数据的取值概率函数求出的结果进行二次填补,从而完成对不完备信息系统的完备化处理。采用本方法可以较好地反映信息系统所蕴含的规则,且可以避免信息系统的冲突。当信息系统数据和丢失数据都均匀分布时,填补的数据能反映信息系统的真实状况。 相似文献
20.
在Bernoulli混合模型和期望最大化(EM)算法的基础上给出了一种基于不完整数据的改进方法。首先在已标记数据的基础上通过Bernoulli混合模型和朴素贝叶斯算法得到似然函数参数估计初始值, 然后利用含有权值的EM算法对分类器的先验概率模型进行参数估计,得到最终的分类器。实验结果表明,该方法在准确率和查全率方面要优于朴素贝叶斯文本分类。 相似文献