首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
在用电信息采集系统中,由于采集和配电设备的海量接入,终端获取的分钟冻结数据普遍存在缺失。针对该问题,提出一种基于聚类的时间序列预测方法填充缺失值。该方法利用终端获取的分钟冻结数据具有时序自相似和关联性特征,首先对终端聚类,使具有相似时序特征的终端在同一分组,针对长时间序列具有的高维特征造成聚类困难的问题,使用自编码器降维,提高聚类性能;然后,对各分组建立基于长短期记忆(LSTM)单元的神经网络模型预测缺失值。实验结果表明该方法能有效利用终端时间序列的特性,验证了基于自编码器的聚类可提升预测性能。  相似文献   

2.
针对传统聚类算法在对缺失样本进行数据填充过程中存在样本相似度难度量且填充数据质量差的问题,提出一种基于潜在因子模型(LFM)在子空间上的缺失值注意力聚类算法。首先,通过LFM将原始数据空间映射到低维子空间,降低样本的稀疏程度;其次,通过分解原空间得到的特征矩阵构建不同特征间的注意力权重图,优化子空间样本间的相似度计算方式,使样本相似度的计算更准确、泛化性更好;最后,为了降低样本相似度计算过程中过高的时间复杂度,设计一种多指针的注意力权重图进行优化。在4个按比例随机缺失的数据集上进行实验。在Hand-digits数据集上,相较于面向高维特征缺失数据的K近邻插补子空间聚类(KISC)算法,在数据缺失比例为10%的情况下,所提算法的聚类准确度(ACC)提高了2.33个百分点,归一化互信息(NMI)提高了2.77个百分点,在数据缺失比例为20%的情况下,所提算法的ACC提高了0.39个百分点,NMI提高了1.33个百分点,验证了所提算法的有效性。  相似文献   

3.
数据的完整性是数据可用性的重要维度。由于数据采集等过程中存在的问题,现实中的数据往往存在缺失。现有的聚类算法在面对不完整数据时一般采用忽略缺失或填补缺失的策略,但是当数据缺失属于非随机缺失时,这样的处理策略会导致聚类精度严重下降。当数据缺失属于非随机缺失时,数据缺失模式与缺失属性的取值相关,因此在不完整对象的相似度量中加入缺失模式相似的度量,提出了两种结合缺失模式的 PCM(Possibilistic c-means)模糊聚类算法:最小化缺失模式距离之和的 PatDistPCM 算法和基于缺失模式聚类的 PatCluPCM 算法。在两个公开数据集上的实验证明, 考虑缺失模式的模糊聚类PatDistPCM和PatCluPCM算法,在对存在非随机缺失的数据进行聚类时 ,能有效提高聚类结果的准确性。  相似文献   

4.
时序数据中的野值会直接影响数据挖掘算法的结果,甚至造成算法失效。传统的基于密度的带有噪声的空间聚类(DBSCAN)算法可以用来识别野值,但是却存在算法对参数敏感、时间复杂度高、精度不高等问题。针对时序数据的特点,提出了一种可自动进行多次识别的基于方差聚类的野值识别算法。该方法通过将传统的邻域密度转换为方差和均值、将密度阈值转换为时间窗口内的方差和阈值,在定义野值数据、野簇数据和异常簇数据的基础上,给出野值识别方法的判断规则。同时,针对一次野值识别不能将全部野值剔除的问题,通过定义多次野值识别的结束条件将算法扩展为多次野值识别算法。通过在某航天数据挖掘项目中的应用,验证了该算法具有较好的通用性、低的时间复杂度、可进行多次识别以提高精度等特点。  相似文献   

5.
袁柳  张龙波 《计算机科学》2015,42(10):266-270, 296
如何有效管理并利用日益庞大的RDF数据是当今Web数据管理领域面临的挑战之一。对大规模的RDF数据集进行聚类操作从而得到数据集的有效划分是RDF数据存储和应用时通常采取的策略。针对现有RDF聚类过程中忽略RDF三元组自身模式特征的问题,在对RDF聚类结果的形式深入分析的基础上,定义了3种不同类型的聚类模式,从而提出基于模式的聚类方法。通过对RDF数据集的重新描述,自动生成适用于RDF数据集特征的聚类模式,在此基础上实现数据聚类的任务。在不同测试集上的实验结果验证了所提方法的正确性和有效性。  相似文献   

6.
基于分块聚类的车牌图像二值化方法   总被引:1,自引:1,他引:1  
唐泉  樊晓平  黎燕 《计算机仿真》2010,27(3):286-289,352
利用车牌图像中车牌部分所占比例小、车牌字符与底色灰度对比度大的特点,为运算简单,易识别定位,提出了一种基于分块聚类的车牌图像的二值化方法。方法先将整幅灰度车牌图像等分成多个小块,对每个小块中的像素点根据其灰度值进行聚类,再将聚类结果二值化而得到各小块的二值化结果,合成各小块的二值化结果得到整幅车牌图像的二值图像。实验结果表明,与OTSU二值化方法相比,不仅经该方法处理得到的二值图像能很好地体现车牌特征、有效地降低车牌图像背景的复杂性,而且方法更适用于处理非正常光照条件下的车牌图像。在此基础上能有效地提高车牌定位系统的实时性和适应性。  相似文献   

7.
8.
武森  冯小东  单志广 《计算机学报》2012,35(8):1726-1738
缺失数据的处理是数据挖掘领域进行数据预处理的一个重要问题.传统的缺失数据填补方法大部分是基于概率分布等一些统计假设,对于大数据集的数据挖掘不一定是最适合的方法.受不完备数据分析(ROUSTIDA)未采用传统的概率统计学方法启发,提出基于不完备数据聚类的缺失数据填补方法(MIBOI),针对分类变量不完备数据集定义约束容差集合差异度,直接计算不完备数据对象集合内所有对象的总体相异程度,以不完备数据聚类的结果为基础进行缺失数据的填补.采用UCI机器学习基准数据集进行实验表明,MIBOI对缺失数据的填补是有效可行的.  相似文献   

9.
基于内码序值聚类的相似重复记录检测方法*   总被引:4,自引:2,他引:2  
检测和消除相似重复记录是数据清理和提高数据质量要解决的关键问题之一,针对相似重复记录问题,提出了基于内码序值聚类的相似重复记录检测方法。该方法先选择关键字段或字段某些位,根据字符的内码序值,利用聚类思想将大数据集聚集成多个小数据集;然后,通过等级法计算各字段的权值,并将其应用在相似重复记录的检测算法中;最后,在各个小数据集中检测和消除相似重复记录。为避免关键字选择不当而造成记录漏查问题,采用多趟检测方法进行多次检测。通过实验表明,该方法具有较好的检测精度和时间效率,能很好地应用到中英文字符集,通用性很强,  相似文献   

10.
异常值检测是数据挖掘领域中的核心问题,在工业生产中也有着广泛的应用。准确高效的异常值检测方法能够及时反映出工业系统运行状态,为相关人员提供参考,而传统的异常值检测方法无法很好地检测出变化模式复杂、变化范围小、具有流数据特性的数据中的异常值。因此,本文提出了一种新的针对该类型数据的异常值检测方法:首先通过对数据进行聚类划分,将相似的数据进行归类,从而将原本复杂的数据分布拆解成为每个聚类下简单数据分布的叠加;然后使用核密度估计假设检验的方法对待检测数据进行异常值检测。在标准数据集和真实数据上的实验结果表明,该方法相比于传统的异常值检测方法在检测精度上有一定的提升。  相似文献   

11.
数据缺失会影响数据的质量,可能导致分析结果的不准确和降低模型的可靠性,缺失值填补能减低偏差方便后续分析.大多数的缺失值填补算法,都是假设多项缺失值之间是弱相关甚至无相关,很少考虑缺失值之间的相关性以及填补顺序.在销售领域中对缺失值进行独立填补,会减少缺失值信息的利用,从而对缺失值填补的准确度造成较大的影响.针对以上问题,本文以销售领域为研究目标,根据销售行为的多维度特征,利用不同模型输出值的空间分布特征特性,探索多项缺失值的填补更新机制,研究面向销售数据多项缺失值增量填补方法,根据特征相关性,对缺失特征排序并用已填补的数据作为信息要素融合对后面的缺失值进行增量填补.该算法同时考虑了模型的泛化性和缺失数据之间的信息相关问题,并结合多模型融合,对多项缺失值进行有效填补.最后基于真实连锁药店销售数据集通过大量实验对比验证了所提算法的有效性.  相似文献   

12.
基于信息增益的数据库缺失值填充算法   总被引:1,自引:1,他引:1  
覃泽 《微计算机信息》2007,23(12):180-181
在数据挖掘以及机器学习等领域,都需要涉及一个数据预处理过程。其中,缺失值的填充是一个非常具有挑战性的任务,因为填充效果的好坏会极大的影响学习算法及挖掘算法的后续处理过程.目前已有的一些填充算法在一定程度上能够处理缺失值问题.与已有的方法不同,提出了一种扩展的基于信息增益的缺失值填充算法,它充分利用数据集中各属性之间隐含的关系对缺失的数据进行填充。大量的实验表明,提出的扩展的基于信息增益的缺失值填充算法是有效的.  相似文献   

13.
针对传统的kNN(k-NearestNeighbor)近邻填补算法对缺失数据的填补效果会因为k最近邻数据存在噪声受到较大干扰的问题,提出一种基于kNN-DBSCAN(k-NearestNeighbor Density-based Spatial Clustering of Applications with Noise)的缺失数据填补优化算法。将基于密度的DBSCAN聚类算法运用到kNN近邻填补算法中,先用kNN算法得到目标填补数据的原始k最近邻数据集,运用DBSCAN聚类算法对原始k最近邻数据集进行噪声检测并消除噪声数据,得到当前k最近邻数据集,最后并入kNN计算,填补目标缺失数据;同时,针对DBSCAN聚类算法参数设置敏感的问题,通过分析数据集的统计特性来确定参数,避免人为经验判断。最后利用真实数据对算法进行验证,结果显示该算法对目标缺失数据的填补准确度要优于传统的kNN算法。  相似文献   

14.
马茜  谷峪  李芳芳  于戈 《软件学报》2016,27(9):2332-2347
近年来,随着感知网络的广泛应用,感知数据呈爆炸式增长.但是由于受到硬件设备的固有限制、部署环境的随机性以及数据处理过程中的人为失误等多方面因素的影响,感知数据中通常包含大量的缺失值.而大多数现有的上层应用分析工具无法处理包含缺失值的数据集,因此对缺失数据进行填补是不可或缺的.目前也有很多缺失数据填补算法,但在缺失数据较为密集的情况下,已有算法的填补准确性很难保证,同时未考虑填补顺序对填补精度的影响.基于此,提出了一种面向多源感知数据且顺序敏感的缺失值填补框架OMSMVI(order-sensitive missing value imputation framework for multi-source sensory data).该框架充分利用感知数据特有的多维度相关性:时间相关性、空间相关性、属性相关性,对不同数据源间的相似度进行衡量;进而,基于多维度相似性构建以缺失数据源为中心的相似图,并将已填补的缺失值作为观测值用于后续填补过程中.同时考虑缺失数据源的整体分布,提出对缺失值进行顺序敏感的填补,即:首先对缺失值的填补顺序进行决策,再对缺失值进行填补.对缺失值进行顺序填补能够有效缓解在缺失数据较为密集的情况下,由于缺失数据源的完整近邻与其相似度较低引起的填补精度下降问题;最后,对KNN填补算法进行改进,提出一种新的基于近邻节点的缺失值填补算法NI(neighborhood-based imputation),该算法利用感知数据的多维度相似性对缺失数据源的所有近邻节点进行查找,解决了KNN填补算法K值难以确定的问题,也进一步提高了填补准确性.利用两个真实数据集,并与基本填补算法进行对比,验证了算法的准确性及有效性.  相似文献   

15.
时巍 《计算机仿真》2020,(4):432-435,440
传统数据填补手段填补规模受限,存在运行不稳定、内存占比较大以及填补精度较低等缺点,为此提出一种云计算下相关性缺失大数据分块填补。根据数据填补原理,可通过较小的区间代替缺失数据,计算大数据集信息熵与指标之间的相关性系数,将数据集填充于原始大数据中,计算新得到的数据集信息熵,利用新旧信息熵的相似性关系扩大区间范围。随后对相关性缺失大数据做分块处理,分成已知分块和未知分块,已知分块可以直接对其进行填补,未知分块需要利用基于稀疏性的K-means算法约束目标函数中变量权重,并划分其聚类结果获得未知分块数据集,最后利用宿主法实现填补。仿真结果证明,所提方法相比其它方法,精准度较高、填补效果良好且运行稳定。  相似文献   

16.
Automation and Remote Control - The article deals with the problem of reconstructing missing data in data collections for machine learning problems. We propose a new randomized method for missing...  相似文献   

17.
序列缺失数据的灰插值推理方法   总被引:2,自引:0,他引:2  
根据灰色系统理论和序列数据的特性,提出一种灰插值方法.建立前向灰预测和后向灰预测模型,充分利用缺失值时区窗口内的全部信息对其进行推理.分别在单序列时建立递进灰拟合模型,在多维数据集时利用属性相关性,对括值结果进行学习优化.通过与常用插值方法的比较实验表明。该方法具有较好的光滑性和预测效果.  相似文献   

18.
不完全信息系统中遗失数据的补充和规则的提取,一直是数据挖掘技术面临的重要问题。文中给出了一种基于决策树来求解此问题的算法。对于给定的不完全决策表,该算法应用改进的ID3算法来构造决策树,在构造决策树的过程中对遗失值进行补充。对于不能在决策树上补充的遗失值,定义了一种相关对象之间的相似度来填充。该算法简单,易于操作。  相似文献   

19.
基于分簇的无线传感器网络簇内数据融合算法   总被引:2,自引:0,他引:2       下载免费PDF全文
翟建设  李娜  吴青 《计算机工程》2008,34(11):134-136
根据节点剩余能量、通信消耗量和节点IP,设计无线传感器节点分簇算法,减少了无线传感器网络的数据传输总量。分析对以分簇为基础的簇内数据的融合算法误差成因,提出先进行簇内传感器测量修正、再进行簇内传感器数据融合的改进算法。通过TOSSIM仿真平台的实验,改进后的簇内数据融合算法测量误差明显减少。  相似文献   

20.
一种新的遗失数据填补方法   总被引:1,自引:0,他引:1  
鄂旭  高学东  武森 《计算机工程》2005,31(20):6-7,95
在粗糙集理论的研究中,目前有一些关于遗失数据的填补方法,如均值法、最大频率法等,但这些大部没有很好地与信息表这一表现形式的特点相结合,填补数据的质量较差。该文提出了一种基于断点属性值的新方法,较大地提高了填补数据的质量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号