首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
不完备数据是造成信息系统不确定的主要原因之一,对数据挖掘、知识发现等造成了困难.已有的大多数不完备数据的填补算法主要考虑单个决策表的情况,有关多决策表缺失属性补齐算法却报道不多.为此,首先定义了多决策表的属性综合重要性;并以此为启发式信息,基于多决策表的内在关联性,依次补齐缺失属性;最后,实验证明该算法是有效可行的.  相似文献   

2.
针对不完备信息系统的数据缺失填补精度不够高问题,以水产养殖预警信息系统为背景,提出一种基于属性相关度的缺失数据填补算法。在有效保证预警信息系统确定性的前提下,通过研究限制容差关系知识和决策规则,根据新定义的限制相容关系求出缺失对象的限制相容类,同时将条件属性之间的相关度概念引入,构造出一种新的扩展矩阵进行数据填补,实现了系统的完备性。以鲈鱼养殖缺失数据填补为实例,以数据集进行填补验证,结果表明与其他方法相比该算法在填补准确度和时间性能上有明显提高。  相似文献   

3.
不完备信息系统中决策规则的提取是数据挖掘领域的重要研究问题。对不完备信息系统中决策规则的主要获取方法进行分析,以决策属性具有缺失值的不完备决策表为研究对象,提出一种基于数据优先填补的决策树规则提取算法。针对ROUSTIDA算法在数据填补时运算量较大且容易导致决策规则冲突这一问题,算法采用决策属性优先填补的思想,引入对象完备度概念对其进行改进,使用改进的ROUSTIDA算法对不完备决策表进行一次性数据填补预处理,并在限制容差关系下采用属性重要性为启发函数构建决策树,从而获得决策规则。实例表明该方法是有效的,生成的决策规则简单,且具有较高的精确度。  相似文献   

4.
李虹利  蒙祖强 《计算机科学》2018,45(10):217-224
针对不完备、不一致性数据的属性约简是数据挖掘研究的一个重要内容。将信息增益,不一致度相结合,提出一种面向不完备不一致性数据的属性约简算法。首先,介绍了信息增益,定义了不一致度的概念与算法公式,并给出了基于二者对数据进行填补的方法;然后,基于该填补方法,以最大不一致度条件下的信息增益为权值,以不一致度为属性约简的启发信息,给出属性约简算法;最后,通过实验证明了所提算法的有效性。  相似文献   

5.
针对不完全信息多属性决策问题中属性值缺失的情况,为使缺失值的填补更加客观,填补后数据集整体尽量保持填补前的分布,且不丢失已有信息,提出了一种基于机器学习的属性缺失值模糊填补方法。该方法通过寻找不需填补的属性相似的记录,在这些记录中发现需填补属性的可能取值及其概率,按照各取值的概率为缺失值分配相应的取值。该方法的基本思想对于离散型和连续型的数据集均适用。  相似文献   

6.
周燕  万里勇 《计算机仿真》2021,38(4):159-163
对传统多源模糊信息系统存在空值估算准确性差、数据不完备等问题,提出一种基于粗糙集理论的空值估算方法.对多源模糊系统中数据缺失、遗漏等情况进行分析,通过模糊覆盖法获得不完备信息的信任函数;利用粗糙集理论中不可分辨的等价关系、相容关系通过四元组属性计算,得到近似的拟合函数;通过属性约简处理获得关系表中与空值相关的属性值,解决系统中的空值估算问题.实验证明,经过多个数据集和数据表相比表明,所提方法得到的估算结果具有更高的准确率和有效性.  相似文献   

7.
武森  冯小东  单志广 《计算机学报》2012,35(8):1726-1738
缺失数据的处理是数据挖掘领域进行数据预处理的一个重要问题.传统的缺失数据填补方法大部分是基于概率分布等一些统计假设,对于大数据集的数据挖掘不一定是最适合的方法.受不完备数据分析(ROUSTIDA)未采用传统的概率统计学方法启发,提出基于不完备数据聚类的缺失数据填补方法(MIBOI),针对分类变量不完备数据集定义约束容差集合差异度,直接计算不完备数据对象集合内所有对象的总体相异程度,以不完备数据聚类的结果为基础进行缺失数据的填补.采用UCI机器学习基准数据集进行实验表明,MIBOI对缺失数据的填补是有效可行的.  相似文献   

8.
王俊陆  王玲  王妍  宋宝燕 《计算机科学》2017,44(2):98-102, 106
随着互联网及信息技术的发展,数据缺失、损坏等问题越来越普遍,尤其随着数据收集工作从人工转向机器,存储介质的不稳定性及网络传输出现遗漏等原因都导致数据缺失更加严重。数据库中大量的缺失值不仅严重影响了用户查询质量,还对数据挖掘与数据分析结果的正确性造成了影响,进而误导决策。目前,对缺失数据的填补还没有一种比较通用的方法,大部分策略都是针对某一类型的缺失值问题进行处理。因此,针对不同缺失类型同时出现在不完备数据中的复杂情况,提出了一种基于元组相似度的不完备数据填补方法(IATS)。采用数据挖掘的方法提取出不完备数据集中的加权关联规则,并根据此规则进行常规缺失数据的填补,而对于数据集的异常缺失问题,又引入数据推荐算法,采用推荐筛选策略进行元组相似度的计算并实现相应填补,在很大程度上提高了数据的有效利用率和用户查询结果的质量。实验表明,IATS策略在保证填补率的前提下具有更好的准确率。  相似文献   

9.
针对案例推理系统中数据集存在数据缺失的非完备信息问题,利用序关系基本原理,设计了案例推理集成方法(ORCBR)。通过对非完备信息下确定符号属性、确定数值属性、区间数值属性以及模糊语言属性等属性间相似性度量的研究,计算出目标案例与历史案例的相似性矩阵。在此基础上,利用序关系构建了相似性矩阵中不同属性的集成排序算法,从而得到最相似历史案例。通过对UCI数据库中非完备信息数据集的测试表明,OR-CBR方法比经典案例推理方法准确率高、效率高,很好地解决了非完备信息数据集的案例推理问题。  相似文献   

10.
面向大规模的数据进行知识约简是近年来粗糙集理论研究的热点。传统不完备信息系统的知识约简是假设在初始时将所有需要处理的数据一次性地装入内存中,这明显不适合处理海量数据,更不适合处理含有缺失信息的海量数据。为此,深入剖析了带有缺失信息的数据特征,把缺失属性的值用该属性所有可能的取值表示,并结合知识约简算法中的可并行性,从属性(集)的可辨识性和不可辨识性出发,并在MapReduce框架下设计了可用来处理不完备信息系统的知识约简算法。实验结果表明,该算法是有效可行的,能够对不完备信息系统中的海量数据进行知识约简。  相似文献   

11.
数据缺失对聚类算法提出了挑战,传统方法往往采用均值或回归方法将不完整数据进行填充,再对填充后的数据进行聚类.为解决均值填充和回归填充等方法在数据缺失比率增大时填充精度以及聚类效果变差的问题,提出一种新的不完整数据相似度计算方法.以期望互信息为依据对数据集中的属性排序,充分考虑了数据集中与位置相关的属性值特征,以数据集本身元素作为缺失值填充的来源,对排序后的不完整数据集进行相似度填充计算,最后采用基于局部密度的聚类算法进行聚类.利用UCI机器学习库中的数据集验证本文填充聚类算法,实验结果表明,当数据集中缺失值增多时,算法对缺失值的容忍性较好,对缺失元素的恢复能力较强,填充精度以及最终聚类结果方面均表现良好.本文填充计算相似度的方法考虑数据集的每个属性值来对缺失值逐个填充,因而耗时较多.  相似文献   

12.
数据缺失会影响数据的质量,可能导致分析结果的不准确和降低模型的可靠性,缺失值填补能减低偏差方便后续分析.大多数的缺失值填补算法,都是假设多项缺失值之间是弱相关甚至无相关,很少考虑缺失值之间的相关性以及填补顺序.在销售领域中对缺失值进行独立填补,会减少缺失值信息的利用,从而对缺失值填补的准确度造成较大的影响.针对以上问题,本文以销售领域为研究目标,根据销售行为的多维度特征,利用不同模型输出值的空间分布特征特性,探索多项缺失值的填补更新机制,研究面向销售数据多项缺失值增量填补方法,根据特征相关性,对缺失特征排序并用已填补的数据作为信息要素融合对后面的缺失值进行增量填补.该算法同时考虑了模型的泛化性和缺失数据之间的信息相关问题,并结合多模型融合,对多项缺失值进行有效填补.最后基于真实连锁药店销售数据集通过大量实验对比验证了所提算法的有效性.  相似文献   

13.
Classification is one of the most important tasks in machine learning with a huge number of real-life applications. In many practical classification problems, the available information for making object classification is partial or incomplete because some attribute values can be missing due to various reasons. These missing values can significantly affect the efficacy of the classification model. So it is crucial to develop effective techniques to impute these missing values. A number of methods have been introduced for solving classification problem with missing values. However they have various problems. So, we introduce an effective method for imputing missing values using the correlation among the attributes. Other methods which consider correlation for imputing missing values works better either for categorical or numeric data, or designed for a particular application only. Moreover they will not work if all the records have at least one missing attribute. Our method, Model based Missing value Imputation using Correlation (MMIC), can effectively impute both categorical and numeric data. It uses an effective model based technique for filling the missing values attribute wise and reusing then effectively using the model. Extensive performance analyzes show that our proposed approach achieves high performance in imputing missing values and thus increases the efficacy of the classifier. The experimental results also show that our method outperforms various existing methods for handling missing data in classification.  相似文献   

14.
时巍 《计算机仿真》2020,(4):432-435,440
传统数据填补手段填补规模受限,存在运行不稳定、内存占比较大以及填补精度较低等缺点,为此提出一种云计算下相关性缺失大数据分块填补。根据数据填补原理,可通过较小的区间代替缺失数据,计算大数据集信息熵与指标之间的相关性系数,将数据集填充于原始大数据中,计算新得到的数据集信息熵,利用新旧信息熵的相似性关系扩大区间范围。随后对相关性缺失大数据做分块处理,分成已知分块和未知分块,已知分块可以直接对其进行填补,未知分块需要利用基于稀疏性的K-means算法约束目标函数中变量权重,并划分其聚类结果获得未知分块数据集,最后利用宿主法实现填补。仿真结果证明,所提方法相比其它方法,精准度较高、填补效果良好且运行稳定。  相似文献   

15.
提出了一种处理海量的不完备决策表的方法。将基于互信息的属性重要度作为启发式信息,利用遗传算法对不完备的原始决策表中的条件属性进行约简,形成包含missing值的决策表,称为优化决策表。利用原始决策表自身的信息,通过属性扩展,从优化决策表中抽取一致性决策规则,而无须计算missing值。该方法在UCI的8个数据集上的实验结果优于EMAV方法,是一种有效的从海量不完备决策表中抽取规则的方法。  相似文献   

16.
事件抽取是信息抽取领域的研究热点。针对ACE事件抽取局限于当前单个句子而造成大量事件论元角色缺失的现象,提出了基于跨事件的缺失事件角色填充理论并实现了原型系统。系统分为缺失角色填充识别和缺失角色填充分类两个部分,识别部分用于判定缺失角色是否可被填充,分类部分用于从其它事件描述中选择合适的角色(实体)对可被填充的缺失角色进行填充。对ACE2005语料进行了后期标注,实验中两个阶段的F值分别达到72.97和74.68。  相似文献   

17.
针对园区照明系统能耗数据缺失、区域能耗难以控制的问题,助力企业节能、减排,提出了一种基于决策树算法的园区照明系统能耗优化控制方法。预处理园区照明系统能耗数据,通过属性选择统一能耗数据属性值,采用基于马氏距离的k均值填充法填补能耗数据缺失值;选取C4.5决策树搭建园区照明系统能耗回归预测模型,预测获取园区照明系统总能耗,构建园区照明系统能耗控制目标函数,衡量照度及照明设备亮度二者跟随时间推移产生的规律,以此判断园区照明系统设备的下一时刻亮度,实现对园区照明系统的能耗优化控制。实验结果表明,所提方法可有效填补缺失能耗数据,并精准预测园区照明系统能耗值,预测精度高达99.16%;优化控制后的年度耗电量相比上一年度缩减两倍,优化控制效果优秀。  相似文献   

18.
一种新的遗失数据填补方法   总被引:1,自引:0,他引:1  
鄂旭  高学东  武森 《计算机工程》2005,31(20):6-7,95
在粗糙集理论的研究中,目前有一些关于遗失数据的填补方法,如均值法、最大频率法等,但这些大部没有很好地与信息表这一表现形式的特点相结合,填补数据的质量较差。该文提出了一种基于断点属性值的新方法,较大地提高了填补数据的质量。  相似文献   

19.
针对海产品安全评估体系中大量的、冗余的评估指标问题,提出了一种新的混合信息粒度的属性不重要性算法。该算法首先从理论上分析了属性不重要性的可行性,提出了属性不重要性公式,然后为了减少算法的时间复杂度,任意求出算法的一个核属性,最后,通过比较其他属性的属性不重要性值,选择属性不重要性值小的属性,确定最佳的约简属性集。通过具体实例分析和实验结果,表明该属性约简算法可以应用到海产品安全评估体系中。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号