首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
数据质量和数据清洗研究综述   总被引:75,自引:1,他引:75  
郭志懋  周傲英 《软件学报》2002,13(11):2076-2082
对数据质量,尤其是数据清洗的研究进行了综述.首先说明数据质量的重要性和衡量指标,定义了数据清洗问题.然后对数据清洗问题进行分类,并分析了解决这些问题的途径.最后说明数据清洗研究与其他技术的结合情况,分析了几种数据清洗框架.最后对将来数据清洗领域的研究问题作了展望.  相似文献   

2.
为了追求精度,深度学习模型框架的结构越来越复杂,网络越来越深.参数量的增加意味着训练模型需要更多的数据.然而人工标注数据的成本是高昂的,且受客观原因所限,实际应用时可能难以获得特定领域的数据,数据不足问题非常常见.数据增强通过人为地生成新的数据增加数据量来缓解这一问题.数据增强方法在计算机视觉领域大放异彩,让人们开始关...  相似文献   

3.
涂菲菲  周明辉 《软件学报》2019,30(5):1522-1531
问题追踪系统和版本控制系统等软件开发支持工具已被广泛应用于开源和商业软件的开发中,产生了大量的数据,即软件开发活动数据.软件开发活动数据被广泛应用于科学研究和开发实践,为智能化开发提供支持.然而数据质量对相关的研究和实践有重大影响,却还没有得到足够的重视.为了能够更好地警示数据使用者潜在的数据质量问题,通过文献调研和访谈,并基于自有经验对数据进行分析,总结出了9种数据质量问题,覆盖了数据产生、数据收集和数据使用这3个不同的阶段.进一步地,提出了相应的方法以帮助发现和解决数据问题.发现问题是指加强对数据上下文的理解和通过统计分析及数据可视化发现潜在的数据质量问题,解决问题是指利用冗余数据或者挖掘用户行为模式进行修正.  相似文献   

4.
Web数据挖掘中的可信数据来源   总被引:1,自引:0,他引:1  
从大量Web信息中获取有用的信息是Web数据挖掘的关键问题.如何评价web信息是否可信,现在主要方法是通过BadRank算法进行内容评测,或是通过链接权重进行相关引用数计算.可信数据来源是数据挖掘的前提,在基于关键词的数据挖掘中,通过评价挖掘所涉及的不同数据域,以及数据域自身的可信性,对在不同域所获得的挖掘数据给以权重,从而对挖掘结果的序列产生影响,提高挖掘算法在获取可信结果方面的效率.并通过试验测试了可信域评价的效果.  相似文献   

5.
随着信息技术的日益普及,数据安全的问题也随之突出起来,为了让数据更加安全,人们正不断研究新的加密技术.本文介绍了一些常见的数据加密方法.  相似文献   

6.
市场数据     
本周图表全球顶级域名数量达7700万个ipWalk统计数据显示,全球顶级域名数量已达到了7700万个,包括:.com、.net、.org、.info以及.biz域名。其中,67.23%的顶级域名属于美国,数量达到52277677个域名。而中国成为了顶级域名数量第5大国。域名拥有量排名前5位的国家共占有了83.14%的顶级域名。排名国家占有率数量1美国67.23%522776772德国5.71%44420413加拿大3.60%28024114英国3.37%26176795中国3.22%2503430数据来源:ipWalk2006年全球垂直市场IT开支总计将达2.2万亿美元Gartner表示,2006年全球垂直市场的IT开支总计将达2.2万亿美元。金融服…  相似文献   

7.
重建数据立方体的数据覆盖方法   总被引:1,自引:0,他引:1  
曹蓟光  王申康 《软件学报》2002,13(8):1586-1592
数据切片体现了数据立方体某方面的数据特征,当产生数据切片的数据立方体由于某种原因不可访问时,通过已知的多个数据切片尽可能地恢复数据立方体中的原始信息,有利于对数据的深入分析和理解.提出了一种基于数据切片重建数据立方体的方法,通过数据切片的连接生成多维细粒度空间,利用数据覆盖操作逐步细分每个数据切片所对应的多维空间,以逼近多维细粒度空间.提出了重建后数据立方体的可查询判据.该方法直接利用数据库中的基本操作来实现,高效地支持大数据量的应用环境.  相似文献   

8.
QAR数据的数据融合算法   总被引:1,自引:0,他引:1  
分析了QAR数据中影响飞机性能衰减的主要因素,采用自适应加权数据融合算法和扩展卡尔曼滤波算法对相关性能参数进行了状态参量的估计,并验证了自适应加权融合算法在外界环境影响较小时的便捷性和外界环境影响过大时的局限性.引入扩展卡尔曼滤波算法,加入高斯噪声的计算,提高了状态估计值的精确度,为航空公司改善飞机运行提供了参考.  相似文献   

9.
基于"数据池"的异构数据的集成,通过建立集成所需的映射规则,引入了代理键和数据颗粒的概念.该集成方法,首先根据语义,建立相应的全局逻辑实体,然后根据映射规则,转换要集成的物理实体到全局逻辑实体.这种方案,比较好的解决了集成中的语义冲突问题,为异构数据集成提供了一种比较可行的方法.  相似文献   

10.
新一轮科技革命和产业变革方兴未艾,带动数字技术快速发展,以数字技术为引擎的第二次机器革命悄然而至.我国作为本轮科技革命的先行者,在政策引导、资源积累、技术发展和应用驱动等方面都具备较好基础.  相似文献   

11.
2020年4月,中共中央国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,提出要加快培育数据要素市场的概念,进一步突出了数据在经济发展、科技进步和生产生活等各方面的重要性.但与此同时,人们对自身产生的数据失去掌控权,以及对大数据决策深度依赖,由此导致用户数据滥用、隐私泄露、数据垄断和决策公平等数据伦理问题层出不穷,严重影响了数据生产者和数据消费者等参与主体的权益.传统的数据治理体系与方法已经不能解决当下数据治理面临的难题,亟待新思想和新方法等突破性进展的出现.目前来看,建立数据透明化的数据治理体系是一条有效途径,即通过增加大数据价值发现过程中的透明性来保障各方参与主体的权益.鉴于此,《计算机研究与发展》推出“数据治理与数据透明”专题,侧重数据透明、数据伦理、数据决策公平、数据决策可解释、数据垄断、数据隐私保护等方面,探讨当下数据治理的新体系与新方法,展望未来的发展趋势.本专题最终收录了4篇论文,内容涵盖数据伦理判别、数据决策公平、隐私保护新方法和数据透明4个方面,反映了国内学术领域在数据治理方面的主要工作.  相似文献   

12.
龚奇源  杨明  罗军舟 《软件学报》2013,24(12):2883-2896
在数据发布过程中,为了防止隐私泄露,需要对数据的准标识符属性进行匿名化,以降低链接攻击风险,实现对数据所有者敏感属性的匿名保护.现有数据匿名方法都建立在数据无缺失的假设基础上,在数据存在缺失的情况下会直接丢弃相关的记录,造成了匿名化前后数据特性不一致.针对缺失数据匿名方法进行研究,基于k-匿名模型提出面向缺失数据的数据匿名方法KAIM(k-anonymity for incomplete mircrodata),在保留包含缺失记录的前提下,使在同一属性上缺失的记录尽量被分配到同一分组参与泛化.该方法将分组泛化前后的信息熵变化作为距离,基于改进的k-member 算法对数据进行聚类分组,最后通过基于泛化层次的局部泛化算法对组内数据进行泛化.实际数据集的大量实验结果表明,KAIM 造成信息缺损仅为现有算法的43.8%,可以最大程度地保障匿名化前后数据特性不变.  相似文献   

13.
数据复制和数据一致性   总被引:1,自引:0,他引:1  
分布式数据库(DDB)对全局关系分片,把各分片分别存放在不同节点,当应用程序对全局关系进行操作时,DDB将全局关系操作转换为分片操作,利用本地处理速度执行分片操作以提商效率.  相似文献   

14.
徐波 《数码世界》2021,(2):68-69
对于教育大数据的挖掘,需要保证大数据的准确、丰富,这样才能够取得理想的挖掘效果.而在准备过程中,收集、分析和预处理这三个环节非常重要,只有充分了解这三个环节,并且有效落实,这样才能够更好的保证教育大数据的使用效率.本文就针对教育大数据的收集、分析和预处理来进行研究,进而来为相关研究人员提供参考.  相似文献   

15.
为了解决传统数据清洗工具面对海量数据时复杂度高、效率低的问题,设计实现了流式大数据数据清洗系统.利用分布式计算技术清洗数据,以解决性能低的问题.该系统由统一接入模块、计算集群和调度中心三部分组成,实现了多种数据源的统一接入,分布式处理,并通过Web界面进行清洗流程的交互式配置.实验结果表明,面对海量数据的时候,流式大数据数据清洗系统的性能强于传统的单机数据清洗,提高了清洗效率.  相似文献   

16.
数据加密是保证信息安全的基本措施之一.本文介绍了数据加密的概念,同时阐述了对称型加密算法和公钥加密算法.并对两种算法的优劣进行了比较.  相似文献   

17.
数据收集是无线监测网络的关键环节.利用无人机进行数据收集,其本质是通过无人机的移动代替网络中的转发节点,减少数据从源节点到基站的转发次数,有效节约监测网络能量,从而成为未来发展的趋势.现有研究关注如何利用无人机有限的能量获得更多的数据,缺乏对获取数据的价值评估,从而导致无人机数据收集能效比不高.如何利用无人机最少的能量付出在监测区域获取最大的数据价值,其难点在于数据价值是针对不同应用的主观评价,而不同节点获取的数据价值如何比较,目前缺乏统一的标准.我们发现,数据相似节点的数据价值存在相似性.在此基础上,我们提出了一种数据收集方法OnValueGet,利用关键性代表节点的数据,最大程度的近似代表整个监测区域的数据,从而在能量约束下获得最大数据价值.其核心思想在于:从分析感知数据的时空相似性入手,确定数据价值较高的感知节点,本文称为数据关键节点,在应用的误差范围内,它们采集的数据可以近似表示全部网络感知节点采集的数据.无人机以数据关键节点为数据采集的核心目标,在能量有限的情况下,根据遇到的障碍物和节点感知到数据的异常与否,动态的规划数据收集路线,从而使收集到的数据具有最大价值,显著提升数据收集的能效比.  相似文献   

18.
为了解决实际问题,大数据分析处理系统需要获取数据,然而实际场景中收集到的实际数据通常不完备.另外,大多数问题的解决方案通常是由问题引导或者仅仅进行数据分析,运行参数调整和设定带有较大的盲目性,难以达到应用的智能性.为此,文中提出平行数据的概念和框架,根据实际数据经计算实验产生真正的虚拟大数据,结合默顿定律,以期待的解决方案与问题进行广义对偶,引导大数据聚焦到实际问题.实际数据与虚拟数据动态互动,平行演化,形成一个虚实相生、数据动态变化的过程,最终使数据具备智能,进而解决未知的问题.平行数据不但是一种数据表示形式,更是一种数据演化机制与方式,其特色是虚实互动,所有数据的动力学轨迹构成了数据动力学系统.平行数据为数据处理、表示、挖掘和应用提供了一个新的范式.  相似文献   

19.
基于数据质量的Deep Web数据源排序   总被引:1,自引:1,他引:0  
Deep Web技术使得大量隐藏在接口背后的有用信息更容易被用户查找到.然而,随着数据源的增多,如何从众多的数据源中快速地找到合适的结果这一问题变得越来越重要.通过传统的链接分析方法和相关性评估方法来对数据源进行排序,已经不能满足高精度的要求.提出一种通过抽样方法和数据质量评估来判断数据源的优劣性的算法.本文提出的抽样方法,改进了分层抽样和雪球抽样,使得在较少的样本点时,能够准确的反映整体特征.定义了能基本反映数据源的优劣程度的6个主要质量标准,并给出计算方法;通过质量标准,结合权重向量来量化数据源的质量.实验通过对数据源进行抽样分析,求解数据源得分的期望值,并根据该期望值对数据源进行了整体排序.结果表明,利用抽样对数据源的数据质量进行估计和评分,具有很好的准确性和可操作性.  相似文献   

20.
1引言 随着信息化的持续深入发展,大多数组织内部都有由过去遗留下来的许多分布、自治、异构的应用系统.早期这些应用系统被设计成各自包含的黑盒系统,只有很少或者根本没有方法来访问它内部的数据,这就形成了组织内部的数据孤岛.信息已经成为当今时代一种新型的资源,其利用程度已成为企业信息化的首要任务,大家都迫切期望能够实现内部各应用系统的数据集成.但在数据集成的过程中,经常会遇到将各自分布的数据合并起来的问题,现有的数据集成工具都是直接操作原始数据,无法按照用户指定的要求进行二次加工,根本无法支持数据合并.根据二维数据表的特征,分别将从基于字段的纵向合并、基于记录的横向合并和基于多表的双向合并等三个方面进行深入阐述.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号