首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
李建中  王宏志  高宏 《软件学报》2016,27(7):1605-1625
信息技术的迅速发展催生了大数据时代的到来.大数据已经成为信息社会的重要财富,为人们更深入地感知、认识和控制物理世界提供了前所未有的丰富信息.然而,随着数据规模的增长,劣质数据也随之而来,导致大数据质量低劣,极大地降低了大数据的可用性,严重困扰着信息社会.近年来,数据可用性问题引起了学术界和工业界的共同关注,开展了深入研究,取得了一系列研究成果.本文介绍数据可用性的基本概念,讨论数据可用性的挑战与研究问题,综述数据可用性方面的研究成果,探索大数据可用性的未来研究方向.  相似文献   

2.
伴随着人类进入大数据时代,大数据在彰显出巨大应用价值的同时,也凸显出数据可用的科技问题。如何解决数据可用带来的挑战,成为各国政府和学界高度关注的问题。目前,针对大数据的可用性研究刚刚起步,对大数据可用性进行了探讨,并就数据可用性的研究前景进行了展望。  相似文献   

3.
"大数据"已经成为计算机领域使用频率最高的专业词汇之一,而且已经逐渐变成了一个商品名称。无论是从学术研究角度,还是从数据交易需求角度,对大数据集的可用性进行评价都是一个新的问题。文中提出了一个大数据可用性评价模型,为学术和流通领域提供参考。结合大数据的4V(Volume,Variety,Velocity,Value)特性,分段统计样本数据的4V特性分布,从而给出基于分段分布的大数据特性概率模型,以及大数据可用性加权评价模型。文中还提出了实现大数据分块抽样的算法,以及大数据评价模型的各个特性加权系数的估计算法。结合视频大数据的可用性评价需求,展示所提模型和算法的具体应用。大数据可用性评价模型可以用于数据科学实验的数据评价,也可以用于大数据交易市场的数据集定价。给出了实际评价工作中,标准化(商品化)数据集以及确定数据评价基准等具体操作方面的解决方案。应用案例对所提模型有支持作用,进一步检验了模型的可行性。  相似文献   

4.
基于数据仓库环境下的数据可用性研究   总被引:1,自引:0,他引:1  
随着数据仓库技术的广泛应用,如何存储数据并保证数据长期可用性已成为近年来的研究重点。文中阐述了在数据仓库环境下存在的数据长期可用性问题,并分析了已有解决方案的优劣,从而给出了一种较为完善的解决方案———模拟策略的核心思想和具体实现过程,以及相关的关键技术,指出了保障数据可用性的未来研究方向。该策略通过模拟历史的硬件平台环境,较好地解决了数据仓库中大量历史数据的长期可用性问题。  相似文献   

5.
随着数据仓库技术的广泛应用,如何存储数据并保证数据长期可用性已成为近年来的研究重点。文中阐述了在数据仓库环境下存在的数据长期可用性问题,并分析了已有解决方案的优劣,从而给出了一种较为完善的解决方案——模拟策略的核心思想和具体实现过程,以及相关的关键技术,指出了保障数据可用性的未来研究方向。该策略通过模拟历史的硬件平台环境,较好地解决了数据仓库中大量历史数据的长期可用性问题。  相似文献   

6.
如何有效评价训练数据集的可用性,一直是困扰智能分类系统应用的难点问题。针对机器学习领域的数据分类问题,提出了一种基于区间分析和信息粒化的数据集分类可用性的评估方法,用于评价数据集的可分程度。该方法将待评估的数据集定义为分类信息系统,提出了分类置信区间的概念,通过区间分析进行信息粒化。在此信息粒化策略下,定义分类可用性的数学模型,并进一步给出单个属性以及整体数据集的分类可用性的计算方法。选择18个UCI标准数据集作为评估对象,给出了部分数据集分类可用性的评估结果,并且选取3种分类器对所选数据集进行分类实验,最终通过对上述实验结果的分析证明了该评估方法的有效性和可行性。  相似文献   

7.
数据的一致性和完整性设计在数据库开发与应用中是一个非常重要的环节。Notes非结构化数据库的特性以及提供的“继承”功能仅在创建文档时发生一次等问题容易破坏数据的一致性。本文提出了同步修改的方案,并使用了文档链指针和数据库事件的定义,充分保证了Notes数据库中数据的一致性。并在此基础上讨论Notes数据库的完整性控制问题。  相似文献   

8.
一种面向可用性的P2P数据分发方法   总被引:2,自引:0,他引:2       下载免费PDF全文
对等网络由高度动态的节点构成,节点间会话时间极端异构。对等节点频繁加入和退出导致对等网络维护开销增大,数据可用性降低。面向可用性的对等网络数据分发方法,针对热点数据和节点可用性的分析,通过增加系统中数据的副本数量,提高数据的可用性,同时减小消息扩散的范围,提高系统的效率,克服会话时间异构性。实验结果表明,该方法可以有效提高数据可用性,降低系统的维护开销。  相似文献   

9.
通过入库数据的质量检测,可以及时发现入库数据质量的好坏,在一定程度上达到避免脏乱数据漫延和扩散的目的。从数据完整性、规范性和一致性3个方面探讨了数据质量检测的方法,并介绍了3种检测方法的典型应用。  相似文献   

10.
数据库系统可用性是考察数据库系统性能的基本指标之一,对其分析通常着眼于系统的总体性能.说明了这种分析的不足,提出了数据资源可用性考察方法并应用于分布式并行数据库系统DPDBS.在对DPDBS中服务器群进行逻辑分组的基础上,从数据资源的角度量化讨论DPDBS的可用性,进而对几种常见的数据库系统数据资源可用性进行分析和比较.  相似文献   

11.
大数据集成是提供高质量数据以进行决策的基础.集成的一个关键环节是根据实体在数据库中的不同元组确定其准确属性值.最新的R-topK方法在数据上实施人工设计的规则确定属性值间的准确程度,得到了相对准确的属性值.然而这种方法在处理多个可能的准确值或设计的规则存在冲突等情况下需要较多人工交互.为此提出基于权重规则的WR(weighted-rule)方法确定大数据集成中数据的准确属性值.该方法为属性值间准确程度的判断规则扩充了权重,在准确值发生冲突时避免了R-topK方法中人工交互干预.基于追逐过程设计了约束条件推理算法,并证明它能够在O(n\\+2)内推导出每对属性值间的带权重的准确程度,形成推导准确属性值的约束条件.面对约束条件中可能的冲突,提出了目标求解算法,在O(n)时间内从所有属性值组合中搜索最可能的准确属性值.在真实和合成数据集中进行了充分的实验,验证了WR方法的效果和效率.WR方法较R-topK方法在性能上提高了3~15倍,在效果上提升7%~80%.  相似文献   

12.
网络大数据:现状与展望   总被引:22,自引:0,他引:22  
网络大数据是指“人、机、物”三元世界在网络空间(Cyberspace)中交互、融合所产生并在互联网上可获得的大数据.网络大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律,给现有的IT架构以及机器处理和计算能力带来了极大挑战.同时,也为人们深度挖掘和充分利用网络大数据的大价值带来了巨大机遇.因此,迫切需要探讨大数据的科学问题,发现网络大数据的共性规律,研究网络大数据定性、定量分析的基础理论与基本方法.文中分析了网络大数据的复杂性、不确定性和涌现性,总结了网络空间感知与数据表示、网络大数据存储与管理体系、网络大数据挖掘和社会计算以及网络数据平台系统与应用等方面的主要问题与研究现状,并对大数据科学、数据计算需要的新模式与新范式、新型的IT基础架构和数据的安全与隐私等方面的发展趋势进行了展望.  相似文献   

13.
Web大数据环境下的不一致跨源数据发现   总被引:2,自引:0,他引:2  
Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源Web数据的多源异构特性和Web大数据的5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法,并结合这两种方法的特点,基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法.该框架在Hadoop平台上对多个B2C电子商务大数据进行实验,并与传统架构和其他方法进行了比较,实验结果证明该方法具有良好的精确性和高效性.  相似文献   

14.
数据量大、数据更新速度快、数据源多样和数据存在噪声是大数据的四大特点,这为数据集成提出了新的挑战.实体解析是数据集成的一个重要步骤,在大数据环境下,传统的实体解析算法在效率、质量,特别是抗噪声能力方面的表现并不理想.为了解决大数据环境中因为数据噪声所导致的解析结果冲突,将公共邻居引入相关性聚类问题.上层预分块算法基于邻居关系设计,因而能够快速有效地完成初步分块;核概念的引入更精确地定义了节点与类之间的关联程度,以便下层调整算法准确地判断节点的归属,进而提高相关性聚类的准确度.两层算法采用较为粗糙的相似度距离函数,使得算法不仅简单而且高效.同时,由于引入邻居关系,算法的抗噪声能力明显提高.大量实验表明,两层相关性聚类算法无论在解析质量、抗噪声能力还是在扩展性方面均优于传统算法.  相似文献   

15.
大数据分析中的计算智能研究现状与展望   总被引:2,自引:0,他引:2  
郭平  王可  罗阿理  薛明志 《软件学报》2015,26(11):3010-3025
随着产业界和科学界数据量的爆炸式增长,大数据技术和应用吸引了众多的关注.如何分析大数据,充分挖掘大数据的潜在价值,成为需要深入探讨的科学问题.计算智能是科学研究和工程实践中解决复杂问题的有效手段,是人工智能和信息科学的重要研究方向,应用计算智能方法进行大数据分析具有巨大的潜力.对大数据分析中的计算智能方法进行综述,结合大数据的特征,讨论了大数据分析中计算智能研究存在的问题和进一步的研究方向,阐述了数据源共享问题,并建议利用以天文学为代表的数据密集型基础科研领域的数据开展大数据分析研究.  相似文献   

16.
计算机技术和网络的发展使得数据呈爆炸式的涌现,社交媒体不断融入到人们的生活中,社会网络分析已成为研究的热点。随着大数据时代的到来,对社交网络链接算法研究产生巨大影响,原有的基于网络结构的预测方法已经渐渐不适应现状。因此,提出了一种基于主题模型的社交网络链接预测方法。首先以微博社交网络为数据源,将实验网络分为测试集和训练集;其次利用主题模型得到用户的主题特征,结合命名实体集和用户联系特征集合得到用户的兴趣特征相似性度量,加上网络结构相似性从而得到用户节点相似度,进而对社交网络链接进行预测;最终使用链接预测最常用的评价体系AUC来评价链接预测方法的效果。通过实验验证,该方法的预测准确率更高。  相似文献   

17.
大数据分析平台是开展大数据处理与分析应用所必需的基础设施。文章基于课题组开展大数据分析平台建设的科研成果与实践经验,结合大型企业实施行业应用项目的切身感受,从大数据分析平台设计、主流热点技术、行业应用案例三个方面进行介绍。文章首先分析了大数据分析平台的主要功能和体系架构,然后介绍了大数据分析平台的关键技术,重点介绍了 Spark技术的体系架构及核心组件,最后介绍了大数据技术在大规模制造业、零售业和智能电网三个领域的应用案例。  相似文献   

18.
网站可用性分析的主要依据是用户的背景信息、主观数据和客观数据。目前 ,获得用户数据的主要途径是分析服务器端的 Log文件。根据所要分析数据类型的不同 ,在介绍 L og文件分析的同时 ,对几种主要用户数据的分析方法作了综合介绍  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号