首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 234 毫秒
1.
Web大数据环境下的不一致跨源数据发现   总被引:2,自引:0,他引:2  
Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源Web数据的多源异构特性和Web大数据的5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法,并结合这两种方法的特点,基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法.该框架在Hadoop平台上对多个B2C电子商务大数据进行实验,并与传统架构和其他方法进行了比较,实验结果证明该方法具有良好的精确性和高效性.  相似文献   

2.
如何从数量众多的Web数据源集合中选择数量合适的数据源,使得在满足特定查询需求的前提下尽可能地减少访问数据源的数量,是Web大数据系统集成中的关键问题之一。提出了一个两阶段数据源选择方案:第一阶段通过各个数据源模式与中间模式的相似度选择与查询相关度高的数据源,通过计算依赖数据源的质量来选取质量较好的数据源;第二阶段基于最大熵理论计算数据源之间的重复率,设计实现了一个查询最小代价模型动态选择数据源算法。最后在实验平台上对算法进行了评估,实验表明该算法具有较高的效率与扩展性。  相似文献   

3.
数据质量评估方法研究   总被引:24,自引:0,他引:24  
数据质量管理已经成为当今数据管理的关键问题,并得到了广泛的研究和应用。数据质量评估作为数据质量管理中的必要过程和基础部分,目前缺乏一种定量的系统的方法。针对数据质量评估中的这一问题,该文介绍了一些基本的数据质量评估指标,提出了一种数据质量评估模型,并阐述了该模型的构造技术和计算方法。  相似文献   

4.
Deep Web技术使得大量隐藏在接口背后的有用信息更容易被用户查找到.然而,随着数据源的增多,如何从众多的数据源中快速地找到合适的结果这一问题变得越来越重要.通过传统的链接分析方法和相关性评估方法来对数据源进行排序,已经不能满足高精度的要求.提出一种通过抽样方法和数据质量评估来判断数据源的优劣性的算法.本文提出的抽样方法,改进了分层抽样和雪球抽样,使得在较少的样本点时,能够准确的反映整体特征.定义了能基本反映数据源的优劣程度的6个主要质量标准,并给出计算方法;通过质量标准,结合权重向量来量化数据源的质量.实验通过对数据源进行抽样分析,求解数据源得分的期望值,并根据该期望值对数据源进行了整体排序.结果表明,利用抽样对数据源的数据质量进行估计和评分,具有很好的准确性和可操作性.  相似文献   

5.
随着Web2.0技术的快速发展,社交网络、物联网、移动互联网等新兴服务行业日益涌现,Web数据呈爆炸式增长,成为炙手可热的“大数据”。Web大数据巨大的价值使得越来越多的人开始关注,如何获取Web数据并进行挖掘利用。在大数据的环境下,Web数据呈现出规模大、种类多、数据流高速性等特点,使得Web数据抽取与集成,数据分析,数据解释等方面的研究更加深入,与此同时,Web大数据的集成与挖掘仍存在着数据规模、数据多样性、数据时效性、隐私保护等方面的挑战。  相似文献   

6.
大数据技术及应用创新促进了数据的业务化。从数据中发现问题到解决问题、从业务支撑到业务创新、从商业智能到决策指引,数据与业务相伴相生,大数据环境下的机遇与风险共存。通过对当前国内外数据治理理论、方法和新的应用需求分析,提出大数据环境下的数据治理框架,包含数据治理目标、治理保障、治理域和治理方法论等。并分析大数据治理框架的应用,对组织开展大数据环境下的数据治理具有重要的参考价值和意义。  相似文献   

7.
网络技术的发展使得Web环境下的信息系统迅速增加。传统开发模式中,系统数据过滤代码不能复用、处理效率低,并且开发工作量大,影响系统开发效率。本文提出了新的数据过滤方法,把数据过滤程序与系统功能页面分离,将过滤程序文件布置到服务器端。要过滤的数据由数据过滤函数一次性进行数据过滤并反馈数据过滤结果以及提示信息。该数据过滤方法实现了信息系统数据过滤的灵活定制和软件复用,减少了开发人员的重复工作。  相似文献   

8.
目前电力大数据的质量不高,提高电力大数据的质量有利于提高电网智能化水平.根据对电力系统数据质量评估流程及架构的分析,提出了MapReduce并行化的K-means算法,用于对大数据进行分类处理;构建了电力大数据评价指标体系;采用熵权法确定电力大数据的指标权重;最后通过灰色评估方法求取数据质量评价等级.最后对所提方法进行...  相似文献   

9.
集成Web 数据的系统框架与实现方法   总被引:5,自引:0,他引:5  
基于我们正在研究和开发的项目Panorama,本文提出了一个基于XML和CORBA的Web数据集成系统框架,该框架可以集成来自Web上多个异构的数据源,包括关系数据库、面向对象数据库,HTML和XML文档及结构化文本文件。在系统实现中,把Web看作是一个巨大的虚拟数据库,以CORBA作为分布式对象模型,以XML作为公共誓据模型,并且以XML-QL作为全局查询语言来完成Web上的数据查询和集成。文中还详细分析和描述了系统框架中的一些主要模块的实现方法,具有很好的可操作性。  相似文献   

10.
Web中大量可访问的数据源为人们获取有用的信息带来了极大的便利。作为Web数据源集成的一个必要的步骤,需要将存在于不同数据源表达形式各异的重复Web实体准确地识别出来。在已有的重复实体识别的工作中,主要是在两个数据源之间进行。由于Web数据源数量众多,使得这些方法无法应用于多个Web数据源之间的重复实体识别。针对这个问题提出了一种基于迭代训练的Web重复实体识别方法,可以在较小规模的训练样本上实现在多个Web数据源上的重复实体识别。通过在图书和计算机产品两个不同领域中多个Web数据源上的广泛实验,表明了提出方法的有效性。  相似文献   

11.
首先,对大数据时代下大众广泛深度交互的互联网环境进行了分析;其次,提出并释义了网络群体智能,指出网络群体智能具有"网络数据驱动,交互形式复杂,网络效应强大,知识生产为主,不确定性认知"等特性;然后,提出网络群体智能研究方法,该研究方法以复杂性科学方法论为指导,坚持融贯论,以复杂性科学、网络化数据挖掘和不确定性人工智能为支撑理论方法,突出网络群体智能特色和多学科交叉融合研究,采用系统分析、建模分析和仿真分析相结合技术途径从结构和动力学视角对网络群体智能科学问题进行多尺度多层次研究,解决网络群体智能研究理论方法不足的问题,深化了对网络群体智能和社会计算的认识。  相似文献   

12.
Web论坛数据源增量爬虫的研究   总被引:1,自引:0,他引:1       下载免费PDF全文
针对Web论坛站点结构复杂、内容更新快等特点,提出一种针对论坛的增量信息采集算法,使用站点地图重建技术及网页更新频繁度估计方法,根据站点地图选择有效的链接,按照网页更新频度确定网页的采集频度。实验结果表明,该方法是有效的。  相似文献   

13.
深网数据源质量估计模型   总被引:3,自引:1,他引:3       下载免费PDF全文
为从海量深网中获得有价值的信息,提出一种深网数据源质量估计模型,综合考虑接口查询能力、接口页面质量和服务质量3方面因素,采用SVM和Ranking SVM机器学习方法得到质量估计函数。实验结果表明,该估计函数得到的数据源质量排序序列和人工排序序列的Kendall's τ距离超过0.5,且获得较高的精度。  相似文献   

14.
大数据背景下的数据通信调度方法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
大数据背景下,传统数据通信调度方法研究由于预测要素引入面窄、预测算法逻辑同意性差,导致数据调度出现数据调度断层现象;针对上述问题,提出大数据背景下数据通信调度3+1集成法设计;采用3+1集成法,通过CPU信号强度波动算法、处理器数据节点动态数检测技术、电频信号转换算法与快速执行代码,解决传统的数据通信调度过程中的数据响应慢、数据调度断层的问题;通过仿真实验证明,提出的大数据背景下数据通信调度3+1集成法具有数据调度速度快、资源开销小、调度数据准确度高的特点。  相似文献   

15.
笔者介绍了隐私保护的几个方面,首先是传统的隐私保护技术,重点介绍了匿名技术。其后介绍了隐私保护的新兴概念——差分隐私。差分隐私模型是一种被广泛认可的严格的隐私保护模型,它通过向数据集里添加随机噪声,来影响攻击者窃取数据中的敏感信息,它不依赖攻击者的背景知识,并且可以定量分析隐私泄露的风险。  相似文献   

16.
基于开源源码大数据进行代码生成、缺陷预测等是当前智能化软件开发方法与技术的重要研究内容。然而现有的关注点主要聚焦于各种推荐、预测等智能算法的研究,较少对研究所使用数据的质量进行评估与分析。大部分智能化软件开发研究的数据来源于开源数据托管平台,受限于开发者自身水平,它们并不能保证都具有较高质量。根据"garbage in,garbage out",这会影响最终结果质量。源码数据的质量对相关的研究有重要影响,却没有得到足够的重视。针对上述问题,提出了一种面向开源源码大数据的方法块数据质量评估方法。首先研究如何定义和评估GitHub上抽取的源码的数据质量问题,然后对开源源码从不同维度进行质量评估。通过该源码数据质量评估方法可以帮助相关研究人员构建具有更高质量的数据集,进而提高智能化相关研究,比如代码生成、缺陷预测等的结果质量。  相似文献   

17.
基于Web的教学质量测评系统研究   总被引:3,自引:0,他引:3  
教学质量测评是一项主观性很强的工作.通过分析高校教学质量测评系统普遍存在的局限和待解难题,运用先进的网络技术和模糊综合评判数学模型,在校园网络环境下设计并实现了基于Web的教学质量测评系统.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号