首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
大数据平台具有开放性和共享性,但随着数据量不断增加且用户访问上下文环境复杂多变,RBAC模型难以满足大数据环境下细粒度、灵活的访问控制。针对这一问题,提出了大数据平台下多源异构数据的访问控制模型。该模型根据属性动态地确定角色权限,并构建基于数据组的层次结构,实现数据属性的简单管理。对该模型进行了形式化定义,阐述了在 Hadoop 平台中的实现和工作流程,并通过实验验证了所提方案的性能开销相对较小。  相似文献   

2.
Web大数据环境下的不一致跨源数据发现   总被引:2,自引:0,他引:2  
Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源Web数据的多源异构特性和Web大数据的5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法,并结合这两种方法的特点,基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法.该框架在Hadoop平台上对多个B2C电子商务大数据进行实验,并与传统架构和其他方法进行了比较,实验结果证明该方法具有良好的精确性和高效性.  相似文献   

3.
时空轨迹大数据蕴含着丰富的信息,值得深入挖掘探索。对海量时空轨迹数据的有效挖掘、利用依赖于完善的数据预处理模型。为解决多源融合、误差容错和性能优化等挑战,本文提出了位置位图模型。位置位图模型基于抽象的离散时空观建立概念构件体系,并在概念构件体系中定义运算算子体系,从而形成完整的时空预处理能力。本文还提出了位置位图模型在实际数据库系统中的具体的编码实现方法,该方法包括位区编码、时段选择、位串编码、运算实现和位图数据维护等环节。位置位图模型被用于改造真实的“经纬”时空大数据分析系统,改造效果表明位置位图模型不仅能够改善业务开发难度,还可以优化计算性能,降低存储开销。  相似文献   

4.
由于电力输变电工程数据多源、异构、迭代更新,需巨大存储空间,且数据挖掘分析难度大,据此本文基于遗传算法设计了分布式数据存储框架与数据迁移.此框架以源数据模型为载体,详细划分电力输变电工程地理信息、三维设计模型、文档资料数据,基于不同数据存储模型,构建了分布式存储框架以进行不同类型数据处理.通过遗传算法可实现海量数据迁移...  相似文献   

5.
在智慧城市领域中,随着信息化技术的不断深入,各信息系统产生的海量数据不断增长,这些多源异构数据之间的语义互通成为了城市智能应用开发需要解决的重要问题之一。构建知识图谱是解决数据语义互通的常用手段之一。在建立知识图谱本体模型后,图谱实例模型的构建演化就成为支撑基于图谱的各类应用的关键技术。为此,如何将不断更新的数据源中的知识实例尽可能自动化地扩充到知识图谱中,成为了图谱构建的首要问题。现有的一些知识实例生成工具对数据导入的支持力度不足,用户需要对源数据进行复杂的预处理,将其转化为符合平台支持的导入数据格式。这导致预处理工作量大,且不能迅速地应对数据不断更新增长的情况。由于智慧城市领域中信息系统所产生的数据多为结构化或半结构化数据,文中提出一种增量式本体模型与数据模式映射的图谱实例模型构建演化方法,面向结构化或半结构化数据生成实例,并随着数据的更新,实现图谱实例模型的增长与演化。文中方法结合机器推荐与人机协同交互设计,针对不同数据源的特征抽取知识并将其正确地映射到本体模型中的概念实体上,实现领域知识图谱实例模型的增量扩充;并通过实体对齐、关系补全等方法,支持实例模型的持续演化。文中方法在企...  相似文献   

6.
王雪蓉  万年红 《计算机应用》2017,37(4):1038-1043
目前流行的外贸产品销量预测方法单纯地分别从第三方平台或大数据角度研究预测问题,对互联网平台、跨境电商、大数据融合应用于产品销量动态演化预测的考虑不足。为提高出口产品销量预测效果,实现预测系统的伸缩性和动态演化性,基于研究"互联网+外贸"环境下跨境电商出口产品销量可控关联性大数据挖掘、个性化预测机制、智慧预测算法,改进分布式定量、集中式定性计算等相应算法,提出一个"互联网+外贸"驱动下基于跨境电商可控关联性大数据的出口产品销量动态预测模型,并进行了应用实验,对各种模型的实验结果进行对比分析。实验结果表明,该模型充分融合了"互联网+"的开放性、可延伸性和大数据动态预测优势,实现了"互联网+外贸"环境下基于跨境电商可控关联性大数据的出口产品销量动态、智慧、定量定性预测。该模型综合预测效果明显优于传统模型,具有较强的动态演化性和较高的实用价值。  相似文献   

7.
建设智慧城市可有效提升城市治理与运行能力、打破城市发展困境。为探索如何基于物理-数字空间交融中的时空大数据提供面向城市管理的智能服务,该文在解析多源、多维、异构时空大数据语义关系的基础上,提出多源时空大数据透明融合框架。为实现这一目标,该文进一步提出“城市信息单元”的概念作为构建物理-数字空间交融的数据组织基础,首先,对多源、多维、异构时空大数据进行主动汇集、语义解析,完成地理知识时空构建,依据唯一数据编码,将数据信息映射至城市信息单元;然后,建立数据匹配模型和关联模型,搭建数据透明融合框架,结合多源异构数据要素匹配技术,构建时空数据透明融合规则库;最后,在众多融合方法的支持下,实现城市实体与时空多源时空数据的透明融合。借助城市信息单元与数据编码,实现城市实体与时空大数据动态融合方法体系,进而为用户提供智能化信息服务。  相似文献   

8.
《计算机工程》2017,(2):48-56
在大数据环境下Web数据资源的开放性和多源性使得不同互联网平台提供的数据质量参差不齐,严重影响人们从互联网中有效准确地获取信息。为此,提出一种Web数据源质量评估方法。建立面向多源互联网平台的统一数据模型和数据质量标准模型,给出针对大数据全样本数据分析的质量标准度量和表示方法,并通过多维数据质量的综合评估实现Web数据源质量的统一度量。实验结果表明,该方法能全面度量互联网平台的数据质量,为用户提供准确高效的质量评价结果。  相似文献   

9.
李卫榜  李战怀  陈群  杨婧颖  姜涛 《软件学报》2016,27(8):2068-2085
关系数据库中可能存在数据不一致性现象,关系数据库数据质量的一个主要问题是存在违反函数依赖情况.为找出不一致数据,需要进行函数依赖冲突检测.集中式数据库中可以通过SQL技术检测不一致情况,尽管检测效率不高;而分布式环境下不一致性检测更富有挑战性,不仅需要考虑数据的迁移,检测任务如何分配也是一个难题.在大数据背景下,上述问题更加突出.提出了一种分布式环境单函数依赖不一致性检测方法,给出了不一致性检测响应时间代价模型.为减少数据迁移量和响应时间,基于等价类对待检测数据进行预处理.由于分布式环境不一致性检测问题为NP-hard问题,多项式时间内难以得到最优解,给出了代价模型的多项式时间3/2-近似最优解.提出了一种分布式环境多函数依赖不一致性检测方法,基于最小集合覆盖理论,通过一次数据遍历,对多个函数依赖进行并行批检测,同时考虑检测过程中的负载均衡等问题.在真实和人工数据集上的实验表明:相对于传统的检测方法以及基于Hadoop的Naïve方法,所提出的检测方法检测效率有明显的提升,且扩展性能良好.  相似文献   

10.
王峰 《计算机测量与控制》2017,25(5):173-175, 179
近年来,随着经济领域蓬勃发展,我国加快了现代化建设进程,交通设施建设不断推进;受互联网大数据技术变革的影响,传统地铁售检票系统无法满足高客流量、大数据流处理的高强度工作要求;在日常实践应用中,传统地铁售检票系统经常出现检票识别率低、售票信息运算处理响应速度慢、多人员、多任务操作执行准确率差的问题;针对上述问题,结合大数据资源运算能力,提出大数据环境下地铁自动售检票系统设计;采用大数据实名高检处理引擎(VBDKG)、多路分处运算模组(ICGRU)与动态身份比对算法(DBTDE),针对传统地铁自动售检票系统存在的问题进行解决;通过仿真实验测试证明,提出的大数据环境下地铁自动售检票系统设计具有较强的实施性与可操作性;同时,运行处理准确性高,运行稳定。  相似文献   

11.
屠要峰  牛家浩  王德政  高洪  徐进  洪科  阳方 《软件学报》2023,34(3):1213-1235
大数据成为国家基础性战略资源,数据的开放共享是我国大数据战略的核心.云原生技术和湖仓一体架构正在重构大数据基础设施,并推动数据共享和价值传播.大数据产业和技术的发展都需要更强的数据安全和数据共享能力.然而,开放环境下数据的安全问题已成为制约大数据技术发展与利用的瓶颈.无论开源大数据生态还是商业大数据系统,所引发的数据安全及隐私保护问题都日益凸显.开放大数据环境下的动态数据保护系统面临着数据可用性、处理高效性和系统可扩展性等方面的挑战.提出了面向开放大数据环境的动态数据保护系统BDMasker,通过一种基于查询依赖模型(querydependencymodel)的精准查询分析及查询改写技术,能够精准感知但不改变原始业务请求,实现动态脱敏全过程对业务零影响;通过面向多引擎的统一安全策略框架,实现了动态数据保护能力的纵向扩展和在多种计算引擎中的横向扩展;利用大数据执行引擎的分布式计算能力,提升系统的数据保护处理性能.实验结果表明, BDMasker提出的精准SQL分析及改写技术是有效的,系统具有良好的扩展能力和性能表现,在TPC-DS和YCSB基准测试中,整体性能波动在3%之内.  相似文献   

12.
Big data has become a national basic strategic resource, and the opening and sharing of data is the core of China''s big data strategy. Cloud native technology and lake-house architecture are reconstructing the big data infrastructure and promoting data sharing and value dissemination. The development of the big data industry and technology requires stronger data security and data sharing capabilities. However, data security in an open environment has become a bottleneck, which restricts the development and utilization of big data technology. The issues of data security and privacy protection have become increasingly prominent both in the open source big data ecosystem and the commercial big data system. Dynamic data protection system under the open big data environment is now facing challenges in regards such as data availability, processing efficiency, and system scalability. This paper proposes the dynamic data protection system BDMasker for the open big data environment. Through a precise query analysis and query rewriting technology based on the query dependency model, it can accurately perceive but does not change the original business request, which indicates that the whole process of dynamic masking has zero impact on the business. Furthermore, its multi-engine-oriented unified security strategy framework realizes the vertical expansion of dynamic data protection capabilities and the horizontal expansion among multiple computing engines. The distributed computing capability of the big data execution engine can be used to improve the data protection processing performance of the system. The experimental results show that the precise SQL analysis and rewriting technology proposed by BDMasker is effective. The system has good scalability and performance, and the overall performance fluctuates within 3% in the TPC-DS and YCSB benchmark tests.  相似文献   

13.
随着大数据时代的到来,图作为一种表示和分析大数据的有效方法,正成为学术界和工业界广泛关注的焦点.图数据具有规模巨大、耦合性强、动态变化等特点,需要新的计算模型支持高效的图计算系统对大规模图数据进行处理.对图计算系统计算模型的研究现状进行了调研和综述,首先介绍图计算系统的产生和发展,然后将主流图计算系统中的计算模型按照计算对象分为:结点中心计算模型、边中心计算模型、路径中心计算模型和子图计算模型四类,重点介绍结点中心模型的应用和性能,最后对图计算模型的发展过程进行总结,并展望图计算模型未来发展方向.  相似文献   

14.
在大数据时代,数据不仅类型多样、结构复杂还具有动态变化的特点,传统的分析工具已经不能满足大数据分析的需求。如何快速有效地从大规模数据中获取有价值的信息成了一个具有挑战性的问题。一些学者将粗糙集属性约简理论与其他理论相结合,从而可以有效地处理高维动态的海量数据。重点对基于并行计算、增量学习、粒计算的属性约简算法进行分类总结,分析了它们各自的特点,剖析了当前研究中存在的问题,展望了未来研究的重点关注方向。  相似文献   

15.
为解决大数据处理的瓶颈,分析了大数据及云计算的关键技术,论述了大数据和云计算之间的关系,利用云计算在数据存储、数据管理和虚拟化等方面的技术优势,构建了基于云计算的大数据管理和处理模式,为大数据的研究及应用提供了新的思路和技术基础。  相似文献   

16.
针对现有农产品信息服务存在的数据质量低、整合难、流通差等问题和大数据时代的工作要求,依托物联网、大数据、云计算等技术,设计一种基于大数据的农产品信息服务云平台.数据获取层主要利用物联网感知采集数据,在大数据中心完成数据转换、处理、分析,通过应用层可视化展示实现"4A"应用.平台进行云化管理,为不同参与主体提供按需服务,...  相似文献   

17.
应毅  任凯  刘亚军 《计算机科学》2018,45(Z11):353-355
传统的日志分析技术在处理海量数据时存在计算瓶颈。针对该问题,研究了基于大数据技术的日志分析方案:由多台计算机完成日志文件的存储、分析、挖掘工作,建立了一个基于Hadoop开源框架的并行网络日志分析引擎,在MapReduce模型下重新实现了IP统计算法和异常检测算法。实验证明,在数据密集型计算中使用大数据技术可以明显提高算法的执行效率和增加系统的可扩展性。  相似文献   

18.
为了方便油藏数据特征的分析和石油的勘探开发过程,本文利用Spark并行计算框架分析油藏数据,并通过数据挖掘算法分析油藏属性之间的潜在关系,对油藏的不同层段进行了分类和预测.本文的主要工作包括:搭建Spark分布式集群和数据处理、分析平台,Spark是流行的大数据并行计算框架,相对传统的一些分析方法和工具,可以实现快速、准确的数据挖掘任务;根据油藏数据的特点建立多维异常检测函数,并新增渗孔比判别属性Pr;在处理不平衡数据时,针对逻辑回归分类提出交叉召回训练模型,并优化代价函数,针对决策树,提出KR-SMOTE对小类别样本进行过采样扩充,这两种方法都可以有效处理数据不平衡问题,提高分类精度.  相似文献   

19.
基于Spark的大数据混合计算模型   总被引:2,自引:0,他引:2  
现实世界大数据应用复杂多样,可能会同时包含不同特征的数据和计算,在这种情况下单一的计算模式多半难以满足整个应用的需求,因此需要考虑不同计算模式的混搭使用。混合计算模式之集大成者当属UCBerkeley AMPLab的Spark系统,其涵盖了几乎所有典型的大数据计算模式,包括迭代计算、批处理计算、内存计算、流式计算(Spark Streaming)、数据查询分析计算(Shark)、以及图计算(GraphX)。 Spark提供了一个强大的内存计算引擎,实现了优异的计算性能,同时还保持与Hadoop平台的兼容性。因此,随着系统的不断稳定和成熟, Spark有望成为与Hadoop共存的新一代大数据处理系统和平台。本文详细研究和分析了Spark生态系统,建立了基于Spark平台的混合计算模型架构,并说明通过spark生态系统可以有效地满足大数据混合计算模式的应用。  相似文献   

20.
吴珺  王春枝 《计算机科学》2017,44(Z11):407-410, 421
当前日益增长的大数据备受青睐,大数据的核心是数据分析。然而聚焦大数据的动态、多维特性,传统数据分析方法难以获取可靠且准确的分析结果,数据分析方法面临着重要的发展机遇和严峻的挑战。对动态大数据的多维关联性分析问题进行研究和探讨,以动态大数据为研究对象,以粒计算(Granular Computing,GrC)理论为研究基础,提出粒矩阵思想,研究构建面向动态大数据的粒矩阵方法,分析粒矩阵的逻辑约简运算,确定了基于粒矩阵的动态大数据多维关联性分析模型。本文旨在为高效利用动态大数据进行多维关联性分析和揭示数据隐含的客观规律提供科学依据,对大数据的可持续发展也具有重要意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号