首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
随着数据规模的日益庞大,在大规模数据集中帮助用户定位出数据量可控的代表性信息显得越发重要。虽然Top-k Skyline查询能够找到数据集中前k个最具代表性的信息,在获取代表性信息的同时又控制了结果规模,满足了上述要求,但是现有的Top-k Skyline查询在面对大规模数据集时效率较低,并不适用于大规模数据集。为了解决这个问题,将Top-k Skyline查询与并行化处理相结合,提出了一种面向大规模数据集的并行化Top-k Skyline查询算法PTKS(parallel Top-k Skyline),通过充分利用分布式资源,将原有查询进行有效的并行化处理,同时设计了基于用户偏好的用于缩减结果数据量的筛选规则,满足用户需求。在真实数据集上进行了相关实验,并与现有方法进行了对比,结果表明PTKS在大规模数据集上的查询效率更具有优势,能很好地适用于大规模数据集。  相似文献   

2.
雾计算作为云中心在网络边缘的延伸,将不需要放在云端的数据直接进行存储和处理,从而可以快速响应底端设备的需求。为了解决现有方案中频繁的磁盘输入和输出(I/O),针对雾节点中存储数据的冗余问题,提出重复数据删除方案(DeFog)。利用红黑树的快速查找机制,在内存中构建数据指纹表,通过二次Hash获得索引表。固定时刻刷新内存中的指纹表保存在磁盘中,日志文件记录每次数据更新,这样在系统发生崩溃机器重启时,磁盘中的指纹表会与日志文件合并构建更新后的指纹表。通过在标准数据集中的实验与其他方案进行对比,证明了DeFog在查询效率上提高了54.1%,运行时间降低了42.1%。  相似文献   

3.
随着电商平台的快速发展,物流行业增长迅猛,其中物流服务平台的访问日志能够反映用户的行为规律,从而挖掘潜藏信息助力物流服务平台优化业务已至关重要.目前,针对于此类大规模日志数据处理提出了更高的实时性需求,本文综合考量多种实时计算的流处理框架、大规模存储数据库以及日志采集工具等,选取Flume及Kafka作为日志采集工具与消息队列,并利用Flink及HBase进行流数据实时计算以及大规模数据存储.同时,对平台设计了数据去重、异常告警、容错策略以及负载调度的功能.经实验测试证明,本处理平台可以有效处理物流服务平台的日志数据,具有较强的创新思路以及实际价值.  相似文献   

4.
数据之间存在相互引用关系,在进行数据开发时,通常存在一些具有高热度的数据,此类数据被其他数据大量引用,它们的缺陷往往会给整个大数据平台产出的数据结果带来极大影响。因此,对高热度数据进行预测并予以相应保护至关重要。面向基于数据热度的数据分级治理需求,提出一种采用数据血缘的数据热度预测方法。首先通过构建数据系统中的数据血缘捕获数据节点之间的引用关系;然后,提取数据血缘的时间和结构特征,并采用图卷积网络(GCN)进行数据血缘图特征的学习;最后,提出一种数据血缘传播趋势分层读出的方法读出图特征,对数据热度进行预测。在浙江中烟营销系统数据集ZJZY-SL和高能物理现象学相关论文引文数据集(HEP-PH)上的实验结果表明,相较于DeepCCP等方法,所提方法的识别准确率分别提升7.64、2.88个百分点,平均F1分别提升4.7、4.34个百分点。所提方法能充分挖掘数据在被引用早期的数据血缘特征,并预测数据节点未来的热度。  相似文献   

5.
移动社交网络等基于定位服务应用的快速发展导致时空数据流规模呈爆炸式增长,要求底层数据存储系统支持高吞吐量轨迹数据的插入以及空间和时间约束下的低延迟查询,而现有HBase等数据存储方案因索引更新开销过高无法满足该需求。针对时空数据流的应用特性,提出一种数据流内存索引及存储方法。根据键值和时间范围对历史与增量数据元组进行物理分区,将其以模板B+树的形式写入内存并构建索引以增强快速写入和查询能力,同时对数据进行压缩存储提升索引效率。在此基础上,采用多级索引根据数据分区将复杂查询分解为可独立处理的子查询。实验结果表明,与传统HBase、WaterWheel等方法相比,该方法在不同数据插入和查询条件下的数据存储性能与查询效率更优。  相似文献   

6.
现有的基于DHT的P2P系统只能通过精确匹配整个数据识别器来查询数据。但用户一般只有部分信息可以确认这些信息,为了在用户需求和基于DHT的P2P系统能力间架起一座桥梁,本文提出了一种新的索引和查询数据的方法。这种方法在数据的XML描述上建立了DHT索引,并方便了Xpath表达式的复杂查询。  相似文献   

7.
面向真实云存储环境的数据持有性证明系统   总被引:1,自引:0,他引:1  
肖达  杨绿茵  孙斌  郑世慧 《软件学报》2016,27(9):2400-2413
对数据动态更新和第三方审计的支持的实现方式是影响现有数据持有性证明(provable data possession,简称PDP)方案实用性的重要因素.提出面向真实云存储环境的安全、高效的PDP系统IDPA-MF-PDP.通过基于云存储数据更新模式的多文件持有性证明算法MF-PDP,显著减少审计多个文件的开销.通过隐式第三方审计架构和显篡改审计日志,最大限度地减少了对用户在线的需求.用户、云服务器和隐式审计者的三方交互协议,将MF-PDP和隐式第三方审计架构结合.理论分析和实验结果表明:IDPA-MF-PDP具有与单文件PDP方案等同的安全性,且审计日志提供了可信的审计结果历史记录;IDPA-MF-PDP将持有性审计的计算和通信开销由与文件数线性相关减少到接近常数.  相似文献   

8.
海量结构化数据存储检索系统   总被引:4,自引:0,他引:4  
Big Data是近年在云计算领域中出现的一种新型数据,传统关系型数据库系统在数据存储规模、检索效率等方面不再适用.目前的分布式No-SQL数据库可以提供分布式数据存储环境,但是无法支持多列查询.设计并实现分布式海量结构化数据存储检索系统(MDSS).系统采用列存储结构,采用集中分布式B+Tree索引和局部索引相结合的方法提高检索效率.在此基础上讨论复杂查询条件的任务分解机制,支持大数据的多属性检索、模糊检索以及统计分析等查询功能.实验结果表明,提出的分布式结构化数据管理技术和查询任务分解机制可以显著提高分布式条件下大数据集的查询效率,适合应用在日志类数据、流记录数据等海量结构化数据的存储应用场合.  相似文献   

9.
城轨线网数据中心汇集多条线路数据,单表记录量达数十亿条,当前系统数据查询响应时间过长、效率低下.提出利用数据库集群及中间件优化系统架构突破单库存储与处理瓶颈,多节点并行处理提升查询速度.按线路水平切分数据等方法,保证JOIN操作的局部性,满足新线路扩展需求;利用表分区、索引、物化视图、SQL语句优化等技术优化单机查询.其中,针对集群数据透明访问系统架构,设计专用数据库访问中间件,解决查询解析、路由及结果合成等关键问题.以广州城轨线路数据为例进行实验,结果表明通过本文方法各类查询响应时间至少降低90%.  相似文献   

10.
针对跨数据库平台、跨操作系统平台、跨硬件平台数据交互需求,提出一种基于日志解析的数据交互复制模型。该模型通过对数据库Redo日志的分析与定位,从中抽取增量变化日志数据,然后采用并行同步传输的方式将抽取的日志数据传输到预处理端,在预处理端进行原始数据的事务合并处理,然后在装载发布端通过数据订阅的形式获取预处理端的队列数据,数据内容放入本地缓存队列文件,最后对本地缓存队列文件进行数据转换、数据装载入库,从而实现数据交互复制。通过测试对比分析,验证了该模型不但可以保证两端数据一致性,而且还具有较低的数据复制延时。  相似文献   

11.
针对当前防火墙存在的安全问题,分析并比较现有防火墙安全测评方法,提出了一种基于日志挖掘的防火墙安全测评方法.基于现有标准和实际安全需求,提取防火墙安全测评指标体系,并采用相应的日志挖掘算法,发掘出关联数据,再利用测评分析算法,分析防火墙的安全策略是否符合相应指标要求,为其安全整改提供参考建议.该方法借鉴了数据挖掘的思想,审计日志分析也能够真实反映防火墙的安全问题,同时通过改造决策树算法,优化了安全测评的效率.实验结果表明,提出的测评方法能够有效分析防火墙的配置策略问题.  相似文献   

12.
时序不变式反映了事件间的时序逻辑关系,被广泛应用于异常检测、系统行为理解、模型推理等技术.在实际使用中,一般通过分析软件系统的日志数据挖掘时序不变式.相比全序日志,偏序日志可为挖掘算法提供更为准确的数据来源.但是,现有的基于偏序日志的时序不变式挖掘方法存在效率较低等问题.为此,以系统执行路径为数据来源,提出了一种基于集...  相似文献   

13.
张宏鑫  盛风帆  徐沛原  汤颖 《软件学报》2016,27(5):1174-1187
随着我国移动互联网的迅猛发展,如何从海量移动终端日志数据中提取出有效信息,并进行合理、清晰的可视化分析,为工业界等提供有价值的统计分析功能显得尤为重要.目前,对于移动终端日志数据的研究和分析多是基于对单一属性的统计结果分析,如应用下载排行、用户留存率等.为了进一步挖掘移动终端日志数据背后深层次的隐含信息,更加准确地概括出移动终端用户的特征,提出了一种基于移动应用程序日志数据的人群特征分析与画像计算方法,构造了基于移动应用程序数据的主题模型,并将移动设备用户按照与不同应用主题的相关度进行聚类,得到了具有不同特征的人群,从而提出了基于层次气泡图和Voronoi Treemap的可视化展现与分析方案.进一步将人群特征与时间信息、地理位置信息相结合,从多角度可视化展现人群特征.最后,根据该研究内容,实现了B/S架构的日志数据可视化分析原型系统,并通过案例分析验证了该方法的有效性.  相似文献   

14.
为了从海量的日志数据中审计分析安全事件,并进行事件溯源,文章提出基于知识图谱驱动的网络安全等级保护日志审计分析模型。该模型将安全、运维、数据分析和等级测评数据融合进行日志数据增益;将服务器、网络设备和安全设备作为本体构建节点;将业务数据流作为连接两个节点的关系,业务数据流的方向作为关系的方向。从安全管理中心、安全计算环境、安全区域边界和安全通信网络4个方面构建相应的网络安全等级保护日志知识图谱,实现网络日志的高效关联和深度挖掘分析,可以不需要对问题进行精确建模而在数据上直接进行分析和处理,适用于进行网络安全日志的大数据分析,为大规模复杂日志审计分析的求解提供了一种有效手段。  相似文献   

15.
为提高大数据存储过程的审计效率,提出基于有限域代数签名分治表远程数据检查RDC的云计算大数据存储审计方法。首先,通过使用外包文件的代数签名,利用底层字段算术运算完成云存储中数据完整性的远程检测,所提数据审计方法对客户端和云服务端具有相对较低的计算和通信成本。其次,设计了分治表D&CT作为一种新的数据结构,以有效地支持动态数据操作,如插入、追加、删除和修改操作。采用D&CT方法可令所提RDC方案适用于各种大小的文件云存储过程分析。最后,通过仿真实验,验证了所提方法在大数据云存储过程中的有效性。  相似文献   

16.
物流监控中的蜂窝无线定位   总被引:1,自引:0,他引:1  
利用现有的蜂窝网络,通过测量车栽移动终端的位置特征参数TOA和TDOA,结合扇区信息进行数据融合,构造一种基于移动台位置的动态定位算法,提出一种改进型数据融合模型.详细分析基于TDOA的Chan算法及特点,对Chan算法计算过程的中间阶段数据进行数据融合,通过定义可信度函数,从而实现一种蜂窝网络定位新方法.本文的定位方法为物流企业业务的监控和优化提供有力的技术支持.  相似文献   

17.
数据库审计是数据库安全的重要组成部分,包括日志记录和日志分析两部分。在SQL Server数据库中,使用审计功能只能获取审计跟踪的信息,并不具备日志分析的能力。针对SQL Server数据库审计功能的不足,给出了一个数据库安全审计系统MyAudit的设计和实现。MyAudit系统使用误用检测方法进行审计分析,能够检测出攻击企图、伪装攻击两种类型的数据库攻击。  相似文献   

18.
气象资料业务系统MDOS(meteorological data operation system)的质控方法使用通用阈值去质控土壤水分数据,会漏检和误检出部分疑误数据,且疑误结果多以“未通过降水关系检查”为主,降低值班人员的数据审核效率。为了提高土壤水分质控效率,结合本地土壤特性,分析海南土壤水分历史数据,总结适合本地的阈值范围参数,提出基于CIMISS(China integrated meteorological information service system)的MQCSM(multiple quality control method of soil moisture)算法。该算法引入时变检查、持续性检查等检查方法,多重质控原始土壤水分数据,能快速、准确地质控出疑误数据,并分类展示疑误结果于web监控页面工值班人员筛查。业务试用结果表明,对比现有质控方法,该算法能准确、有效地筛查出疑误土壤水分疑误数据,且质控监视平台实时展示疑误结果,提高了值班人员对疑误数据的审核效率。  相似文献   

19.
在业务过程发现的一致性检测中,现有事件日志与过程模型的多视角对齐方法一次只能获得一条迹与过程模型的最优对齐;并且最优对齐求解中的启发函数计算复杂,以致最优对齐的计算效率较低。为此,提出一种基于迹最小编辑距离的、事件日志的批量迹与过程模型的多视角对齐方法。首先选取事件日志中的多条迹组成批量迹,使用过程挖掘算法得到批量迹的日志模型;进而获取日志模型与过程模型的乘积模型及其变迁系统,即为批量迹的搜索空间;然后设计基于Petri网变迁序列集合与剩余迹的最小编辑距离的启发函数来加快A*算法;最后设计可调节数据和资源视角所占权重的多视角代价函数,在乘积模型的变迁系统上提出批量迹中每条迹与过程模型的多视角最优对齐方法。仿真实验结果表明,相比已有工作,在计算批量迹与过程模型间的多视角对齐时,所提方法占用更少的内存空间和使用更少的运行时间。该方法提高了最优对齐的启发函数计算速度,可以一次获得批量迹的所有最优对齐,进而提高了事件日志与过程模型的多视角对齐效率。  相似文献   

20.
字段关联的构建方法是Web数据逼真生成中的困难问题.提出一种基于MIC的字段优先关联的Web数据逼真生成算法.该算法与现有的方法完全不同:首先,提取真实Web日志数据集中相应字段间的MIC系数;然后,结合字段的重尾特性,采用SE分布对字段的重尾性进行建模;最后,建立字段关联模型,模拟出真实数据集中的字段间依赖性,从而逼真生成目标数据集.实验表明,生成的数据集能够保持合理的字段间的均衡性以及节点间的相似性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号