首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
对运行在文件系统上的工作负载进行分析有助于优化分布式文件系统的性能,且对构建新型存储系统至关重要。由于工作负载的复杂性和规模多样性的增加,使用基于直觉的分析来显式地捕获工作负载踪迹的特征是不完备的。针对这一问题,提出了一个分布式日志分析与负载特征提取模型。首先,从分布式文件系统日志中根据关键字抽取出与读写相关的信息;其次,从统计与时序两方面对负载特征进行描述;最后,分析基于负载特征进行系统优化的可能。实验结果表明,提出的模型具有一定的可行性与准确性,且可以较为详细地给出负载统计与时序特征,具有低开销、高时效、易于分析等优点,可以用来指导具有相同特征的工作负载的合成、热点数据监测、系统的缓存预取优化。  相似文献   

2.
张宏鑫  盛风帆  徐沛原  汤颖 《软件学报》2016,27(5):1174-1187
随着我国移动互联网的迅猛发展,如何从海量移动终端日志数据中提取出有效信息,并进行合理、清晰的可视化分析,为工业界等提供有价值的统计分析功能显得尤为重要.目前,对于移动终端日志数据的研究和分析多是基于对单一属性的统计结果分析,如应用下载排行、用户留存率等.为了进一步挖掘移动终端日志数据背后深层次的隐含信息,更加准确地概括出移动终端用户的特征,提出了一种基于移动应用程序日志数据的人群特征分析与画像计算方法,构造了基于移动应用程序数据的主题模型,并将移动设备用户按照与不同应用主题的相关度进行聚类,得到了具有不同特征的人群,从而提出了基于层次气泡图和Voronoi Treemap的可视化展现与分析方案.进一步将人群特征与时间信息、地理位置信息相结合,从多角度可视化展现人群特征.最后,根据该研究内容,实现了B/S架构的日志数据可视化分析原型系统,并通过案例分析验证了该方法的有效性.  相似文献   

3.
在自动化的工业场景中,大量工业设备产生的时序性日志数据量呈爆炸式增长,业务场景对时序数据的访问需求进一步提升。虽然目前基于分布式列族的数据库HBase能够存储工业时序大数据,但由于未考虑特定业务场景中数据与访问行为特征的关联,现有策略无法较好地满足工业时序数据的特定访问需求。针对上述问题,基于分布式存储系统HBase,利用工业场景中数据与访问行为特征的关联性,提出面向海量工业时序数据的分布式存储性能优化策略。针对工业时序数据特点引发的负载倾斜问题,提出基于冷热数据分区及访问行为分类的负载均衡优化策略。使用逻辑回归模型(LR)对数据进行冷热分类,并将热数据分散存储在不同节点;同时,为进一步降低存储集群中跨节点的通信开销,以提升工业时序数据高维索引的查询效率,提出索引主数据同Region化策略,设计索引RowKey字段及拼接规则,将索引存放到与它对应的主数据相同的Region中。在真实工业时序数据上的实验结果表明,引入优化策略后的数据负载分布倾斜度降低28.5%,查询效率提升27.7%,验证了所提优化策略能够有效地挖掘特定时序数据的访问模式,合理地分配负载,降低数据访问开销,有能力满足对特...  相似文献   

4.
姚杰  程春玲  韩静  刘峥 《计算机应用》2021,41(6):1701-1708
云计算数据中心在日常部署和运行过程中产生的大量日志可以帮助系统运维人员进行异常分析。路径异常和时延异常是云工作流中常见的异常。针对传统的异常检测方法分别对两种异常检测任务训练相应的学习模型,而忽略了两种异常检测任务之间的关联性,导致异常检测准确率下降的问题,提出了一种基于多任务时序卷积网络的日志异常检测方法。首先,基于日志流的事件模板,生成事件序列和时间序列;然后,训练基于多任务时序卷积网络的深度学习模型,该模型通过共享时序卷积网络中的浅层部分来从系统正常执行的流程中并行地学习事件和时间特征;最后,对云计算工作流中的异常进行分析,并设计了相关异常检测逻辑。在OpenStack数据集上的实验结果表明,与日志异常检测的领先算法DeepLog和基于主成分分析(PCA)的方法比较,所提方法的异常检测准确率至少提升了7.7个百分点。  相似文献   

5.
于鸽  冯山 《计算机应用》2016,36(6):1645-1649
针对保证实时数据对象时序一致性调度算法在软实时数据库系统环境下的应用问题,提出了一种基于概率统计的可延迟优化(SDS-OPT)算法。首先,分析和比较了现有算法在可调度性、服务质量(QoS)以及工作负载方面的特征与不足,指出优化现有算法的必要性;然后,利用最速下降法提升作业的执行时间筛选基准值,进而增加实时更新事务可调度的作业数量,以确保实时数据对象的时序一致性服务质量(QoS)最大化;最后,从工作负载和服务质量两个方面对所提算法和现有算法的性能进行对比分析。仿真实验结果表明,相对于已有的针对固定优先级可延迟调度算法(DS-FP)和统计性的非确定性可延迟调度算法(DS-PS),所提算法能够保证实时数据对象的时序一致性,同时降低工作负载,服务质量提升明显。  相似文献   

6.
针对传统分布式模型在海量日志并行处理时的可扩展性和并行程序编写困难的问题,提出了基于数据仓库的海量搜索日志分析系统架构.利用Hadoop分布式文件系统(HDFS)存储海量搜索日志,并对搜索日志进行清洗处理,采用impala对数据进行高速的处理,将处理后的统计结果导入到数据仓库中,使用Penta-hoBI对数据进行多维分析和统计报表.获取了关键词分析、查询频率、热词排行、查询词和时间分布、网站排名、用户统计等6个分析主题.分析结果对于搜索引擎的排序算法和系统优化都有一定的指导意义.  相似文献   

7.
涌现于社交网络、电子商务中的超大规模非结构化数据标志着大数据时代的到来。大数据的多样性、超大规模和可扩展性等特征对运行平台产生新的要求。随着大数据的产生和发展,形成了具有代表性的信息体系结构,包括编程模型、虚拟化和分布式文件系统等。随着对大数据研究的深入,通过对大数据负载特性的分析,发现制约大数据的并不是计算能力,而是I/O延迟,采用基于内存的分布式文件系统,用于存储和处理大规模分布式文件系统查询的索引,可以有效降低I/O延迟,提高应用性能。  相似文献   

8.
基于马尔可夫链等统计模型进行GU I测试是目前最有效的GU I自动化测试方法之一,但目前的方法在开始测试前需要很多前置条件,且要花费大量时间做静态分析等准备工作,从而导致测试效率和自动化水平不高.提出一种基于行为树的GU I自动化随机测试方法,该方法不需要进行静态分析,只需通过统计模型从用户使用日志中创建行为树模型,且可以动态地对行为树模型进行更新,以增加用户很少或从未使用过的事件的概率.对三种开源Android应用程序的评估,以及和其他GUI自动测试方法的比较结果显示:提出的Android应用GUI自动化随机测试方法具有很好的效果.  相似文献   

9.
一种基于时序行为的流过程协同重构算法   总被引:1,自引:0,他引:1  
过程流数据具有实时性、连续性和时序性等特征,使得传统过程挖掘算法难以发现隐含信息和演化过程。针对流过程模型的动态演化和重构要求,提出了一种基于时序行为分析的自适应混合启发式协同优化算法。首先定义演化流过程模型,基于日志活动间的隐含依赖关系改进过程逻辑的启发式挖掘规则,然后定义基于时序行为的老化因子,并引入高斯变异的多种群协作的自适应策略,改进粒子群优化算法的全局和局部精确寻优能力,实现优化和重构过程模型。该算法在四个典型测试函数上进行了对比实验,结果表明该算法在流过程挖掘中具有更好的收敛性和稳定性。  相似文献   

10.
在全球气候问题日益严峻的背景下,推动低碳发展具有重要意义,为实现居民侧用电低碳行为精准优化,提出一种考虑负荷时序特性的居民柔性资源低碳协同方法;文章分析了居民柔性资源的需求响应特性,对各类常见居民柔性资源进行分类;并综合考虑居民负荷的时间特性以及与外界环境因素的相关性,基于贝叶斯网络构造居民柔性资源用能概率模型,进一步分析了居民用电行为的时序特征,实现考虑时序特征的居民家电负荷舒适度建模;同时引入实时碳排放因子,考虑用户舒适度等约束,提出了考虑负荷时序特性的居民柔性资源低碳协同优化模型;仿真结果表明:所提优化模型能在提高用户用电经济性的同时,有效降低用户侧的碳排放量,实现经济性、低碳性多目标趋优。  相似文献   

11.
一种基于虚拟机的高效磁盘I/O特征分析方法   总被引:1,自引:0,他引:1  
沈玉良  许鲁 《软件学报》2010,21(4):849-862
于磁盘系统的机械运动本质,磁盘系统I/O往往会成为计算机系统的性能瓶颈.为了有效地提高系统性能,收集和分析应用系统的磁盘I/O特征信息将成为性能优化工作的重要基础.与以往I/O特征分析方法不同,给出了一种基于Xen 3.0虚拟机系统的磁盘I/O特征在线分析方法.在虚拟机环境下,该磁盘I/O特征采集方法可以透明地应用于任意无须修改的操作系统.该方法可以高效地在线采集多种基本I/O特征数据,其中包括:磁盘I/O块大小、I/O延迟、I/O时间间隔、I/O空间局部性、时间局部性以及磁盘I/O操作热点分布.通过测试和分析,该在线I/O分析方法有着较小的系统开销,并且对应用系统I/O性能的影响很小.此外,还给出了在大文件拷贝、基于Filebench的filemirco和varmail等工作负载下的I/O特征分析结果.  相似文献   

12.
为了解决当前分布式文件系统中存在的缺少管理标准、配置复杂、结点分配不合理、事件处理效率差等问题,采用DMTF提出的WBEM和WS-Management标准来统一分布式文件系统的管理.提出了分布式文件系统管理的解决方案,时分布式文件系统中的资源进行了CIM建模和为它们提供了Web Services接口.提出了针对不同环境的分布式结点选择相近性策略和采用事件模型来充分利用结点剩余存储空间的方案,提高了分布式文件系统的利用率.对该方案进行了实验和分析,实验结果表明,该方案可以良好的管理和优化分布式文件系统.  相似文献   

13.
This paper presents an effective method of metadata rebalance in exascale distributed file systems. Exponential data growth has led to the need for an adaptive and robust distributed file system whose typical architecture is composed of a large cluster of metadata servers and data servers. Though each metadata server can have an equally divided subset from the entire metadata set at first, there will eventually be a global imbalance in the placement of metadata among metadata servers, and this imbalance worsens over time. To ensure that disproportionate metadata placement will not have a negative effect on the intrinsic performance of a metadata server cluster, it is necessary to recover the balanced performance of the cluster periodically. However, this cannot be easily done because rebalancing seriously hampers the normal operation of a file system. This situation continues to get worse with both an ever-present heavy workload on the file system and frequent failures of server components at exascale. As one of the primary reasons for such a degraded performance, file system clients frequently fail to look up metadata from the metadata server cluster during the period of metadata rebalance; thus, metadata operations cannot proceed at their normal speed. We propose a metadata rebalance model that minimizes failures of metadata operations during the metadata rebalance period and validate the proposed model through a cost analysis. The analysis results demonstrate that our model supports the feasibility of online metadata rebalance without the normal operation obstruction and increases the chances of maintaining balance in a huge cluster of metadata servers.  相似文献   

14.
With the advent of new computing paradigms, parallel file systems serve not only traditional scientific computing applications but also non-scientific computing applications, such as financial computing, business, and public administration. Parallel file systems provide storage services for multiple applications. As a result, various requirements need to be met. However, parallel file systems usually provide a unified storage solution, which cannot meet specific application needs. In this paper, an extended file handle scheme is proposed to deal with this problem. The original file handle is extended to record I/O optimization information, which allows file systems to specify optimizations for a file or directory based on workload characteristics. Therefore, fine-grained management of I/O optimizations can be achieved. On the basis of the extended file handle scheme, data prefetching and small file optimization mechanisms are proposed for parallel file systems. The experimental results show that the proposed approach improves the aggregate throughput of the overall system by up to 189.75%.  相似文献   

15.
基于Hive的海量搜索日志分析系统研究   总被引:2,自引:0,他引:2  
赵龙  江荣安 《计算机应用研究》2013,30(11):3343-3345
针对传统分布式模型在海量日志并行处理时的可扩展性和并行程序编写困难的问题, 提出了基于Hive的Web海量搜索日志分析机制。利用HQL语言以及Hadoop分布式文件系统(HDFS)和MapReduce编程模式对海量搜索日志进行分析处理, 对用户搜索行为进行了分析研究。对用户搜索行为中的查询热点主题、用户点击数和URL排名、查询会话的分析结果对于搜索引擎的排序算法和系统优化都有一定的指导意义。  相似文献   

16.
高能物理是典型的数据密集型计算,数据访问性能对整个系统至关重要并与应用的计算模式密切相关.从剖析高能物理的典型计算模式入手,总结出其数据访问的特点,提出针对操作系统I/O调度、分布式文件系统缓存等多个因素的优化措施,优化后数据访问性能和CPU利用率明显提高.大规模存储系统对于元数据管理、数据可靠性、扩容等可管理性等功能也有较高要求,结合现有Lustre并行文件系统的不足,提出了Gluster的高能物理存储系统设计,在进行数据管理以及扩容等方面的优化后,系统已经正式投入使用,数据访问性能能够满足高能物理计算的需求,同时具有更好的可扩展性和可靠性.  相似文献   

17.
一种具有时间约束的分布式软件可靠性评估方法   总被引:4,自引:0,他引:4  
在对分布式软件的可靠性进行评估时,通常采用以分布式程序为基础建立的相应模型,然而这些模型侧重于分布式软件的可靠性,很少反映具有时间约束特征的可靠性特性,以分布式软件的可靠性模型为基础,将精简和广度优先两种方法有机结合,对文件生成树中的数据文件传输时间进行评测,确定文件生成树的状态,从而提出一种具有实时特征的分布式软件可靠性评估方法。  相似文献   

18.
Ceph是一个统一的分布式存储系统,可同时提供块、文件和对象3种接口的存储服务。与传统的分布式存储系统不同,它采用了无中心节点的元数据管理方式,因此具有良好的扩展性和线性增长的性能。经过十余年的发展,Ceph已被广泛地应用于云计算和大数据存储系统。作为云计算的底层平台,Ceph除了提供虚拟机的存储服务外,还可以直接提供对象存储服务和NAS文件服务。Ceph支撑着云计算系统中多种操作系统和应用的存储需求,它的性能对其上的虚拟机和应用有较大的影响,因此Ceph存储系统的性能优化一直是学术界和工业界的研究热点。文中首先介绍了Ceph的架构和特性;然后针对现有的性能优化技术,从对内部机制进行改进、面向新型硬件和基于应用的优化这3个方面进行了归纳和总结,综述了近年来Ceph存储和优化的相关研究;最后对该领域未来的工作进行了展望,以期为分布式存储系统性能优化的研究者提供有价值的参考。  相似文献   

19.
持久性内存技术与远程直接内存访问(remote direct memory access,RDMA)技术的发展,为高效分布式系统的设计提供了新的思路.然而,现有的基于RDMA的分布式系统没有充分利用RDMA的多播能力,难以解决1对多传输场景下的多拷贝文件数据传输问题,严重影响了系统性能.针对此问题,提出一种基于RDMA多播机制的分布式持久性内存文件系统(RDMA multicast transmission based distributed persistent memory file system,MTFS),通过低延迟多播通信机制充分利用RDMA多播能力,将数据高效传输到多个数据节点,从而避免了多拷贝传输操作带来的高延迟.为提升传输操作灵活性,MTFS设计了多模式多播远程过程调用(remote procedure call,RPC)机制,实现了RPC请求自适应识别,并通过优化返回机制将部分传输操作移出关键路径,进一步提升传输效率.同时MTFS提供了轻量级一致性保障机制,通过设计故障恢复功能、数据校验系统、重传策略与窗口机制,当节点出现崩溃时进行快速恢复,并在传输出现错误时实现数据精准检测与纠正,保证了数据的可靠性和一致性.实验证明,MTFS在各测试集上相比现有系统GlusterFS吞吐量提升了10.2~219倍.在Redis数据库的工作负载下,MTFS相比于NOVA取得了最高10.7%的性能提升,并在多线程测试中取得了良好的可扩展性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号