首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
张攀  高丰  周逸  饶涵宇  毛冬  李静 《计算机工程》2022,48(11):161-169
微服务架构逐渐成为大规模云应用的主流设计架构,微服务可靠性是云服务商亟须处理的关键问题。精确检测并定位微服务应用故障可有效保障应用的可靠性与稳定性,基于微服务调用链的异常检测可在系统发生故障时及时发现系统异常行为并触发告警。针对当前主流检测方法无法保证异常告警的实时性和准确性问题,提出一种基于自然语言处理与双向长短期记忆(BiLSTM)网络的微服务调用链异常检测方法 MicroTrace。对调用链中记录的事件进行解析,将事件表示为语义序列与响应时间序列,利用词汇嵌入式表示算法提取事件的向量化表示,通过基于注意力机制的BiLSTM同时检测微服务实例的调用路径与性能异常。在真实微服务调用链数据集上的实验结果表明,该方法的查准率和查全率均可达96%以上,F1度量值相比于多模态-LSTM方法至少提升了6.8%。  相似文献   

2.
伴随着Docker等虚拟化容器技术的逐渐成熟,因其可扩展性、灵活性等特点与微服务架构完美契合,工业界逐渐将微服务架构应用部署在基于容器的云环境下,并用Kubernetes等容器编排工具来管理应用的全生命周期。在这样复杂的微服务架构下,如何使用人工智能技术高效发现异常并且定位根因成为重中之重。首先,文章总结了在微服务系统环境下进行异常检测和根因定位所面临的主要挑战和现有的关键技术;然后,针对现有技术异常检测覆盖范围不全面的问题,文章提出了一种基于无监督学习的多维度的异常检测方法,在调用链Trace数据的基础上结合服务和机器资源利用数据进行综合分析,确保能够检测出服务响应时间异常的同时,也能够识别服务资源利用异常和环境异常;最后,在异常已知的情况下,为了减少根因定位时间,拓展定位范围和缩小粒度,文章提出了一种轻量的基于异常传播子图的方法,将服务接口和机器节点两种维度的数据统一到异常传播子图中进行根因定位。实验表明,文章所提方法与已有方法相比,定位时间更短,不仅拓宽了根因定位场景,而且准确率也有明显提升。  相似文献   

3.
大型微服务系统中组件众多、依赖关系复杂, 由于故障传播的涟漪效应, 一个故障可能引起大规模服务异常, 快速识别异常并定位根因是服务质量保证的关键. 目前主要采用的调用链分析方法, 常常面临调用链结构复杂、实例数量庞大、存在大量小样本等问题, 因此提出基于调用链控制流分析, 将大量调用链结构聚合为少量方法调用模型; 并提...  相似文献   

4.
微服务软件架构将大型复杂应用软件拆分成多个可独立部署的相互之间通过轻量级通信机制协作的微服务,从而实现了应用软件的敏捷开发和持续交付.然而,应用软件的微服务数量众多,调用关系复杂,当某个微服务出现故障时会引发与之交互的微服务也出现异常,从而大幅增加了软件应用出现故障的可能性.面对众多异常微服务,考虑到异常的传播性,如何高效、准确地定位引发异常的故障微服务,成为亟待解决的问题.针对该问题,文中提出一种面向异常传播的微服务故障诊断方法.首先,监测微服务度量信息与微服务之间的调用行为;然后,基于回归分析构建度量与API调用之间的回归模型以检测异常微服务;同时,构建微服务依赖图以刻画微服务间的异常传播;最后,基于服务依赖图以及异常服务集合得到故障传播子图,并基于PageRank算法找出最有可能引发异常的根因,即故障微服务.实验结果表明,该方法能够有效检测异常服务,准确诊断故障微服务,同时具有较低的开销.  相似文献   

5.
微服务软件系统由于其具有大量复杂的服务依赖关系和组件化模块,一个服务发生故障往往造成与之相关的一个或多个服务发生故障,导致故障定位的难度不断提高.因此,如何有效检测系统故障,快速准确定位故障根因问题,是当前微服务领域研究的重点.现有研究一般通过分析故障对服务、指标的作用关系,构建故障关系模型,但存在运维数据利用不充分、故障信息建模不全面、根因定位粒度粗等问题.因此,本文提出了AmazeMap,该方法设计了多层次故障影响图建模方法以及基于多层次故障影响图的微服务故障定位方法.其中,多层次故障影响图建模方法通过挖掘系统运行时指标时序数据与链路数据,考虑不同层次间的相互关系,能够较全面地建模故障信息;基于多层次故障影响图的微服务故障定位方法通过缩小故障影响范围,从服务实例和指标两个方面发现根因,输出最有可能的故障根因节点和指标序列.本文基于开源基准微服务系统和AIOps挑战赛数据集,从有效性和效率两个方面设计了微服务软件故障定位实验,并与现有方法进行对比,实验结果验证了AmazeMap的有效性、准确性和效率.  相似文献   

6.
随着云上微服务系统规模的不断扩大,微服务之间的依赖关系变得更加紧密复杂,某个微服务的故障可能会通过微服务之间的互相调用传播至其他微服务,进而导致整个微服务系统发生异常。面对依赖关系复杂的微服务系统,考虑到故障的传播性,设计了一种云上微服务故障自动定位方法MicroAFL。首先,MicroAFL实时监测与收集微服务系统运行指标数据,基于自编码器模型对运行指标数据进行分析,判断微服务系统是否存在异常;一旦检测到异常,MicroAFL通过解析云上微服务运行实例之间的通讯数据获取微服务之间的调用关系,进而构建服务调用关系图以刻画故障传播途径;其次,将各个微服务的运行状态与系统资源利用率相关联从而计算服务调用关系图中每个节点的异常权重,并通过改进的加权PageRank算法推断和定位引发异常的故障微服务;最后,在华为云上搭建名为Sock-shop的微服务系统对MicroAFL的故障定位准确性进行评估,实验结果表明MicroAFL的故障定位准确率相较对比方法有所提升。  相似文献   

7.
基于过程中实时采集的多变量时序关联数据进行异常检测是预防工业过程事故、保障系统安全的关键环节之一.然而,工业多变量时间序列异常检测仍面临如下两大难题:(1)时序数据变量间复杂的非线性关联特性缺乏有效的表达方法;(2)正常/异常分布极度不均衡的时间序列间复杂的相关性有待深入挖掘.本文提出一种新的基于多变量时间序列的无监督异常检测方法 ——基于Transformer GAN的多变量时间序列异常检测方法 (TGAN-MTSAD). TGAN-MTSAD采用Transformer网络作为生成对抗网络的基本模型,引入了图注意力层以自动学习时序多元变量间的复杂依赖关系,还应用了patch技巧使模型能够有效捕捉时间窗口内的异常细节信息,并提出了基于重构误差与鉴别误差相结合的异常分数计算方法.采用3个真实世界的数据集对所提方法进行了大量的性能验证与对比实验分析.结果表明, TGAN-MTSAD可以有效检测过程中的时序异常,在大多数情况下优于基线方法,并且具有良好的可解释性,可用于复杂工业异常诊断.  相似文献   

8.
微服务架构得到了广泛的部署与应用, 提升了软件系统开发的效率, 降低了系统更新与维护的成本, 提高了系统的可扩展性. 但微服务变更频繁、异构融合等特点使得微服务故障频发、其故障传播快且影响大, 同时微服务间复杂的调用依赖关系或逻辑依赖关系又使得其故障难以被及时、准确地定位与诊断, 对微服务架构系统的智能运维提出了挑战. 服务依赖发现技术从系统运行时数据中识别并推断服务之间的调用依赖关系或逻辑依赖关系, 构建服务依赖关系图, 有助于在系统运行时及时、精准地发现与定位故障并诊断根因, 也有利于如资源调度、变更管理等智能运维需求. 首先就微服务系统中服务依赖发现问题进行分析, 其次, 从基于监控数据、系统日志数据、追踪数据等3类运行时数据的角度总结分析了服务依赖发现技术的技术现状; 然后, 以基于服务依赖关系图的故障根因定位、资源调度与变更管理等为例, 讨论了服务依赖发现技术应用于智能运维的相关研究. 最后, 对服务依赖发现技术如何准确地发现调用依赖关系和逻辑依赖关系, 如何利用服务依赖关系图进行变更治理进行了探讨并对未来的研究方向进行了展望.  相似文献   

9.
基于改进否定选择匹配算法的异常检测   总被引:2,自引:1,他引:1  
使用了一种改进的否定选择匹配算法来检测异常行为。在这种算法中考虑了位置因素对两个序列匹配度的影响,从而能够更加准确识别自体与非自体,有效地减小检测集的规模。首先使用正常的序列调用生成初始检测集,然后通过学习来扩充检测集,使用最终得到的检测集扫描一定长度的调用序列,通过其中异常序列的比例来显示该段序列调用是否出现了异常。最后给出了实验结果。  相似文献   

10.
张莉萍  雷大江  曾宪华 《计算机科学》2013,40(Z6):330-333,339
针对基于系统调用的异常入侵检测方法中较难抽取正常系统调用序列的特征库问题,提出将正常系统调用序列抽取出的子序列的频率特征转换为频率特征向量,并以此作为系统调用序列的局部和全局特征;为了保证对大规模数据集检测的准确率和速度,采用一类分类支持向量机(SVM)分类器进行学习建模,利用先前建立的特征库进行训练,建立入侵检测分类模型,最后对于待检测序列进行异常检测。在多个真实数据集上与已有的异常入侵检测方法进行比较实验,结果表明本文提出的方法的多个异常检测指标都都优于已有方法。  相似文献   

11.
主要研究Windows平台下异常检测方法,提出了一种利用Windows Native API调用序列和基于贝叶斯树算法的主机服务进程规则和对应概率分布的生成算法,并建立正常模型.根据长为N-1的Windows Native APIs调用序列预测第N个调用的概率分布,对生成的概率序列用U检验方法作为异常检测算法.实验结果...  相似文献   

12.
一种基于执行轨迹监测的微服务故障诊断方法   总被引:1,自引:0,他引:1  
王子勇  王焘  张文博  陈宁江  左春 《软件学报》2017,28(6):1435-1454
微服务正逐步成为互联网应用所采用的设计架构,如何有效检测故障并定位问题原因是保障微服务性能与可靠性的关键技术之一.然而,当前的方法通常监测系统度量,根据领域知识,人工设定报警规则,难以自动检测故障并细粒度定位问题原因.针对该问题,本文提出一种基于执行轨迹监测的微服务故障诊断方法.首先,利用动态插桩监测服务组件的请求处理流,进而利用调用树对请求处理的执行轨迹进行刻画;然后,针对影响执行轨迹的系统故障,利用树编辑距离来评估请求处理的异常程度,通过分析执行轨迹差异来定位引发故障的方法调用;最后,针对性能异常,采用主成分分析抽取引起系统性能异常波动的关键方法调用.实验结果表明,该方法可以准确刻画请求处理的执行轨迹,以方法为粒度准确定位系统故障以及性能异常的问题原因.  相似文献   

13.
【目的】在大规模云平台中,当微服务系统关键性能指标发生异常,要求运维人员面对告警风暴和纷繁复杂的异常指标及时梳理背后的异常关联,对异常进行准确的根因定位和快速的恢复。【方法】本文详细介绍在微服务架构下构建故障传播图的方式以及基于图推理的根因定位技术。结合云平台上运维及高可用的能力建设经验,对现有的根因定位方法进行梳理、总结。【结果】基于图推理的根因定位方法在大型数据中心显著提高了云上系统稳定性、可靠性。【局限】该方法依赖稳定的监控基础设施以及准确的指标异常检测能力。【结论】随着数字化转型的深入,微服务架构下的根因定位技术对大规模云平台的稳定性保障将会起到越来越大的作用。  相似文献   

14.
基于两层隐马尔可夫模型的入侵检测方法*   总被引:1,自引:0,他引:1  
在基于系统调用的入侵检测研究中,如何提取系统调用序列模式是一个重要问题.提出一种利用进程堆栈中的函数返回地址链信息来提取不定长模式的方法.同王福宏的不定长模式提取方法相比,该方法可以取得更完备的模式集.在此基础上,基于系统调用序列及其对应的不定长模式序列构建了一个两层隐马尔可夫模型来检测异常行为,与仅利用系统调用序列信息的经典隐马尔可夫方法相比,该方法可以取得更低的误报率和漏报率.  相似文献   

15.
基于系统调用序列的入侵检测是分析主机系统调用数据进而发现入侵的一种安全检测技术,其关键技术是如何能够更准确地抽取系统调用序列的特征,并进行分类.为此,引进LDA( Latent Dirichlet Allocation )文本挖掘模型构建新的入侵检测分类算法.该方法将系统调用短序列视为word,利用LDA模型提取进程系统调用序列的主题特征,并结合系统调用频率特征,运用kNN(k-Nearest Neighbor)分类算法进行异常检测.针对DAPRA数据集的实验结果表明,该方法提高了入侵检测的准确度,降低了误报率.  相似文献   

16.
刘辉  蔡利栋 《计算机工程》2005,31(12):161-162,180
用马尔科夫链对序列数据进行分析时,其预报准确率对于序列演变的异常与否相当敏感,而Linux进程可由一系列的系统调用序列来表征。据此,该文用马尔科夫链对Linux进程的系统调用序列进行行为模式提取并作异常检测。同时,还考虑了序列的顺序关系,使得模式有了合理的解释。  相似文献   

17.
无监督多元时间序列(MTS)异常检测方法因标注成本低而广受关注,但传统方法一般基于两个假设:1)服从独立同分布(IID)假设,即假设时序数据样本之间和属性之间不存在依赖关系;2)高净度启动假设,即假设可拥有完全正常态的时序数据集进行训练。以上假设在实际场景中往往难以满足。为此,提出一种基于边缘异常候选集的迭代式主动多元时序异常检测算法(EraseMTS)。首先,利用一种多粒度时序特征学习方法捕捉子序列内和子序列间的依赖关系,并在此基础上对原始多元时间序列进行再表示;其次,提出一种利用边缘异常候选集的选择策略,以子序列异常得分为基础,同时考虑异常程度,选择待人工交互的范围;最后,提出一种迭代式子序列权重更新机制,将异常反馈信息融入无监督异常检测模型的训练过程中,通过迭代方式不断优化初始训练模型性能。在UCR时间序列库中的4个数据集和1个人工合成数据集上对所提算法的检测性能、可扩展性和稳定性进行验证,实验结果表明该算法能够有效且稳定运行。  相似文献   

18.
异常检测在许多领域都具有重要意义,它可以帮助人们及时发现数据错误或缺失,而传统的方法只能对单一因素进行异常识别。随着数字时代的到来,时序数据往往表现出数据庞大、复杂、维度高等特点,传统异常检测方法由于计算的可扩展性较弱,存在维度灾难问题,在多维数据场景中经常表现不准。为了提高异常检测精度及捕捉多维数据的关联性,在此提出一种基于改进图神经网络的多维序列异常检测模型,选择图偏差网络(GDN)作为基础框架,使用Transformer模型替换了原模型中的预测部分,对相邻时间序列的未来值进行预测,以此来捕捉时间序列的特征,学习时间序列之间的依赖关系,提高异常检测精度。实验结果表明,在3个公开的数据集上,该方法可获得较高的精确率和计算效率。  相似文献   

19.
微服务因其敏捷的开发方式、快速的部署方式,逐渐成为以云为基础的软件系统的主流架构方式之一.但是,微服务系统结构复杂,动辄上百个服务实例,而且服务之间的调用关系异常复杂,当微服务系统中出现异常时,难以定位故障根因.为了解决这个问题,端到端请求追踪(trace)成为微服务系统监控的标配.然而现有的分布式请求追踪实现方式对应用程序具有侵入性,严重依赖于开发者对请求追踪的经验,无法在运行时控制追踪功能的开启和关闭.这些不足不仅会增加开发者的负担,而且限制了分布式请求追踪技术的实际应用.设计并实现对程序开发者透明的请求追踪系统Trace++,能够自动生成追踪代码,利用动态代码插桩技术将追踪代码注入到运行中的应用程序. Trace++对程序低侵入,对开发者透明,能够灵活控制追踪功能的开启和关闭.此外, Trace++的自适应采样方法有效减少了请求追踪产生的开销.在微服务系统TrainTicket上的实验结果证明, Trace++能够准确发现服务依赖关系.在开启请求追踪时,性能开销接近于源代码插桩,在关闭请求追踪时无性能开销.此外, Trace++的自适应采样方法在采样到具有代表性样本的同时减少了8...  相似文献   

20.
主要研究Windows平台下的异常检测方法,提出一种利用Windows Native API调用序列和基于决策树算法的主机服务进程模式抽取算法,并通过在模式中引入通配符而大大缩减了模式集的规模。进一步引入了表征模式间关系的转移概率,建立了模式序列的全局马尔可夫链模型,并给出了相应的异常检测算法。实验结果表明:该算法可以抽取一个规模较小且泛化能力较强的模式集,相应的检测算法可以有效地检测异常。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号