首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
目前,对小规模数据集进行预测时,主要使用传统机器学习算法,但传统单一模型预测效果不能达到预期准确率,且无法兼顾多项评价指标。因此,文中以小规模数据集为研究对象,融合决策树、逻辑回归、支持向量机三类模型,提出了一种多模型融合算法,并分析了其在小规模数据集上的应用效果。首先,简述了决策树、逻辑回归和支持向量机的算法原理;其次,使用决策树、逻辑回归和支持向量机作为基学习器并完成单独训练,将各模型输出结果用于下一阶段模型输入,同时使用最大似然估计迭代优化参数,从而完成多模型融合过程;最后,对数据集进行分析和处理,通过实验与单一模型进行指标对比。实验结果表明,多模型融合算法在预测精确率、召回率、准确率等方面有明显提升。  相似文献   

2.
基于Xen虚拟机的系统日志安全研究   总被引:1,自引:0,他引:1  
系统日志对于计算机系统的安全至关重要。为了确保系统日志的安全,通常的做法是通过网络将系统日志备份到远程主机上,但其在传输过程中容易被截获。提出一个运行于Xen之上的日志实时备份模型,通过系统实例之间的共享内存来传输系统日志,这样可以避免日志数据在传输过程中被暴露在网络上所带来的风险。实验表明,该方法不仅增强了系统日志的安全性,而且传输效率也非常高。  相似文献   

3.
基于深度学习的加密流量分类方法中的分类模型大多是深层直筒型结构,存在梯度消失的问题,且网络层数的增加会使模型结构和计算的复杂度显著上升。为此,提出了一种基于改进Inception-ResNet的加密流量分类方法。该方法通过改进Inception模块,并将该模块作为残差块以残差结构连接的方式嵌入卷积神经网络来构建分类模型;此外,改进分类模型的损失函数,并使用VPN-nonVPN数据集来验证所提方法的有效性。实验结果表明,所提方法在2种场景的分类实验中的精确率、召回率、F1值分别达到了94.21%、92.53%和93.31%以上。在与其他方法的对比实验中,以分类难度最大的12分类实验为例,所提方法比C4.5决策树算法和1D-CNN(1 Dimensional-Convolutional Neural Network)在精确率上分别高出13.91和9.50个百分点,在召回率上分别高出14.87和1.59个百分点。与CAE(Convolutional Auto Encoding)和SAE (Stacked Auto Encoder)等方法相比,所提方法虽然在各项指标上没有明显提升,但在单次训练...  相似文献   

4.
日志是一种记录系统运行过程中重要信息的文本文件,而有效的日志异常检测可以帮助运维人员快速定位并解决问题,保证系统的快速恢复,从而减少经济损失.系统日志内容通常包含着丰富的系统信息(时间,序列,参数等),本文提出了一种基于预训练的日志多特征融合的异常检测方法Log Multi-Feature Fusion(LMFF).首先,基于预训练模型对日志的事件模板进行语义信息提取,将系统日志建模为自然语言序列;然后,利用特征提取器分别对日志的事件序列,计数序列和时间序列进行特征提取融合,通过Tranformer和LSTM神经网络学习正常日志的特征信息.最后,对日志进行分析,并能够检测出潜在模式偏离正常日志序列的异常.通过在Hadoop日志文件系统(HDFS)数据的F1值达到约96%和在OpenStack数据的F1值达到约99%的结果表明,本文所提的异常检测方法与其它的日志异常检测算法Deeplog、LogAnomaly和基于主成分分析(PCA)的方法相比有较好的表现.  相似文献   

5.
《微型机与应用》2014,(23):25-28
逻辑模型树(LMT)算法是基于树归纳和逻辑回归的一种分类算法。为验证LMT算法的优势,利用3个UCI标准数据集建模,将LMT算法与其他决策树方法进行对比分析。针对LMT算法在建立逻辑回归模型时会导致较高的计算复杂性的问题,研究利用赤池信息量准则改进LMT算法,提升算法时间性能,避免模型过度拟合。在UCI标准数据集和烟叶综合质量评价数据中应用改进的LMT算法进行建模验证,结果表明,该改进方法在模型精度和召回率方面基本优于其他决策树方法,时间性能比改进前提升50%左右,能较好地评价烟叶综合质量。  相似文献   

6.
近年来,深度学习方法广泛应用于各种疾病预测任务,甚至在其中一些方面超过了人类专家。 然而,算法的黑盒性质限制了其临床应用。对此,本文结合知识表示学习和深度学习方法构建了一种融入知识表示向量的可解释深度学习模型。该模型首先依据体检指标正常范围构建体检指标与检测值之间的关系图,并通过基于知识表示学习的深度学习模型对人体体检指标与检测值关系图进行编码,然后将患者体检数据表示为向量,输入到构建的自注意力机制和卷积神经网络构建的分类器中来实现疾病预测。将模型应用于糖尿病预测实验中,其准确率和召回率均优于对比的机器学习方法。与表现较优的随机森林算法相比,模型的准确率和召回率分别提升了0.81%和5.21%。实验结果表明,通过可解释性方法将知识表示学习和深度学习技术融合应用于糖尿病预测,可以达到对糖尿病的早期发现与辅助诊断的目的。  相似文献   

7.
陈霞 《计算机系统应用》2022,31(10):382-388
当前金融机构正在努力应对不良资产的增长问题,在信贷领域借贷逾期预测结果的准确性将直接决定不良资产的规模.为了更好预测借贷人的还款能力,通常会引入数据模型方法,但对于数据样本较少的新业务,单纯用这类数据容易导致模型结果过拟合.本文通过实际案例分析,对小样本业务数据进行相似业务数据补充,并采用随机森林、LightGBM、XGBoost、DNN和TrAdaBoost迁移学习方法,旨在为小样本业务在模型建立过程中样本不足的问题提供一种有效的解决方法.研究结果表明,针对数据量少的产品,结合相似金融业务数据后采用这五种机器学习模型方法的预测结果 AUC (area under curve)均大于80,其中使用迁移学习模型比LightGBM、XGBoost、DNN和随机森林模型在预测集上的AUC至少高出2个点;此外迁移学习模型的预测结果的精准率(88%)和召回率(73%)也是最高的.  相似文献   

8.
利用BERT预训练模型的优势,将句法特征与BERT词嵌入模型融入到深度学习网络中,实现细粒度的商品评价分析。提出一种基于深度学习的两阶段细粒度商品评价情感分析模型,利用融合句法特征与BERT词嵌入的BILSTM-CRF注意力机制模型提取用户评论中的商品实体、属性与情感词;运用BILSTM模型对提取的结果进行情感分析。在SemEval-2016 Task 5和COAE Task3商品评价数据集上的特征提取F1值达到88.2%,分别高出BILSTM模型、BILSTM-CRF模型4.8个百分点、2.3个百分点;情感分类精度达到88.5%,比普通的RNN高出8个百分点,比支持向量机、朴素贝叶斯等传统机器学习方法高出15个百分点。通过模型的复杂度分析,进一步证明融合句法特征与BERT词嵌入后的深度学习模型,在细粒度商品评价情感分析上的优势。  相似文献   

9.
针对现代大型系统中系统日志的异常检测问题,提出了一种基于自动日志分析的异常检测方法(CSCM).该方法通过在预聚类下结合细化分析与多视角的异常提取过程,来实现系统日志的异常检测.首先,引入信息熵以提取日志信息量;其次,基于Canopy预聚类过程提取子集交叠数据,以缩小计算范围;利用谱聚类进行细化分析,并结合预聚类结果以...  相似文献   

10.
一种基于用户播放行为序列的个性化视频推荐策略   总被引:4,自引:0,他引:4  
本文针对在线视频服务网站的个性化推荐问题,提出了一种基于用户播放行为序列的个性化推荐策略.该策略通过深度神经网络词向量模型分析用户播放视频行为数据,将视频映射成等维度的特征向量,提取视频的语义特征.聚类用户播放历史视频的特征向量,建模用户兴趣分布矩阵.结合用户兴趣偏好和用户观看历史序列生成推荐列表.在大规模的视频服务系统中进行了离线实验,相比随机算法、基于物品的协同过滤和基于用户的协同过滤传统推荐策略,本方法在用户观看视频的Top-N推荐精确率方面平均分别获得22.3%、30.7%和934%的相对提升,在召回率指标上分别获得52.8%、41%和1065%的相对提升.进一步地与矩阵分解算法SVD++、基于双向LSTM模型和注意力机制的Bi-LSTM+Attention算法和基于用户行为序列的深度兴趣网络DIN比较,Top-N推荐精确率和召回率也得到了明显提升.该推荐策略不仅获得了较高的精确率和召回率,还尝试解决传统推荐面临大规模工业数据集时的数据要求严苛、数据稀疏和数据噪声等问题.  相似文献   

11.
Anomaly detection is a key step in ensuring the security and reliability of large-scale distributed systems. Analyzing system logs through artificial intelligence methods can quickly detect anomalies and thus help maintenance personnel to maintain system security. Most of the current works only focus on the temporal or spatial features of distributed system logs, and they cannot sufficiently extract the global features of distributed system logs to achieve a good correct rate of anomaly detection. To further address the shortcomings of existing methods, this paper proposes a deep learning model with global spatiotemporal features to detect the presence of anomalies in distributed system logs. First, we extract semi-structured log events from log templates and model them as natural language. In addition, we focus on the temporal characteristics of logs using the bidirectional long short-term memory network and the spatial invocation characteristics of logs using the Transformer. Extensive experimental evaluations show the advantages of our proposed model for distributed system log anomaly detection tasks. The optimal F1-Score on three open-source datasets and our own collected distributed system datasets reach 98.04%, 94.34%, 88.16%, and 97.40%, respectively.  相似文献   

12.
SVM与规则相结合的中文地名自动识别   总被引:4,自引:0,他引:4  
在分析中文文本中地名特点的基础上,提出了一种支持向量机(SVM)与规则相结合的中文地名自动识别方法:按字抽取特征向量的属性,然后将这些属性转换成二进制向量并建立训练集,采用多项式Kernel函数,得到SVM识别地名的机器学习模型;通过对错误识别结果的分析,构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面导致召回率偏低的不足。实验表明,用SVM与规则相结合的机制识别中文文本中的地名是有效的:系统开式召回率、精确率和F-值分别达89.57%、93.52%和91.50%。  相似文献   

13.
提取日志模板是处理海量系统日志十分有效的方法.本文以Web系统日志为切入点,采用基于标签识别树的模板提取方法提取日志模板,并在其基础上,研究并完善了其日志预处理和模板表达式生成方法.针对于系统日志普遍存在的结构复杂问题,具体采用了基于文本相似度的预处理方法,实现了日志消息分类;采用模板最大匹配的方法,解决了由于日志格式不统一和切词导致的模板匹配度低的问题.最后,对本次日志模板提取方法的实验进行了评估,结果证明该方法的准确率达到96.4%,且模板匹配度大幅上升.  相似文献   

14.
杨诚 《计算机应用》2017,37(10):2866-2870
当前主流的在线广告点击率(CTR)预估算法主要通过机器学习方法从大规模日志数据中挖掘用户与广告间的相关性从而提升点击率预估精度,其不足之处在于没有充分考虑用户实时行为对CTR的影响。对大规模真实在线广告日志进行分析后发现,在会话中,用户CTR的动态变化和用户先前的反馈行为高度相关,不同的用户行为对用户实时CTR的影响不尽相同。基于上述分析结果,提出一种基于用户实时反馈的点击率预估算法。首先,从大规模真实在线广告日志数据中定量分析用户反馈和点击率预估精度的相关关系;然后,根据分析结果将用户的反馈行为特征化;最后,使用机器学习方法对用户的行为进行建模,并根据用户的反馈实时动态调整广告投放,从而提升在线广告系统的点击率预估精度。实验结果表明,用户实时反馈特征和用户点击率高度相关;相比于传统没有用户实时反馈信息的预测模型,该算法在测试集上对AUC(Area Under the Curve)和RIG(Relative Information Gain)指标提升分别为0.83%和6.68%。实验结果表明,用户实时反馈特征显著提高点击率预估的精度。  相似文献   

15.
为自动向医生推荐用于疾病辅助诊断的机器学习模型,提出一种筛选机器学习模型的方法。该筛选方法分为3个步骤:用训练准确度和测试准确度筛选机器学习模型;用查准率、召回率和F1成绩筛选机器学习模型;用带权值的总成绩计算公式推荐最优的机器学习模型。以乳腺癌辅助诊断为例,最终从8个机器学习模型中筛选并训练出高斯核心函数向量机模型(γ=0.5)推荐给医生使用,因为这个模型除满足筛选方法的3个条件外,总成绩最高,达到了0.985。  相似文献   

16.
企业日志数据,即员工在企业内部使用网络服务时系统保存的记录,包括员工网页访问日志、邮件日志等。在一定程度上反映了企业内部的组织结构、员工的日常工作模式和各种异常情况等。对日志数据进行分析有助于企业高层及时把控企业的运行状况,发现企业潜在威胁,进而帮助更好地进行决策。现有的企业日志分析方法大多是在单一数据基础上使用数据挖掘和机器学习等算法来进行分析。将以数据为中心的分析算法和以人为中心的交互式可视化结合起来能够同时发挥算法和人的分析优势;可视分析方法可以更有效地将多源异构、时变、多维的日志数据分析结合起来,提供多角度分析。为此,设计并实现了面向企业日志数据的员工工作行为可视分析系统EWB-VIS。在ChinaVis2018挑战赛所提供的公开数据集上进行实验,证明了系统的可用性和相关可视化方法的有效性。  相似文献   

17.
高性能计算系统的体系结构日益复杂和现有性能分析工具的智能程度不足,导致高性能计算应用的程序性能分析和优化的成本代价日益高昂。所幸,人工智能领域目前取得了重要进展,其中深度学习技术发挥了重要作用,它给性能分析工具的智能化带来了契机。提出一种基于深度学习的程序性能智能分析框架,其核心思想是将程序的性能分析问题抽象成可用机器学习技术描述的分类问题,使用处理器支持的PMU采集分类所需的性能数据并标准化,使用簇评估技术结合簇的实际含义确定性能问题类别,通过稀疏编码自动学习性能数据特征并构建性能问题分类模型。在神威太湖之光超级计算机上实现了程序性能分析框架原型。实验结果表明,该性能分析方法能够直观地指导程序员快速把握当前应用最为突出的性能瓶颈问题,提高应用优化的效率,降低用户调优代码的成本。  相似文献   

18.
在跨企业、跨系统的环境中,流程数据通常记录在单独的事件日志中,这使得无法挖掘完整的端到端的执行流程,因此本算法提出仅使用事件名称以及时间戳属性对日志进行合并。首先分别获取两个系统的过程模型以及根据活动的跨系统跟随依赖关系获得的合并模型,接着将两个系统的流程一对一进行合并并按照时间戳排序,留下与合并模型路径一致的合并流程,然后从这些流程中获得一对一的实例对,即唯一主流程仅与唯一子流程可以合并,再从这些实例对中挖掘活动间的时间约束用于剩余日志的合并,重复最后两步直到所有日志均合并或无法一对一合并日志。该算法在真实的事件日志上进行了实验,达到了满意的合并效果并获得较高的准确率与召回率。  相似文献   

19.
日志异常检测是当前数据中心智能运维管理的典型核心应用场景.随着机器学习技术的快速发展和逐步成熟,将机器学习技术应用于日志异常检测任务已经形成热点.首先,文章介绍了日志异常检测任务的一般流程,并指出了相关过程中的技术分类和典型方法.其次,论述了日志分析任务中机器学习技术应用的分类及特点,并从日志不稳定性、噪声干扰、计算存储要求、算法可移植性等方面分析了日志分析任务的技术难点.再次,对领域内相关研究成果进行了梳理总结和技术特点的比较分析.最后,文章从日志语义表征、模型在线更新、算法并行度和通用性3个方面讨论了日志异常检测今后的研究重点及思考.  相似文献   

20.
崔建伟  赵哲  杜小勇 《软件学报》2021,32(3):604-621
应用驱动创新,数据库技术就是在支持主流应用的提质降本增效中发展起来的.从OLTP、OLAP到今天的在线机器学习建模无不如此.机器学习是当前人工智能技术落地的主要途径,通过对数据进行建模而提取知识、实现预测分析.从数据管理的视角对机器学习训练过程进行解构和建模,从数据选择、数据存储、数据存取、自动优化和系统实现等方面,综...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号