首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
联邦学习是一种保证数据隐私安全的分布式机器学习方案.与传统的机器学习的可解释性问题类似,如何对联邦学习进行解释是一个新的挑战.文中面向联邦学习方法的分布式与隐私安全性的特性,探讨联邦学习的可视化框架设计.传统的可视化任务需要使用大量的数据,而联邦学习的隐私性决定了其无法获取用户数据.因此,可用的数据主要来自服务器端的训练过程,包括服务器端模型参数和用户训练状态.基于对联邦学习可解释性的挑战的分析,文中综合考虑用户、服务器端和联邦学习模型3个方面设计可视化框架,其包括经典联邦学习模型、数据中心、数据处理和可视分析4个模块.最后,介绍并分析了2个已有的可视化案例,对未来通用的联邦学习可视分析方法提出了展望.  相似文献   

2.
大数据技术在分析与挖掘交通大数据方面扮演着越来越重要的角色.为了快速有效地对出租车的运营模式与载客策略进行分析,设计效益指数模型对出租车效益进行量化排序,以高效益出租车为研究对象,基于Spark大数据框架开发一个轨迹数据处理与可视化平台.首先,处理高效益出租车轨迹数据得到用于可视化的特征数据.而后进行可视化分析,包括:统计分析高效益出租车运营特性并实现交互式图表展示,采用蜂窝形格网与DBSCAN算法对不同时段高效益出租车载客点进行热点可视化,实现基于缓冲区的交互式轨迹查询并提取出轨迹相关因子.最后,利用成都市出租车GPS轨迹数据验证了所提平台的有效性及可靠性.  相似文献   

3.
为提升航空兵场站信息化建设过程中的数据应用与管理能力,提出了一种基于Spark的场站飞行保障大数据可视化平台.以场站信息化系统和物联网络数据采集数据为基础,利用Spark计算引擎集成Kafka消息队列,使用Hive完成数据列表库的建立和存储,基于Spark RDD和Spark SQL完成数据预处理与交互,并选择Vue框架嵌入ECharts组件完成前端数据可视化呈现,并最终对设计方案进行了实现与应用.相较于当前业务隔离的信息系统建设模式,平台具备更高的数据融合与处理分析能力,能够更好地实现场站飞行保障数据价值.  相似文献   

4.
为了方便油藏数据特征的分析和石油的勘探开发过程,本文利用Spark并行计算框架分析油藏数据,并通过数据挖掘算法分析油藏属性之间的潜在关系,对油藏的不同层段进行了分类和预测.本文的主要工作包括:搭建Spark分布式集群和数据处理、分析平台,Spark是流行的大数据并行计算框架,相对传统的一些分析方法和工具,可以实现快速、准确的数据挖掘任务;根据油藏数据的特点建立多维异常检测函数,并新增渗孔比判别属性Pr;在处理不平衡数据时,针对逻辑回归分类提出交叉召回训练模型,并优化代价函数,针对决策树,提出KR-SMOTE对小类别样本进行过采样扩充,这两种方法都可以有效处理数据不平衡问题,提高分类精度.  相似文献   

5.
为了解决BREW移动平台下应用界面(UI)开发缺乏可视化设计工具,UI开发效率低下的问题,类比其它平台的UI设计现状,开发了一款面向BREW平台的新型可视化UI设计工具.分析了软件的工作流程,针对软件实现过程中的UI保存、界面可视化设计、界面代码自动化生成等几个重点环节进行了论述.测试结果表明,该工具软件为开发人员提供了所见即所得的UI设计效果,且方便调整,代码自动生成功能也极大地减轻了程序员的编码工作量.  相似文献   

6.
MapReduce编程模型的简单性和高性价比使得其适用于海量数据的并行处理.然而,MapReduce欠缺对多数据源、组件复用以及数据可视化支持,这些缺点使用户在运用MapReduce框架进行数据挖掘时暴露出开发效率低下,重复开发等问题.提出了一种基于MapReduce的数据挖掘平台的设计与实现,该设计思想为Hadoop作为大规模数据计算平台在数据挖掘、数据可视化以及商业智能应用方面的不足提供了参考与弥补.同时,基于该方法实现了一个大规模数据挖掘工具.  相似文献   

7.
介绍了基于RP2040和机器学习开发的一款可以实现手势控制的魔棒工具,以实现微控制器和机器学习的结合.讲解了魔棒工具开发过程中关键技术的实现,包括魔棒工具的组成、微控制器对数据的处理和采集、深度学习模型的构建与训练、模型的转换与部署、以及基于魔棒工具实现的贪吃蛇游戏.  相似文献   

8.
大数据的挖掘是当今的研究热点,也有着巨大的商业价值。新型框架Spark部署在Hadoop平台上,它的机器学习算法几乎可以完全替代传统的Mahout Map Reduce的编程模式,但由于Spark的内存模型特点,执行速度快。该文研究了Spark中的机器学习中的聚类算法KMeans,先分析了算法思想,再通过实验分析其应用的方法,然后通过实验结果分析其应用场景和不足。  相似文献   

9.
DMVisualMiner:一个可视化数据挖掘分析平台   总被引:1,自引:0,他引:1  
DMVisualMiner是将可视化技术应用于数据挖掘领域而开发的一个数据分析平台.可视化数据挖掘主要应用在4个方面数据准备阶段的可视化、模型生成阶段的可视化、结果呈现阶段的可视化、数据挖掘流程的可视化.实现了对数据挖掘各个方面的可视化,同时DMVisualMiner采用构件的设计方法,利用插件的概念增强了系统的可扩展性,设计并实现了基于XML的模型表示方法,使得DMVisualMiner能够和预言模型系统集成,并能在网络环境下发布.  相似文献   

10.
随着互联网、物联网、云计算等信息技术的迅猛发展,大量非结构化信息不断涌现,对数据可视化与可视化分析的需求不断增加,同时可视化开发成本不断提高。数据可视化模型的研究对于可视化开发必不可少。基于此背景,根据数据信息的分类研究提出一种通用、模块化的数据可视化模型,将可视化流程分为可视化结构映射、可视化空间布局、可视化视图映射三个主要模块,并基于数据可视化模型利用开源的Echarts图表工具包和D3函数库形成可视化工具DVL.js(Data Visualization Layout)。该工具可应用于Web平台,包含丰富的图形展示方式如柱状图、折线图、时序图、饼图、雷达图、层次树、力导向图、标签云等,这些展示方式都提供了完备的数据与交互接口,能应对不同场合的可视化需求。  相似文献   

11.
对于大数据而言,机器学习技术是不可或缺的;对于机器学习而言,大规模的数据可以提升模型的精准度。然而复杂的机器学习算法从时间和性能上都急需分布式内存计算这种关键技术。Spark分布式内存计算可以实现算法的并行操作,有利于机器学习算法处理大数据集。因此本文提出在Spark分布式内存环境下实现非线性机器学习算法,其中包括多层可变神经网络、BPPGD SVM、K-means,并在实现的基础上进行数据压缩、数据偏向抽样或者数据加载等方面的优化。为了实现充分配置资源批量运行脚本,本文也实现SparkML调度框架来调度以上优化算法。实验结果表明,优化后的3种算法平均误差降低了40%,平均时间缩短了90%。  相似文献   

12.
System analysts often use software fault prediction models to identify fault-prone modules during the design phase of the software development life cycle. The models help predict faulty modules based on the software metrics that are input to the models. In this study, we consider 20 types of metrics to develop a model using an extreme learning machine associated with various kernel methods. We evaluate the effectiveness of the mode using a proposed framework based on the cost and efficiency in the testing phases. The evaluation process is carried out by considering case studies for 30 object-oriented software systems. Experimental results demonstrate that the application of a fault prediction model is suitable for projects with the percentage of faulty classes below a certain threshold, which depends on the efficiency of fault identification (low: 47.28%; median: 39.24%; high: 25.72%). We consider nine feature selection techniques to remove the irrelevant metrics and to select the best set of source code metrics for fault prediction.  相似文献   

13.
汤小春  郝婷 《计算机工程》2009,35(21):71-73
针对数据密集型科学工作流需要大量的数据传送和数据存储的问题,在执行节点可用存储资源受限的情况下,构造计算作业与数据作业分离的工作流模型,设计数据与计算分离后的工作流生成算法,增加数据转送作业、数据清除作业、数据作业及其依赖关系。给出资源受限情况下数据密集工作流的预估存储调度算法,并对其进行系统评价,取得了较好的效果。  相似文献   

14.
Malware has already been recognized as one of the most dominant cyber threats on the Internet today. It is growing exponentially in terms of volume, variety, and velocity, and thus overwhelms the traditional approaches used for malware detection and classification. Moreover, with the advent of Internet of Things, there is a huge growth in the volume of digital devices and in such scenario, malicious binaries are bound to grow even faster making it a big data problem. To analyze and detect unknown malware on a large scale, security analysts need to make use of machine learning algorithms along with big data technologies. These technologies help them to deal with current threat landscape consisting of complex and large flux of malicious binaries. This paper proposes the design of a scalable architecture built on the top of Apache Spark which uses its scalable machine learning library (MLlib) for detecting zero-day malware. The proposed platform is tested and evaluated on a dataset comprising of 0.2 million files consisting of 0.05 million clean files and 0.15 million malicious binaries covering a large number of malware families over a period of 7 years starting from 2010.  相似文献   

15.
皮艾迪  喻剑  周笑波 《计算机应用》2017,37(12):3586-3591
Spark计算框架被越来越多的企业用作大数据分析的框架,由于通常部署在分布式和云环境中因此增加了该系统的复杂性,对Spark框架的性能进行监控并查找导致性能下降的作业向来是非常困难的问题。针对此问题,提出并编写了一种针对分布式容器环境中Spark性能的实时监控与分析方法。首先,通过在Spark中植入代码和监控Docker容器中的API文件获取并整合了作业运行时资源消耗信息;然后,基于Spark作业历史信息,训练了高斯混合模型(GMM);最后,使用训练后的模型对Spark作业的运行时资源消耗信息进行分类并找出导致性能下降的作业。实验结果表明,所提方法能检测出90.2%的异常作业,且其对Spark作业性能的影响仅有4.7%。该方法能减轻查错的工作量,帮助用户更快地发现Spark的异常作业。  相似文献   

16.
运行数据是大数据系统中增长最快、最为复杂也是最有价值的数据资源之一。基于运行数据,软件开发者可以分析关于软件质量和开发模型的重要信息。Spark作为一个分布式系统,在运行过程中会产生大量的运行数据,包括日志数据、监控数据以及任务图数据。开发者可以基于运行数据对系统进行参数调优。然而该系统所涉及的参数种类繁多、影响多样且难以评估,若对系统了解不足,进行参数调优存在较大的困难。提出运行数据历史库的概念,历史库中存储的是以往运行任务的特征信息以及运行配置信息。同时提出了基于历史库搜索的参数优化模型,并实验验证了本文提出的参数优化模型对用户任务性能提升具有较好的效果。  相似文献   

17.
The Atmospheric Radiation Measurement (ARM) Data Integrator (ADI) is a framework designed to streamline the development of scientific algorithms that analyze, and models that use time-series NetCDF data. ADI automates the process of retrieving and preparing data for analysis, provides a modular, flexible framework that simplifies software development, and supports a data integration workflow. Algorithm and model input data, preprocessing, and output data specifications are defined through a graphical interface. ADI includes a library of software modules to support the workflow, and a source code generator that produces C, IDL®, and Python™ templates to jump start development. While developed for processing climate data, ADI can be applied to any time-series data. This paper discusses the ADI framework, and how ADI's capabilities can decrease the time and cost of implementing scientific algorithms allowing modelers and scientists to focus their efforts on their research rather than preparing and packaging data.  相似文献   

18.
钮泽平  李国良 《软件学报》2021,32(3):622-635
在大量变化着的数据中,数据分析师常常只关心预测结果为特定值的少量数据.然而,利用机器学习模型进行推理的工作流程中,由于机器学习算法库默认数据以单表方式组织,用户必须先通过SQL语句查询出全部数据,即使随后在模型推理过程中会将大量数据丢弃.指出了在这个过程中,如果可以预先从模型中提取信息,就有望能在数据获取阶段快速排除不...  相似文献   

19.
Spark Streaming作为主流的开源分布式流分析框架,性能优化是目前的研究热点之一。在Spark Streaming性能优化中,业务场景下的配置参数优化是其性能提升的重要因素。在Spark Streaming系统中,可配置的参数有200多个,对参数调优人员的经验要求较高,未经优化的参数配置会影响流作业执行性能。因此,针对Spark Streaming的参数配置优化问题,提出一种基于深度强化学习的Spark Streaming参数优化方法(DQN-SSPO),将Spark Streaming参数优化配置问题转化为深度强化学习模型训练中的最大回报获得问题,并提出权重状态空间转移方法来增加模型训练获得高反馈奖励的概率。在3种典型的流分析任务上进行实验,结果表明经参数优化后Spark Streaming上的流作业性能在总调度时间上平均缩减27.93%,在总处理时间上平均缩减42%。  相似文献   

20.
漏洞这一名词伴随着计算机软件领域的发展已经走过了数十载。自世界上第一个软件漏洞被公开以来,软件安全研究者和工程师们就一直在探索漏洞的挖掘与分析方法。源代码漏洞静态分析是一种能够贯穿整个软件开发生命周期的、帮助软件开发人员及早发现漏洞的技术,在业界有着广泛的使用。然而,随着软件的体量越来越大,软件的功能越来越复杂,如何表示和建模软件源代码是当前面临的一个难题;此外,近年来的研究倾向于将源代码漏洞静态分析和机器学习相结合,试图通过引入机器学习模型提升漏洞挖掘的精度,但如何选择和构建合适的机器学习模型是该研究方向的一个核心问题。本文将目光聚焦于源代码漏洞静态分析技术(以下简称:静态分析技术),通过对该领域相关工作的回顾,将静态分析技术的研究分为两个方向:传统静态分析和基于学习的静态分析。传统静态分析主要是利用数据流分析、污点分析等一系列软件分析技术对软件的源代码进行建模分析;基于学习的静态分析则是将源代码以数值的形式表示并提交给学习模型,利用学习模型挖掘源代码的深层次表征特征和关联性。本文首先阐述了软件漏洞分析技术的基本概念,对比了静态分析技术和动态分析技术的优劣;然后对源代码的表示方法进行了说明。接着,本文对传统静态分析和基于学习的静态分析的一般步骤进行了总结,同时对这两个研究方向典型的研究成果进行了系统地梳理,归纳了它们的技术特点和工作流程,提出了当前静态分析技术中存在的问题,并对该方向上未来的研究工作进行了展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号