共查询到17条相似文献,搜索用时 46 毫秒
1.
在传统的数据挖掘过程中,用户需根据专业知识对数据进行预处理,为模型设定参数后构建模型,通过评估指标判断模型是否可行。该过程的不便性体现在模型以黑盒的方式构建,用户不可见其中间过程,模型产生的结果也不易被理解。在海量数据的环境下,传统数据挖掘过程在预处理时异常数据的定位和模型生成后知识的表达方面都有不便。为了解决传统数据挖掘过程存在的问题,本文提出了一种大数据环境下的交互式数据挖掘框架。该框架使交互贯穿整个数据挖掘的过程,使得用户可以轻松定位异常输入源数据,参与模型训练过程,对模型生成的结果溯源。本文还基于Spark对该框架进行了实现,并在食源性疾病爆发预测场景下验证了其可行性。 相似文献
2.
3.
随着互联网和计算机技术的发展,各行各业包括人们的日常生活都在不断产生数据,数据量成几何倍数增长,单台计算机已无法完成数据处理.为了解决单机无法完成海量数据处理的问题,本文采用Hadoop分布式计算平台来解决这个问题.Hadoop的Spark模型是新兴的数据梳理引擎,Spark可直接在内存中读取弹性分布式数据集的数据,避... 相似文献
4.
《计算机应用与软件》2018,(1)
新一代的分布式数据处理框架大大提升了数据处理任务的效率。然而,由于不同数据处理任务需要处理的数据的特性各不相同,因此难以找到一种统一的方法来优化数据处理任务的性能。针对不同的数据集,需要分析其相应的数据特性,才能充分利用内存和计算资源,优化任务执行效率。研究数据倾斜度这一数据特性,提出一种数据倾斜度的量化方法,基于分布式处理框架Spark,通过结合数据采样分析和源代码语义分析的方法,自动判断当前所处理数据集的数据倾斜度与处理代码的适合程度,并基于判断结果提出相应的代码自动优化方案,从而提升任务的运行效率。通过多个数据处理实验,验证了优化后提高数据分析任务效率的效果。 相似文献
5.
孙成 《电脑编程技巧与维护》2020,(4):24-25
在信息化时代,海量的数据信息使得用户难以获取自身感兴趣的物品或许连用户自己都不知道的潜在物品信息,这时候就需要转变思维方式,让物品信息主动找到所需要它的用户.推荐系统就是实现这一理论的中介者,以Spark平台为基础和其他相关联的大数据技术,采用分布式日志收集框架Flume收集用户隐式的行为信息,再将获取的日志数据信息进... 相似文献
6.
7.
飞机飞行试验是飞机交付运营前的必要环节。在飞机飞行试验过程中会产生大量的试验数据,这些数据对飞机的研制、定型、改进具有重要意义。传统的试验数据预处理技术多采用单机工作模式,无法快速处理海量试验数据。鉴于此,对基于spark分布式内存计算技术进行了研究。通过预先剔除参数组中不存在于当前数据文件中的参数群,减少分布式集群间的数据通讯与航空领域429协议、232协议、664协议的数据预处理时间,提高飞行试验的效率。最后,选择30GB飞行试验数据作为实验对象进行验证。结果表明,该方法有效地提高了数据解析效率,克服了传统数据处理方式效率低下,单个机器内存和CPU等硬件条件不足的问题。 相似文献
8.
通过数据分析发现海量数据中的潜在价值,能够带来巨大的收益.Spark具有良好的系统扩展性与处理性能,因而被广泛运用于大数据分析.Spark SQL是Spark最常用的编程接口.在数据分析应用中存在着大量的重复计算,这些重复计算不仅浪费系统资源,而且导致查询运行效率低.但是Spark SQL无法感知查询语句之间的重复计算.为此,提出了基于收益模型的、细粒度的自动数据重用机制Criss以减少重复计算.针对混合介质,提出了感知异构I/O性能的收益模型用于自动识别重用收益最大的算子计算结果,并采用Partition粒度的数据重用和缓存管理,以提高查询效率和缓存空间的利用率,充分发挥数据重用的优势.基于Spark SQL和TachyonFS,实现了Criss系统.实验结果表明:Criss的查询性能比原始Spark SQL提升了46%~68%. 相似文献
9.
10.
《计算机应用与软件》2018,(2)
由于传统的数据处理系统的数据存储与数据处理能力有限,不能满足处理大量数据的需求。为了发挥数据的价值,高效、高性能地处理大量数据集,提出基于Spark系统结合SIMBA的思路共同建立的大数据分析处理系统,基于Spark SQL的查询方式进行检索;在Spark中嵌入索引管理机制,将其封装在RDD内,用于提高查询效率;通过建立线段树存储数据的方式提高数据检索的效率。对于数据预处理时采用Range Partitioner分区策略的方式对数据进行分区,基于全局过滤和局部索引进行查询。保证该系统在进行查询操作时能够保持高吞吐量和低延迟特性,提高查询效率。 相似文献
11.
12.
从海量出租车GPS轨迹数据中挖掘和分析城市出租车乘客的出行特征,可以为城市交通管理者和出租车行业管理者在城市交通规划与管理、城市交通流均衡与车辆调度等方面提供决策依据.基于Spark大数据处理分析平台,选择YARN作为资源管理调度系统,采用HDFS分布式存储系统,对出租车GPS轨迹数据进行挖掘.给出了基于Spark平台的出租车乘客出行特征的挖掘方法,包括出租车乘客出行距离分布、出租车使用时间分布及出租车出行需求.实验结果表明,基于Spark平台分析方法能够快速且准确的分析出出租车乘客出行特征. 相似文献
13.
城市时空热点指城市居民来往次数较多且交通流量较大的时空区域。确定城市时空热点在城市基础设施建设、交通规划、商铺选址、打击犯罪等公共服务领域有大量的应用。目前的热点检测通常是在收集到的全部出租车轨迹上,采用Getis-Ord统计学方法,把轨迹按照时空立方单元进行划分,计算所有轨迹数据覆盖下的热点单元,作为城市时空热点。由于积累的轨迹数量庞大且计算复杂,现有检测算法的重点放在了如何应对海量的数据上。但随着实际应用的扩展,很多需求下的热点检测不需要用到全部数据,适当的数据组织可以使热点检测变得高效。针对实际应用的需要,时空热点查询可以按照用户指定参数(地理范围、日期范围、城市热点大小和时间组织方式),计算时空区域的热度,返回TOP-K热度单元作为时空热点。针对不同的查询参数,时空热点查询需要处理的数据不同,小粒度三维网格索引的轨迹数据组织方法能够快速提取需要处理的轨迹数据。用纽约市出租车轨迹数据集在Spark集群进行查询实验,结果证明这样的索引方法和存储策略能够满足指定参数,并大幅减少查询响应时间。 相似文献
14.
针对Spark系统参数量巨大且手动调整参数具有耗时、效率低下等问题,提出一种基于人工神经网络(Artificial Neural Network, ANN)的方法来对Spark系统的配置参数进行自动调整,保障在处理空管大数据时的速度和性能。使用Dell PowerEdge T430服务器测试了空管大数据中5种常用的不同大小的数据集,以验证该方法。研究表明,与默认参数配置相比,该方法可将Spark系统的性能平均提高约35%。随着数据集大小的增加,性能呈现进一步提高的趋势。该方法可以有效地保障Spark系统的参数调整效率,达到高效处理空管大数据的目的。 相似文献
15.
Spark通过使用内存分布数据集,更加适合负载数据挖掘与机器学习等需要大量迭代的工作.但是数据分析师直接使用Spark进行开发十分复杂,包括scala学习门槛高,代码优化与系统部署需要丰富的经验,同时代码的复用度低导致重复工作繁多.本文设计并实现了一种基于Spark的可视化流程式机器学习的方法,一方面设计组件模型来刻画机器学习的基本步骤,包括数据预处理、特征处理、模型训练及验证评估,另一方面提供可视化的流程建模工具,支持分析者设计机器学习流程,由工具自动翻译为Spark平台代码高效执行.本工具可以极大的提高Spark平台机器学习应用开发的效率.论文介绍了工具的方法理论和关键技术,并通过案例表明工具的有效性. 相似文献
16.
17.
运行数据是大数据系统中增长最快、最为复杂也是最有价值的数据资源之一。基于运行数据,软件开发者可以分析关于软件质量和开发模型的重要信息。Spark作为一个分布式系统,在运行过程中会产生大量的运行数据,包括日志数据、监控数据以及任务图数据。开发者可以基于运行数据对系统进行参数调优。然而该系统所涉及的参数种类繁多、影响多样且难以评估,若对系统了解不足,进行参数调优存在较大的困难。提出运行数据历史库的概念,历史库中存储的是以往运行任务的特征信息以及运行配置信息。同时提出了基于历史库搜索的参数优化模型,并实验验证了本文提出的参数优化模型对用户任务性能提升具有较好的效果。 相似文献