共查询到20条相似文献,搜索用时 78 毫秒
1.
2.
大数据技术在分析与挖掘交通大数据方面扮演着越来越重要的角色.为了快速有效地对出租车的运营模式与载客策略进行分析,设计效益指数模型对出租车效益进行量化排序,以高效益出租车为研究对象,基于Spark大数据框架开发一个轨迹数据处理与可视化平台.首先,处理高效益出租车轨迹数据得到用于可视化的特征数据.而后进行可视化分析,包括:统计分析高效益出租车运营特性并实现交互式图表展示,采用蜂窝形格网与DBSCAN算法对不同时段高效益出租车载客点进行热点可视化,实现基于缓冲区的交互式轨迹查询并提取出轨迹相关因子.最后,利用成都市出租车GPS轨迹数据验证了所提平台的有效性及可靠性. 相似文献
3.
陈虹君 《数字社区&智能家居》2014,(35)
Hadoop是大数据挖掘的主流平台,在该平台上可以进行大数据的挖掘。数据挖掘的规模和速度是我们需要考虑的问题。Spark框架是一个优秀的框架,它集机器学习,图计算和在线学习为一身,是简洁、强大、高效的。该文先讨论了Spark的组成,接着讨论Spark的任务调度方式,最后讨论了Spark的环境及测试。 相似文献
4.
Spark SQL是Spark技术的一个模块,在不使用Scala语言的前提下,可以对结构化数据进行处理和优化.本文重点研究Spark SQL的架构、DateFrame数据抽象、基于数据分类的改进交替最小二乘算法(ALS)等几个方面,研究在推荐系统中处理结构化数据面临的性能优化问题研究.提出最小二乘算法对Spark SQL的Dateset进行优化,在操作Hive数据集和HBase分布式数据的过程中,整合二者的优点,改进了数据读写速度,优化了数据组织框架.在推荐系统进行结构化文件处理的问题上,具有一定的指导意义. 相似文献
5.
于海浩 《计算机光盘软件与应用》2014,(11):110-110
抄袭检测从根本上说是一个文本相似度的计算问题,需要迅速准确的在海量文集中对文本的原创性进行检测,耗费大量时间和资源,是计算密集和数据密集的复杂过程。采用分布式计算是是提高检测效率的有有效手段之一。本文提出了一套基于Spark的分布式抄袭检测云计算框架,该框架使用由集群资源管理器Apache Mesos,支持内存驻留的MapReduce计算框架,分布式Hadooop文件系统构成的分布式计算集群。测试结果表明,此框架比Hadooop传统分布式计算框架在效率上有较大提升。 相似文献
6.
目前研究大数据局部频繁项集挖掘一般采用深度挖掘数据信息的算法设计,但其挖掘成本过高,挖掘效率过低,因此,基于Spark框架提出一种新式大数据局部频繁项集挖掘算法设计.筛选大数据局部频繁项集挖掘算法,结合框架结构分析方式处理挖掘信息,根据筛选的算法分析数据挖掘的深层内容,并不断调节数据挖掘与挖掘空间之间的矛盾,缓解挖掘算... 相似文献
7.
传统的基于DSP与FPGA的数字信号处理技术更加适用于实时信号处理,且受到数据规模和频率分辨率的限制,使得其不适于进行大规模数据下的离线式数据处理、分析与挖掘的应用.目前工业大数据分析平台可以采用Spark作为实时信号处理和离线信号处理加速的计算引擎,但该分析平台缺少适用于分布式并行计算引擎的数字信号处理等数学计算的解决方案.基于此,本文提出了基于Spark的分布式数字信号处理算法库,为面向分析的工业大数据应用场景提供支撑.本文介绍了该算法库的架构设计,并以FFT算法和DFT算法为例介绍了传统数字信号处理算法在Spark下的分布式实现,最后对算法库进行了正确性测试和性能分析.结果表明该算法库能够正确完成数字信号处理的功能,同时可以满足工业大数据分析平台对于大规模数据集进行数字信号处理的需求. 相似文献
8.
由于传统信息检索方法检索时间长,检索误差率高,研究基于Spark框架的图书馆文献信息检索方法。首先,预处理文献信息数据,结合信息相似度,提取特征数据集合中的敏感数据获得属性特征。其次,基于Spark框架批处理数据,训练待测样本进行目标跟踪,寻找最优解集。对信息的特征进行查询,提取其中的关键词并在已建立的文本索引结构上进行检索和融合,运用K-Means聚类方法对融合结果进行重新排序。采用布尔查询机制构造文献检索模型,将不同信息数据多重倒排文献进行索引从而完成信息检索。实验结果表明,运用该方法检索时间最短,误差率最低,完成图书馆文献信息检索方法的优化。 相似文献
9.
响应速度较慢和推荐内容与用户上下文信息匹配程度低是当前影片推荐系统迫切需要解决的问题。针对上述挑战,提出Spark平台下基于上下文信息的影片混合推荐方法。它利用分布式并行计算技术Spark进行加速,来提高系统对于海量数据的检索与计算速度,从而减少了系统响应时间。同时该方法将“上下文推荐”和“交替最小二乘的协同过滤(ALS)”融合成一种混合推荐方法,提高了系统的推荐精度。实验结果表明,所提出的混合推荐方法有不错的效果。 相似文献
10.
随着电子商务的发展,基于协同过滤的推荐算法越来越受欢迎,与此同时,该算法的缺陷也越来越明显,如数据稀疏性、系统可扩展性等。另外传统的单机计算模型也难以满足海量数据的实时推荐需求。为此,提出一种利用Spark计算模型实现分布式推荐的方法。该推荐方法采用基于谱聚类和朴素贝叶斯的混合推荐算法,同时使用增量式更新,在不全部重新训练模型的基础上,对模型进行局部修改。实验结果表明,较传统的单机模式推荐算法,基于Spark计算模型的分布式推荐算法,在一定程度上克服了数据稀疏性,提高了系统的可扩展性,降低了系统的响应时间。 相似文献
11.
随着移动互联网的广泛普及,国内网络游戏市场日趋饱和,游戏公司获得新用户的成本不断增加,如何预防存量用户的流失已经成为市场营销的重心。提出了一种基于Spark平台的网络游戏用户流失预测方法,基于一个真实游戏日志数据对用户进行了流失预测。首先,从日志数据中抽取和计算了用户特征;随后,按权重选取了一组重要特征;最后,以特征为输入、流失与否为输出进行了二分类建模。综合比较了随机森林、支持向量机、多层感知机、梯度提升决策树和逻辑回归等6种常见分类算法。实验结果表明,随机森林算法表现最优,模型预测精度达到91%。 相似文献
12.
为有效解决互联网医疗时代海量心电数据的处理问题,在Spark云平台下,提出一种双层并行化的改进遗传K-means聚类算法,用于心电数据挖掘。克服传统K-means算法对初始中心点敏感以及串行聚类算法效率低下等问题,结合Mallat小波变换预处理技术,较好实现海量心电数据中R波的提取。通过对MIT-BIH数据库的读取和分析,其结果表明,该算法比传统遗传K-means算法具有更高的聚类准确度,与串行聚类算法和Map Reduce计算模型相比,运行效率也有了较大提升。 相似文献
13.
针对在共享集群中进行任务调度时,无法兼顾任务的响应速度与任务完成时间的问题,提出一种基于截止时间的自适应调度算法。该算法以用户提交的截止时间为依据,根据任务的执行进度自适应地分配适当的计算资源。不同于传统调度方式里由用户提交固定资源参数,该算法在资源约束的情况下会对优先级高的任务进行抢占式调度以保证服务质量(QoS),并在抢占过程结束后额外分配资源补偿被抢占的任务。在Spark平台进行的任务调度实验结果显示,与另一种资源协调者(YARN)框架下的调度算法相比,所提算法能严格地控制短任务的响应速度,并使长作业的任务完成时间缩短35%。 相似文献
14.
针对传统的云计算任务调度算法存在效率低、利用率不高的问题,采用改进的果蝇算法(improved fruit fly optimization algorithm,IFOA)和遗传算法(genetic algorithm,GA)融合的算法用于处理任务调度。首先,将任务调度转换为DAG(directed acyclic graph,DAG)并通过Kruskal算法将任务调度顺序进行化简;其次,针对果蝇算法的种群采用正交数组和量化技术进行初始化,对果蝇算法边界进行处理,对探索步长进行动态调整,并使用GA算法对个体选择进行选择处理;最后,将融合后生成的算法IFOA-GA用于仿真平台中的云计算任务调度,相对于IGA、IFOA,IPSO算法在QoS的四个指标对比中具有一定的优势,说明IFOA-GA算法能够有效地提高云计算调度效率。 相似文献
15.
针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher score的特征选择策略(FS-NRS),通过衡量特征的相关性和冗余度,对特征进行过滤,有效减少了冗余及无关特征的数量;其次,提出了一种随机选择和等距提取的扫描策略(S-RSEE),保证了所有特征能够同概率被利用,解决了多粒度扫描两端特征利用率低的问题;最后,结合Spark框架,实现级联森林并行化训练,提出了基于重要性指数的特征筛选机制(FFM-II),筛选出非关键性特征,平衡增强类向量与原始类向量维度,从而加快模型收敛速度,同时设计了基于SCA的任务调度机制(TSM-SCA),将任务重新分配,保证集群负载均衡,解决了级联森林并行效率低的问题。实验表明,PDF-SNRSCA算法能有效提高深度森林的分类效果,且对深度森林并行化训练的效率也有大幅提升。 相似文献
16.
为提高混合遗传算法的计算效率和求解质量,提出一个并行混合遗传算法框架。该框架主要由遗传算法、小生境操作和单纯形3部分组成,遗传算法和小生境操作采用串行执行方式,单纯形采用分布式并行执行方式。分布式并行计算环境由4台计算机通过交换机连接构成,并设计了一个动态任务调度方案。一个典型工程算例验证了新算法的有效性,并且在分布式并行环境下取得了较好的加速比和并行效率。 相似文献
17.
实现网格计算的一个重要目的在于实现地理分布、异构资源的统一描述方法,提供用户虚拟的统一资源界面,并将用户提出的服务要求透明、动态地分配给最适应的资源上执行。针对目前任务调度的应用现状,提出了一种既能使资源负载均衡又能充分利用系统资源的并行克隆遗传算法,该启发式算法能显著地降低资源最优分配中的计算复杂度,使其能满足实时调度的需要。实验结果表明这种算法优于其他调度算法。 相似文献
18.
BP算法(反向传播算法)以其良好的非线性逼近能力、泛化能力以及实用性成为了人工神经网络训练算法中应用最为广泛的算法.但同时使用BP算法又存在收敛速度较慢、易陷入局部极小值等问题.为了将BP算法用于大规模数据分类问题,采用MapReduce思想,将大数据集切分成若干小的数据集来并行加速处理,同时引入Bagging算法的思想来综合并行结果,提高分类的准确率.通过在各个节点上根据子数据集独立地训练各个BP神经网络,直至各网络收敛,再将各节点上的网络收集起来进行集成,形成最终的分类器.基于Spark平台的实验表明,本文提出的算法具有良好的并行加速性能,且具有较高的分类准确率. 相似文献
19.
随着大数据时代的到来,大规模多标签数据挖掘方法受到广泛关注。多标签最近邻算法MLKNN是一种简单高效、应用广泛的多标签分类方法,其分类精度在很多应用中都高于其他常见的多标签学习方法。然而随着需要处理的数据规模越来越大,传统串行ML-KNN算法已经难以满足大数据应用中时间和存储空间上的限制。结合Spark的并行机制和其基于内存的迭代计算特点,提出了一种基于Spark并行框架的ML-KNN算法SML-KNN。在Map阶段分别找到待预测样本每个分区的K近邻,随后Reduce阶段根据每个分区的近邻集合确定最终的K近邻,最后并行地对近邻的标签集合进行聚合,通过最大化后验概率准则输出待预测样本的目标标签集合。串行和并行环境下的对比实验结果表明,SML-KNN在保证分类精度的前提下性能与计算资源呈近似线性关系,提高了ML-KNN算法对大规模多标签数据的处理能力。 相似文献
20.
科学工作流处理的问题复杂,依赖于集群或网格平台,云计算的出现为科学工作流又提供了一个可供选择的平台;云计算环境下数据密集型应用的科学工作流处理和传输的数据量巨大,减少数据中心不同集群间数据的传输次数和传输量是个挑战性的问题。科学工作流要处理的数据间存在依赖关系,基于数据间的依赖关系最大关联量建立关联矩阵,通过键能算法对关联矩阵进行聚类,把最大相关的数据聚集到一起,然后通过K分割方法,把聚类矩阵分割为k个部分,每个部分部署到数据中心相关的集群里。仿真结果表明,本方法能有效地减少数据中心不同集群间数据的移动次数和移动量。 相似文献