期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

沈洪《Internet》2014,(3):110-112

Spark Streaming是建立在Spark上的实时计算框架,通过它提供的API和基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。本文将详细介绍Spark Streaming实时计算框架的原理与特点、适用场景及目前在阿里生产环境中的应用实践。相似文献

2.

Spark Streaming框架下的气象自动站数据实时处理系统

赵文芳刘旭林《计算机应用》2018,38(1):38-43

针对现有气象自动站业务平台面临处理数据不及时、交互式响应慢、统计时效差等问题,提出了使用Spark Streaming技术和HBase解决该问题的方法,将实时计算框架和分布式数据库系统结合起来实现大规模流式数据处理。使用Flume收集自动站数据,Spark Streaming对数据进行流式处理并存储到HBase数据库中,并设计Spark框架下的自动站数据流式入库处理算法和要素极值的实时统计算法,在Cloudera平台下实现了一个高速可靠的实时采集、处理、统计的应用系统。通过对比分析和性能监测,验证了该系统具有低延迟和高吞吐量的优势,运行状况良好,负载均衡。实验结果表明,Spark Streaming用于气象自动站的实时业务处理,数据并行写入HBase、基于HBase的查询和各类要素统计均能达到毫秒级响应,完全能满足自动站数据的应用需求,有效地支撑天气预报业务。相似文献

3.

基于Spark Streaming的快速视频转码方法

付眸杨贺昆吴唐美何润冯朝胜康胜《计算机应用》2018,38(12):3500-3508

针对单机视频转码方法转码速度较慢和面向批处理的并行转码方法效率提升有限的问题,基于Spark Streaming分布式流处理框架,提出了一种面向流处理的快速视频转码方法。首先,使用开源多媒体处理工具FFmpeg,构建了自动化的视频切片模型,提出编程算法;然后,针对并行视频转码的特点,对弹性分布式数据集（RDD）进行研究,构建了视频转码的流处理模型;最后,设计视频合并方案,将合并后的视频文件进行有效储存。根据所提出的快速视频转码方法设计与实现了基于Spark Streaming的快速视频转码系统。实验结果表明,与面向批处理Hadoop视频转码方法相比,所提方法转码效率提升了26.7%;与基于Hadoop平台的视频并行转码方法相比,该方法转码效率提升了20.1%。相似文献

4.

基于Spark Streaming的视频大数据并行处理方法

张元鸣虞家睿陆佳炜高飞肖刚《计算机工程与科学》2021,43(10):1736-1743

视频设备被广泛应用于公共区域、智能交通和工业生产等许多领域,其产生的视频数据具有体量巨大、速度极快、价值稀疏和完全非结构化等大数据典型特征。为了进一步提高视频大数据的处理性能,提出了一种基于Spark Streaming的视频大数据并行处理方法,设计了基于Spark Streaming的视频大数据并行处理框架,针对帧间无关分析算法和帧间相关分析算法分别给出了并行化策略,前者利用数据并行机制将去冗余后的视频帧映射到不同节点并行处理,后者利用流水线并行机制将分析算法的各个算子根据依赖关系映射到不同节点并行处理;结合实际应用对并行处理框架和并行化策略进行了评价,设计了电梯乘客数并行检测算法和电梯门异常并行检测算法,当节点数增加到16个时,电梯乘客数检测算法的性能加速比为615%,电梯门异常检测的性能加速比为253%。相似文献

5.

基于匹配算法的藏文文本词语校对研究

王福钊周雁《计算机与数字工程》2021,49(7):1433-1436

藏文信息化发展至今已经取得了一定的成果,但存在的问题还有许多.藏文文本校对是实现藏文信息处理的基础,是藏文信息处理必不可少的工作.藏文文本校对的内容较广,方面较多,文中主要以藏文文本的词语校对作为研究的目标,通过使用最大匹配算法的思想在不进行分词的情况下对文本的词语作校对.文中对校对算法进行了叙述,并通过实验验证了该方法是可行性和校对效果. 相似文献

6.

大整数Comba和Karatsuba乘法的多核并行化研究

蒋丽娟刘芳芳赵玉文杨超蔡颖《计算机系统应用》2016,25(11):232-236

大整数运算广泛地应用于公钥加密算法、大规模科学计算中高精度浮点数运算类以及构建大特征值等领域,然而其大部分算法空间和时间开销都很大,尤其对于核心运算之一的大整数乘法,当数据达到一定规模时,超长的串行计算时间已成为制约算法应用的巨大瓶颈.近几年来,伴随着多核、众核芯片的迅猛发展,通过充分挖掘算法本身的并行度以利用并行处理器的强大计算能力,进而高效地提升算法性能,成为一种研究趋势.本文基于通用多核并行计算平台,研究了大整数乘法Comba及Karatsuba快速算法的并行化,提出了高效的多核并行算法.在算法实现及性能优化上,采用了OpenMP+SIMD的多级并行技术,使性能获得巨大提升.在性能测试上,我们使用优化的并行算法与原始串行算法进行对比试验,结果显示,8线程并行Comba算法和Karatsuba算法相比串行对应算法分别实现了5.85倍以及6.14倍的性能加速比提升. 相似文献

7.

Spark下的并行多标签最近邻算法

王进夏翠萍欧阳卫华王鸿邓欣陈乔松《计算机工程与科学》2017,39(2):227-235

随着大数据时代的到来,大规模多标签数据挖掘方法受到广泛关注。多标签最近邻算法MLKNN是一种简单高效、应用广泛的多标签分类方法,其分类精度在很多应用中都高于其他常见的多标签学习方法。然而随着需要处理的数据规模越来越大,传统串行ML-KNN算法已经难以满足大数据应用中时间和存储空间上的限制。结合Spark的并行机制和其基于内存的迭代计算特点,提出了一种基于Spark并行框架的ML-KNN算法SML-KNN。在Map阶段分别找到待预测样本每个分区的K近邻,随后Reduce阶段根据每个分区的近邻集合确定最终的K近邻,最后并行地对近邻的标签集合进行聚合,通过最大化后验概率准则输出待预测样本的目标标签集合。串行和并行环境下的对比实验结果表明,SML-KNN在保证分类精度的前提下性能与计算资源呈近似线性关系,提高了ML-KNN算法对大规模多标签数据的处理能力。相似文献

8.

基于Spark的大数据混合计算模型 总被引：2，自引：0，他引：2

胡俊胡贤德程家兴《计算机系统应用》2015,24(4):214-218

现实世界大数据应用复杂多样,可能会同时包含不同特征的数据和计算,在这种情况下单一的计算模式多半难以满足整个应用的需求,因此需要考虑不同计算模式的混搭使用。混合计算模式之集大成者当属UCBerkeley AMPLab的Spark系统,其涵盖了几乎所有典型的大数据计算模式,包括迭代计算、批处理计算、内存计算、流式计算(Spark Streaming)、数据查询分析计算(Shark)、以及图计算(GraphX)。 Spark提供了一个强大的内存计算引擎,实现了优异的计算性能,同时还保持与Hadoop平台的兼容性。因此,随着系统的不断稳定和成熟, Spark有望成为与Hadoop共存的新一代大数据处理系统和平台。本文详细研究和分析了Spark生态系统,建立了基于Spark平台的混合计算模型架构,并说明通过spark生态系统可以有效地满足大数据混合计算模式的应用。相似文献

9.

基于MapReduce的并行PLSA算法及在文本挖掘中的应用 总被引：1，自引：0，他引：1

李宁罗文娟庄福振何清史忠植《中文信息学报》2015,29(2):79-86

PLSA(Probabilistic Latent Semantic Analysis)是一种典型的主题模型。复杂的建模过程使其难以处理海量数据,针对串行PLSA难以处理海量数据的问题,该文提出一种基于MapReduce计算框架的并行PLSA算法,能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,并把并行PLSA算法运用到文本聚类和语义分析的文本挖掘应用中。实验结果表明该算法在处理较大数据量时表现出了很好的性能。相似文献

10.

一种基于Spark的大规模语义数据分布式推理框架

陈恒《计算机科学》2016,43(Z11):93-96

随着大规模语义数据的涌现,研究高效的并行化语义推理成为热点问题之一。现有推理框架大多存在可扩展性方面的不足,难以满足大规模语义数据的需求。针对现有推理框架的不足,提出一种基于Spark的大规模语义数据分布式推理框架。该框架主要包括语义建模、规则提取和基于Spark的并行推理机等3个模块。通过过程分析和推理实例验证,提出的分布式并行推理的计算性能(T(n)＝O(log₂n))远远优于顺序式推理的计算性能(T(n)＝O(n))。相似文献

11.

基于Spark的指纹定位数据处理方法

下载免费PDF全文

陈熙宁马蔚吟李力《计算机工程与应用》2019,55(4):79-83

指纹定位技术是一种简单高效的无线定位技术，它不受无线信号多径效应和反射造成的干扰，具有较好的定位精度。然而指纹定位技术需要建立庞大的离线指纹数据库，随着指纹数据库规模的扩大，传统的指纹定位算法已经难以满足大数据应用中实时性的需求。结合指纹定位算法的特点和Spark计算引擎基于内存计算的优势，设计并实现了基于Spark的指纹定位数据处理方法。在Map阶段分别找到查询点在每个分区内的[K]近邻，在Reduce阶段规约各分区[K]近邻获得全局[K]近邻，最后通过加权求值获得最终的定位坐标。集群实验表明，基于Spark的指纹定位数据处理方法在一定并行度下有较好的加速比，在大规模指纹数据库下有实时定位处理的能力。相似文献

12.

基于方法调用一般化模型的并行性分析 总被引：3，自引：0，他引：3

于勐阳雪林臧婉瑜谢立孙钟秀《计算机学报》2002,25(4):403-408

该文给出了一种考虑了面向对象语言的多态和对象引用别名问题的对象方法间并行性的分析方法，这种方法用于面向对象语言并行化中的并行性分析，文中首先给出了一般化的方法调用模型，然后基于该模型给出了表达式化简，过程和过程间分析的算法，该算法可以求出变量的定义和使用集合，由于并行性分析，该文给出的简单例子即可以将该文的和相关的工作加以区别。其技术已经在作者研制的Java并行化编译器JAPS－Ⅱ中实现。相似文献

13.

Spark平台上利用网络加权Voronoi图的分散迭代社区聚类并行化研究

颜烨张学文王立婧《计算机应用与软件》2021,38(3):14-21,38

针对当下数据大规模增长对计算能力需求的急剧增长,传统独立运行的机器在大规模网络社区中执行社区检测操作时无法提供所需的数据处理能力的问题,提出一种网络加权Voronoi图的并行分散迭代社区聚类法(NWVD-PDICCM)。利用基于网络加权Voronoi图的分散迭代社区聚类方法(NWVD-DICCM)提取大型网络的有效社区结构。结合并行聚类方法,将DICCM方法的操作从串行过程转换为并行计算。利用执行并行社区聚类时的图分区,通过最小化从属工作者之间的通信来加速该过程。仿真实验结果表明,NWVD-PDICCM可以与一系列计算机架构平台共同运行,并且实现基于Spark平台的并行操作,相比其他几种较新的方法,在大规模网络数据处理能力方面得到显著提升。相似文献

14.

基于Spark的CT图像FBP重建算法程序并行设计

下载免费PDF全文

曾有灵陈耿铎熊威李喆《计算机工程与应用》2019,55(10):218-224

将常用于CT图像重建的滤波反投影算法程序设计成能够运行在大数据框架Spark中的并行模式,以此来提高计算效率并实现批量图像的重建,缩短图像重建时间。基于分布式计算框架Spark,利用其图像处理工具Thunder,将滤波反投影算法在图像重建过程中设计成并行程序模式,实现图像的片间并行重建。实验结果表明,随着Spark集群规模的不断扩大,在确保重建图像质量的前提下,重建一定数量的CT图像相比单机模式下时间显著缩短,并行滤波反投影算法具有完全加速比,并行效率趋近于1。基于Spark集群实现的滤波反投影算法能够显著提升CT图像重建速度,并实现大量图像并行重建,可扩展其他的CT图像重建算法,对远程医学图像重建平台的建设具有重要参考意义。相似文献

15.

Parallel 3D Delaunay Triangulation

P. Cignoni C. Montani R. Perego R. Scopigno 《Computer Graphics Forum》1993,12(3):129-142

The paper deals with the parallelization of Delaunay triangulation algorithms, giving more emphasis to pratical issues and implementation than to theoretical complexity. Two parallel implementations are presented. The first one is built on De Wall, an Ed triangulator based on an original interpretation of the divide & conquer paradigm. The second is based on an incremental construction algorithm. The parallelization strategies are presented and evaluated. The target parallel machine is a distributed computing environment, composed of coarse grain processing nodes. Results of first implementations are reported and compared with the performance of the serial versions running on a Unix workstation. 相似文献

16.

基于Spark的并行遗传算法求解多峰函数极值

刘鹏叶帅孟磊王灿《计算机工程与科学》2018,40(2):210-217

遗传算法求解多峰函数极值需进行反复多次的迭代运算,面对大数据样本时会出现运算效率过低的现象,这极大地限制了遗传算法的实际应用。经典Hadoop并行平台可在一定程度上提高遗传算法的运行效率,而新一代Spark并行平台可以更加充分地发挥遗传算法的并行潜能。设计并实现了基于Spark的并行遗传算法,在各个子节点上并行执行子种群个体的交叉、变异等操作,达到了高度并行化进化种群以高效求取多峰函数极值的目的。为方便比较,同时设计并实现了单机及Hadoop平台下的相应算法。实验结果表明,处理大数据样本时,相比传统单机和Hadoop平台,基于Spark的并行化遗传算法显著降低了求解多峰函数极值的耗时,大幅提高了算法的效率;同时,由于其并行计算带来的强大随机性,也有效避免了种群单一过早收敛的问题,提高了算法的准确性。相似文献

17.

基于Spark的大规模文本k-means并行聚类算法

刘鹏滕家雨丁恩杰孟磊《中文信息学报》2017,31(4):145-153

互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了k-means频繁迭代运算的需求。实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的k-means文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求。相似文献

18.

SGI系统上星载SAR并行成像算法

高国荣王开志刘兴钊韩传钊《计算机工程》2004,30(19):45-46,67

对星载合成孔径雷达(SAR)并行处理算法在分布式共享存储器(DSM)HPC平台下的实现作了深入研究，对比了用消息传递和OpenMP两种并行编程模型实现的并行方案，在此基础上提出了基于进程的共享变量并行模型。这种模型克服了前两种模型的缺点，经过实验测试和实际SAR成像应用，证明是一种高效、稳定的并行方案。相似文献