首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
针对传统文献推荐过程中易于发生文献查找困难、文献浏览迷失等问题,基于大数据特征,利用内存计算中Spark系统框架高的容错机制和实时运算优势,提出了一种混合关联的图书馆推荐算法.利用Spark RDD来支撑字符串匹配,利用Spark MLlib支撑相似度匹配,通过TF-IDF()算法获得分词的TF/IDF值作...  相似文献   

3.
研究海量数据基础上高速公路流量预测建模问题,提出了一种基于ARIMA-BPNN的混合预测模型,并建立基于Spark的分布式处理平台.建立ARIMA时间序列模型提取数据的线性变化规律,研究BPNN的残差预测;建立混合预测模型,研究并行化实现及其运行效率;建立Spark分布式计算平台下高速公路流量数据的预测模型并进行仿真实验.结果表明,Spark框架下的ARIMA-BPNN组合模型优于单一的ARIMA的预测,对预测拟合效果和精度方面表现良好,对海量数据处理有明显优势.  相似文献   

4.
互联网时代背景下,如何提供高效并精确的文献检索服务是目前图书馆文献检索领域的难题.针对这一问题,首先分析了现阶段图书馆信息检索领域的研究方向和应用需求,然后提出基于Spark内存计算框架的文献检索服务方案,通过添加惩罚系数对Spark推荐算法进行了优化,最后以某高校图书馆近5年的检索数据进行反演.研究发现:首先,基于S...  相似文献   

5.
陈恒 《计算机科学》2016,43(Z11):93-96
随着大规模语义数据的涌现,研究高效的并行化语义推理成为热点问题之一。现有推理框架大多存在可扩展性方面的不足,难以满足大规模语义数据的需求。针对现有推理框架的不足,提出一种基于Spark的大规模语义数据分布式推理框架。该框架主要包括语义建模、规则提取和基于Spark的并行推理机等3个模块。通过过程分析和推理实例验证,提出的分布式并行推理的计算性能(T(n)=O(log2n))远远优于顺序式推理的计算性能(T(n)=O(n))。  相似文献   

6.
随着大数据应用的发展,需要处理的数据量急剧增长,企业为了保证数据的及时处理并快速响应客户,正在广泛部署以Apache Spark为代表的内存计算系统.然而TB级别的内存不但造成了服务器成本的上升,也促进了功耗的增长.由于DRAM的功耗、容量密度受限于工艺瓶颈,无法满足内存计算快速增长的内存需求,因此研发人员将目光逐渐移向了新型的非易失性内存(non-volatile memory, NVM).由DRAM和NVM共同构成的异质内存,具有低成本、低功耗、高容量密度等特点,但由于NVM读写性能较差,如何合理布局数据到异质内存是一个关键的研究问题.系统分析了Spark应用的访存特征,并结合OpenJDK的内存使用特点,提出了一套管理数据在DRAM和NVM之间布局的编程框架.应用开发者通过对本文提供接口的简单调用,便可将数据合理布局在异质内存之中.仅需20%~25%的DRAM和大量的NVM,便可以达到使用等量的DRAM时90%左右的性能.该框架可以通过有效利用异质内存来满足内存计算不断增长的计算规模.同时,“性能/价格”比仅用DRAM时提高了数倍.  相似文献   

7.
抄袭检测从根本上说是一个文本相似度的计算问题,需要迅速准确的在海量文集中对文本的原创性进行检测,耗费大量时间和资源,是计算密集和数据密集的复杂过程。采用分布式计算是是提高检测效率的有有效手段之一。本文提出了一套基于Spark的分布式抄袭检测云计算框架,该框架使用由集群资源管理器Apache Mesos,支持内存驻留的MapReduce计算框架,分布式Hadooop文件系统构成的分布式计算集群。测试结果表明,此框架比Hadooop传统分布式计算框架在效率上有较大提升。  相似文献   

8.
崔光范  许利杰  刘杰  叶丹  钟华 《计算机科学》2018,45(9):104-112, 145
随着信息化的深入,大数据在各个领域产生了巨大的价值,海量数据的存储和快速分析成为新的挑战。传统的关系型数据库由于性能、扩展性的不足以及价格昂贵等方面的缺点,难以满足大数据的存储和分析需求。Spark SQL是基于大数据处理框架Spark的数据分析工具,目前已支持TPC-DS基准,成为大数据背景下传统数据仓库的替代解决方案。全文检索作为一种文本搜索的有效方式,能够与一般的查询操作结合使用,提供更加丰富的查询和分析操作。目前,Spark SQL仅支持简单的查询操作,不支持全文检索。为了满足传统业务迁移和现有业务的使用需求,提出了分布式全文检索框架,涵盖了SQL文法、SQL翻译转换框架、全文检索并行化、检索优化4个模块,并在Spark SQL上进行了实现。实验结果表明相比于传统的数据库,在两种检索优化策略下,该框架的索引构建时间、查询时间分别减少到传统数据库的0.6%/0.5%和1%/10%,索引存储量减少为传统数据库的55.0%。  相似文献   

9.
针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务标识符垂直排列,以此解决扫描整个数据集的缺陷。然后,通过FP-Growth算法构建频繁模式树,并生成频繁1-项集。接着,通过扫描垂直数据集来计算项集的支持度,从而识别出非频繁项,并将其从数据集中删除以降低数据尺寸。最后,通过迭代过程来生成频繁 -项集。在标准数据集上的实验结果表明,该算法能够有效挖掘出频繁项集,在执行时间方面具有很大的优越性。  相似文献   

10.
针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有面向大数据的计算框架。首先,基于朴素贝叶斯文本分类模型将训练样本数据集分为◢m◣类;进一步在训练阶段中,将前一个MapReduce的输出作为后一个MapReduce的输入,采用四个MapReduce作业得出模型。该设计过程充分利用了MapReduce的并行优势,最后在分类器测试时取出最大值所属的类标签值。在Newgroups数据集进行实验,在所有五类新闻数据组上的分类都取得了99%以上的结果,并且均高于对比算法,证明了提出方法的准确性。  相似文献   

11.
王黎  吕殿基 《微型电脑应用》2021,(4):130-132,136
目前研究大数据局部频繁项集挖掘一般采用深度挖掘数据信息的算法设计,但其挖掘成本过高,挖掘效率过低,因此,基于Spark框架提出一种新式大数据局部频繁项集挖掘算法设计.筛选大数据局部频繁项集挖掘算法,结合框架结构分析方式处理挖掘信息,根据筛选的算法分析数据挖掘的深层内容,并不断调节数据挖掘与挖掘空间之间的矛盾,缓解挖掘算...  相似文献   

12.
传统信息检索信息资源缺少统一的语义描述,用户难以查找到与需求相关的资源,导致查询精确度较低,针对这一缺陷,实现语义级的信息检索的研究成为目前研究的热点。在现有的语义信息检索方法的基础上,提出了一种新的基于语义网的语义信息检索框架,详细描述框架的三大模块,并针对该框架结构以及语义网技术对语义检索的算法进行研究,给出实现语义检索的算法。该算法对本体树进行深度优先遍历,得出准确的查询结果,提高了信息检索的查全率。  相似文献   

13.
地震往往会造成十分严重的人员伤亡和财产损失,如能对已知地震数据进行系统的分析和研究,并从中找出一些规律,就能尽早地采取一些防震避震措施。通过使用大数据技术中的Spark大数据处理框架技术对地震数据进行了详细的分析,并使用SSM框架技术对大数据分析的结果进行了可视化展示。系统的实现对于人们防震避震和研究地震的特点具有十分重要的作用。  相似文献   

14.
Hadoop是大数据挖掘的主流平台,在该平台上可以进行大数据的挖掘。数据挖掘的规模和速度是我们需要考虑的问题。Spark框架是一个优秀的框架,它集机器学习,图计算和在线学习为一身,是简洁、强大、高效的。该文先讨论了Spark的组成,接着讨论Spark的任务调度方式,最后讨论了Spark的环境及测试。  相似文献   

15.
以Spark为代表的集群并行计算框架在大数据、云计算浪潮中广泛应用,其运行性能优化是应用的关键。为提高运行性能,分析了Spark框架执行流程、内存管理机制,结合Spark和JVM两个层面内存管理的特点,提出3条优化策略:(1)通过序列化和压缩方式减少缓存数据大小,使得GC消耗降低,提升性能;(2)在一定范围内减少运行内存大小,用重算代替缓存,可以提升性能;(3)配置适当的JVM新生代和老生代的比例、Spark计算与缓存空间比例等内存分配参数,能够较大程度地提升性能。实验结果表明,序列化和压缩能够减少缓存占用空间42%;提交运行内存由1 000 MB减少到800 MB时,性能增加21%;优化内存配比,性能比默认参数有10%~30%的提升。  相似文献   

16.
需求跟踪作为软件过程管理中的一个重要环节,在保障系统质量、应对需求变更方面发挥着重要作用。利用需求跟踪,软件工程师可以发现制品之间的依赖关系、评估需求覆盖率和计算需求变更的影响。随着软件项目的日益复杂和软件制品数量的增加,跟踪关系的自动恢复和维护日益受到业界关注。近年来,人们对于基于信息检索的需求跟踪自动化技术做了大量研究。针对基于信息检索的需求跟踪技术进行综述,从技术改进、支撑工具和度量指标三个方面进行了深入分析。在此基础上,对其发展趋势和有待深入的研究点进行了展望。  相似文献   

17.
大数据的挖掘是当今的研究热点,也有着巨大的商业价值。新型框架Spark部署在Hadoop平台上,它的机器学习算法几乎可以完全替代传统的Mahout Map Reduce的编程模式,但由于Spark的内存模型特点,执行速度快。该文研究了Spark中的机器学习中的聚类算法KMeans,先分析了算法思想,再通过实验分析其应用的方法,然后通过实验结果分析其应用场景和不足。  相似文献   

18.
目前,经过国内外专家和学者长时间的应用与研究,协同过滤推荐算法的优势日益明显,并且逐步成为推荐系统的主流算法.新兴的计算框架Spark得益于基于内存计算的优势,与传统的MapReduce大数据计算框架在运算效率上比较有着显著的提高.通过在Spark计算框架下进行各种协同过滤推荐算法的准确识别率的对比得出结论,基于ALS...  相似文献   

19.
李燕妮 《信息与电脑》2022,(19):118-120
由于检索计算过程中运行逻辑存在重叠关系,导致并发请求数量较多时,系统的效率会受到明显影响。为此,提出了一个基于云计算的网络体育文献信息检索系统。系统设计时,将具有较高计算能力的MYC-YA157C-V3核心板作为系统的硬件载体,采用云计算中的Agent技术设计了应用层、Agent技术层、平台层以及网络层的系统构架。Agent技术层以单个请求为核心,建立对应的检索Agent,使得检索计算过程中运行逻辑相互独立。平台层根据信息要素匹配结果控制检索Agent的移动方向,并将满足检索要求的信息通过网络层发送至应用层。测试结果表明,设计系统在并发请求条件下,检索时间不超过3.00 s,具有较高的检索效率。  相似文献   

20.
强化学习能够通过自主学习的方式对机器人难以利用控制方法实现的各种任务进行 训练完成,有效避免了系统设计人员对系统建模或制定规则。然而,强化学习在机器人开发应用 领域中训练成本高昂,需要花费大量时间成本、硬件成本实现学习训练,虽然基于仿真可以一定 程度减少硬件成本,但对类似 Gazebo 这样的复杂机器人训练平台,仿真过程工作效率低,数据 采样耗时长。为了有效解决这些问题,针对机器人仿真过程的平台易用性、兼容性等方面进行优 化,提出一种基于 Spark 的分布式强化学习框架,为强化学习的训练与机器人仿真采样提供分布 式支持,具有高兼容性、健壮性的特性。通过实验数据分析对比,表明本系统框架不仅可有效提 高机器人的强化学习模型训练速度,缩短训练时间花费,且有助于节约硬件成本。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号