期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王静宇赵伟燕《计算机工程与科学》2014,36(6):1018-1022

针对大数据集下文本分类算法在单机上训练和测试过程效率低下的问题,提出了基于Hadoop分布式平台的TFIDF文本分类算法,并给出了算法实现的具体流程。通过MapReduce编程模型实现了考虑到词在文档中位置的并行化TFIDF文本分类算法,并与传统串行算法进行了对比,同时在单机和集群模式下进行了实验。实验表明,使用并行化的TFIDF文本分类算法可实现对海量数据的高速有效分类,并使算法性能得到优化。相似文献

2.

基于云计算平台Hadoop的并行k-means聚类算法设计研究

下载免费PDF全文

赵卫中马慧芳傅燕翔史忠植《计算机科学与探索》2011,38(10)

随着数据库技术的发展和Internet的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临许多新的问题和挑战,如海量数据和新的计算环境等.深入研究了基于云计算平台Hadoop的并行k-means聚类算法,给出了算法设计的方法和策略.在多个不同大小数据集上的实验表明,设计的并行聚类算法具有优良的加速比、扩展率和数据伸缩率等性能,适合用于海量数据的分析和挖掘. 相似文献

3.

基于云计算平台Hadoop的并行k-means聚类算法设计研究 总被引：2，自引：0，他引：2

赵卫中马慧芳傅燕翔史忠植《计算机科学》2011,38(10):166-168

随着数据库技术的发展和Intcrnct的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临许多新的问题和挑战,如海量数据和新的计算环境等。深入研究了基于云计算平台Hadoop的并行k-means聚类算法,给出了算法设计的方法和策略。在多个不同大小数据集上的实验表明,设计的并行聚类算法具有优良的加速比、扩展率和数据伸缩率等性能,适合用于海量数据的分析和挖掘。相似文献

4.

基于Hadoop的协同过滤并行化算法

曹霞谢颖华《计算机系统应用》2018,27(5):166-170

在针对大数据的迅速增长,为了改善协同过滤算法的推荐效率,使得推荐精度越来越高,提出基于Hadoop平台的协同过滤并行化算法,将传统的基于用户的协同过滤在Hadoop平台下进行MapReduce编程模型,实现并行化.通过利用MovieLens公用数据集对改进前后的算法对比,验证了并行化的协同过滤效率更高,也更加适合大规模数据的推荐. 相似文献

5.

Hadoop平台下新型图像并行处理模型设计

下载免费PDF全文

刘军李威吴梦婷陈起凤《计算机工程与应用》2019,55(6):186-190

Hadoop在处理海量小图像数据时，存在输入分片过多以及海量小图像存储问题。针对这些问题，不同于采用HIPI、SequenceFile等方法，提出了一个新型图像并行处理模型。利用Hadoop适合处理纯文本数据的特性，本模型使用存储了图像路径的文本文件替换图像数据作为输入，不需要设计图像数据类型。在Map阶段直接完成图像的读取、处理、存储过程。为了简化图像处理算法，将OpenCV和Map函数结合并设计了对应的存储方法，实现小图像文件的存储。实验表明，在Hadoop分布式系统平台下，模型不论在小数据量还是在大数据量的测试数据环境中，都具有良好的吞吐性能和稳定性。相似文献

6.

基于Hadoop的局部异常检测算法

《微型机与应用》2019,(6)

为了提高局部异常检测算法的检测效率以及检测的准确度,提出基于Hadoop的分布式局部异常检测算法MRDINFLO。该算法在INFLuenced Outlierness(INFLO)算法的基础上,引入了MapReduce计算框架,将数据点的k近邻、k距离、反向k近邻、局部离群因子的计算并行化处理,从而提高了检测效率。算法在计算各个数据对象之间的距离时采用加权距离,通过引入信息熵来判断离群属性,给离群属性以较大的权重,从而提高了异常检测的准确度。实验在3节点Hadoop集群上进行,输入数据为KDD-CUP 99。当输入数据集大小为500万条时,所提出的MR-DINFLO算法检测准确度为0. 94,检测时间为2 589 s。实验结果表明该算法具有高效可行性。相似文献

7.

基于Hadoop平台协同过滤推荐算法 总被引：1，自引：1，他引：0

杨志文刘波《计算机系统应用》2013,22(7):108-112

针对协同过滤推荐算法在数据稀疏性及在大数据规模下系统可扩展性的两个问题, 在分析研究Hadoop分布式平台与协同过滤推荐算法后, 提出了一种基于Hadoop平台实现协同过滤推荐算法的优化方案. 实验证明, 在Hadoop平台上通过MapReduce结合Hbase数据库实现算法, 能够有效地提高协同过滤推荐算法在大数据规模下的执行效率, 从而能够进一步地搭建低成本高性能、动态扩展的分布式推荐引擎. 相似文献

8.

基于Hadoop平台的LDA算法的并行化实现

张钊张新峰郑楠贵明俊《计算机工程与科学》2016,38(2):231-239

随着互联网的飞速发展,需要处理的数据量不断增加,在互联网数据挖掘领域中传统的单机文本聚类算法无法满足海量数据处理的要求,针对在单机情况下,传统LDA算法无法分析处理大规模语料集的问题,提出基于MapReduce计算框架,采用Gibbs抽样方法的并行化LDA主题模型的建立方法。利用分布式计算框架MapReduce研究了LDA主题模型的并行化实现,并且考察了该并行计算程序的计算性能。通过对Hadoop并行计算与单机计算进行实验对比,发现该方法在处理大规模语料时,能够较大地提升算法的运行速度,并且随着集群节点数的增加,在加速比方面也有较好的表现。基于Hadoop平台并行化地实现LDA算法具有可行性,解决了单机无法分析大规模语料集中潜藏主题信息的问题。相似文献

9.

Hadoop环境下基于并行熵的FIUT算法挖掘

晏依徐苏《计算机工程与设计》2019,40(3)

相似文献

10.

基于Hadoop的MapReduce模型的研究与改进

李玉林董晶《计算机工程与设计》2012,33(8):3110-3116

针对MapReduce模型中存在的多个Reduce任务之间完成时间差别较大的问题,分析了影响Reduce任务完成时间的因素,指出了MapReduce模型中Reduce任务节点存在数据倾斜问题,提出了一种改进型的MapReduce模型MBR(Map-Balance-Reduce)模型。通过添加Balance任务,对Map任务处理完成的中间数据进行均衡操作,使得分配到Reduce任务节点的数据比较均衡,从而确保Reduce任务的完成时间基本一致。仿真实验结果表明,经过Balance任务后,Map任务产生的中间数据能够比较均衡的分配给Reduce任务节点,达到数据计算均衡的目的,在一定程度上减少了整个作业的执行时间。相似文献

11.

Hadoop平台下的并行Web日志挖掘算法

下载免费PDF全文

周诗慧殷建《计算机工程》2013,39(6)

当面对海量数据时,基于单一节点的Web数据挖掘存在时间和空间效率上的瓶颈.针对该问题,提出一种在Hadoop平台下实现Web日志挖掘的并行FP-growth算法,利用Hadoop分布式文件系统和MapReduce并行计算模型处理日志文件.实验结果表明,该算法的加速比能随着数据集的增大而提高,其执行效率优于串行FP-growth算法. 相似文献

12.

基于矢量模型的语音线性预测研究

钱正祥李玉阁施清苑刘传强《数据采集与处理》2000,15(4):462-466

研究语音参数线性预测的并行处理问题。通过把语音源序列的相邻样本分组能够构成一个均方差平稳的语音向量自回归序列,在Hilbert空间中运用正交投影原理导出具有高度并行处理能力的一预测编码策略,由此可推出参数线性预测的并行处理自适应算法。同传统格型算法相比,这种算法的计算复杂度及存贮量有明显改善。最后通过仿真运算检测了算法的性能。相似文献

13.

烟草企业基于Hadoop的数据处理研究

李铖瀚何利力刘淳猛《工业控制计算机》2015,(2):90-91

Hadoop是一个开源分布式计算平台。具有高容错性,高伸缩性等优点,允许用户将Hadoop部署在低廉的PC上,充分利用集群的计算和存储能力,完成海量数据的处理。结合国内烟草企业面对不断剧增的业务数据,而现有的业务数据处理能力明显不足的现状,分析烟草企业构建Hadoop分布式数据处理平台的可行性,并详细介绍了Hadoop平台技术及其项目结构和体系结构。相似文献

14.

基于Hadoop MapReduce模型的应用研究 总被引：4，自引：0，他引：4

谢桂兰罗省贤《微型机与应用》2010,29(8)

MapReduce是一种简化并行计算的分布式编程模型,是Google的一项重要技术,通常被用于数据密集型的分布式并行计算.探讨了来自Apache开源的分布式计算平台Hadoop的核心设计MapReduce编程模型,并通过算法实验分析和研究了MapReduce模型的工作方式和应用方法. 相似文献

15.

基于Hadoop的电信频繁交往圈算法研究

杨苗苗李跃辉刘静许静《数字社区&智能家居》2013,(10):6380-6384

通过研究电信社交网络的个人交往圈和客户群,结合有向图和无向图,采用邻接链表,挖掘极大团,提出基于Ma-pReduce的频繁交往圈算法F-Graph,不仅找到频繁交往圈和客户群中的核心用户,同时减小了算法复杂度。利于运营商做出更科学的决策,提高市场竞争力。相似文献

16.

基于阶段并行模型的算法设计研究 总被引：1，自引：0，他引：1

李秉智《计算机工程与应用》2002,38(14):95-97

NOWs正成为并行计算领域的一个新的发展热点,以太网构成的微机集群系统是NOWs的一种重要实现形式。阶段并行模型是BSP模型的改进,它更接近于表述实际的机器行为,同时具有编程简单、独立于体系结构和执行性能可预测等特点。文章研究了群集系统中阶段并行模型上的并行算法设计,以FFT算法为例,进行了设计和分析,并给出了测试结果。相似文献