首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
网络大数据是指"人、机、物"三元世界在网络空间(Cyberspace)中交互、融合所产生并在互联网上可获得的大数据。本文提出了基于Hadoop平台的关于大数据级协同数据挖掘系统的一系列关键技术和实践,通过选择一个具有代表性开放数据源作为处理对象,给出了处理的预测结果。  相似文献   

2.
3.
由于能反映用户的偏好,可以弥补传统频繁项集挖掘仅由支持度来衡量项集重要性的不足,高效用项集正在成为当前数据挖掘研究的热点。为使高效用项集挖掘更好地适应数据规模不断增大的实际需求,提出了一种高效用项集的并行挖掘算法PHUI-Mine。提出了记录挖掘高效用项集信息的DHUI-树结构,描述了DHUI-树的构造方法,论证了DHUI-树的动态剪枝策略。在此基础上,给出了高效用项集挖掘的并行算法描述。实验结果表明,PHUI-Mine算法具有较高的挖掘效率及较低的存储开销。  相似文献   

4.
5.
论文设计了基于Hadoop的微博信息挖掘系统。该系统针对单一节点在分析微博海量数据的性能瓶颈问题,利用分布式和虚拟化技术的优势,将微博信息获取和相关数据分析进行有机整合,实现了一个基于Hadoop的微博信息挖掘平台。为验证该平台运行的有效性,论文采用获取热点话题做实验,展示了系统对微博信息的挖掘结果。实验结果表明,该系统能有效获取微博相关信息,高效的处理海量微博数据,得到有价值的数据信息。  相似文献   

6.
梁晶  胡新荣 《计算机教育》2020,(2):166-169,174
针对Hadoop大数据开发课程的实践教学环节,从实验设计、数据集选取和实验平台建设几个方面阐述该课程实践教学的内容和方法,提出相关实验环境建设的思路,对比不同实验环境在实践教学过程的作用,为其他大数据相关课程的实践教学提供参考。  相似文献   

7.
高职院校纷纷开设云计算技术和大数据技术专业,专业间既紧密联系又各有侧重,专业课程也有交叉,使学生在学习专业知识时存在一定误区和困惑。为解决教师教学实训过程中的瓶颈难点,深化学生对大数据和云计算技术的掌握程度,针对云计算技术中OpenStack项目和大数据技术中Hadoop项目进行融合部署,在OpenStack私有云成功配置的基础上,申请云中的资源创建云主机,进行Hadoop完全分布式集群部署和配置,使师生在该教学实训环节成功实现配置,进一步加深对大数据和云计算技术的理解,促进专业课程知识的深入学习。  相似文献   

8.
频繁闭合项目集的并行挖掘算法研究   总被引:2,自引:1,他引:2  
缪裕青 《计算机科学》2004,31(5):166-168
频繁项目集挖掘因其在数据挖掘领域中的基础地位和广泛应用备受学术界和产业界的关注,用挖掘频繁闭合项目集代替挖掘频繁项目集是近年来提出的一个重要策略。不同于以往提出的挖掘所有频繁项目集的并行算法,本文针对频繁闭合项目集的特性及并行挖掘的特点,给出了共享存储器模型上(Shared Memory)基于频繁模式树(FP-tree)的挖掘频繁闭合项目集的并行算法(FCIPM)思想,提出了频繁闭合项目集直接判断法,性能分析表明所提技术对算法的性能提高起到了关键作用。  相似文献   

9.
随着信息技术的发展,以资源库建设为依托的信息化教学方式成为高校教学的发展方向。本文充分调查并分析出了当前大数据专业培养的具体实际应用需要,通过大量地对各个行业、企业所在地及部分办学发展水平普遍较高区域的各类应用型高校开展的广泛调研,从行业背景、区域背景、企业人才需求中分析与总结归纳现阶段大数据类专业实际人才培养工作的三个重点方向,从而进一步为本专业教学课程目标设置,以及相关专业课程教学的资源库平台建设方面提供科学指导。最后以《Hadoop分布式基础架构》为例,进行大数据专业资源库建设实践。介绍资源库建设的目标、资源库建设的计划及教学资源结构,最终形成以工程项目整合教学资源,改进教学形式,多维度的教学质量评价体系的资源库建设特色。  相似文献   

10.
齐超  崔然 《软件》2020,(6):177-184
随着互联网时代的到来,互联网数据的产生和收集数量呈爆炸式发展。使用金融机构大数据抓取软件系统处理和存储相关数据成为许多商业机构和研究机构的常态化选择,金融机构大数据抓取软件系统可以简化使用者对于信息传输和信息计算的具体操作,便于提高使用者的使用效率和准确率。本文研究的金融机构大数据抓取软件系统通过Python和Java语言完成,主要包括:金融机构大数据抓取软件系统分析模块、金融机构大数据抓取软件系统优化模块、金融机构大数据抓取软件系统预测模块。在研究的过程当中本文采用了递归随机搜索算法、Java图形界面、Hadoop平台进行设计研究。经过测试,在选用服务器为Intel Atom D510时,金融机构大数据抓取软件系统优化模块在Hadoop集群上开展优化,系统任务执行时间变短,比原来的数据时间缩短了5%以上,优化有效。  相似文献   

11.
当面对海量数据时,基于单一节点的Web数据挖掘存在时间和空间效率上的瓶颈.针对该问题,提出一种在Hadoop平台下实现Web日志挖掘的并行FP-growth算法,利用Hadoop分布式文件系统和MapReduce并行计算模型处理日志文件.实验结果表明,该算法的加速比能随着数据集的增大而提高,其执行效率优于串行FP-growth算法.  相似文献   

12.
Parallel Mining of Outliers in Large Database   总被引:3,自引:0,他引:3  
Data mining is a new, important and fast growing database application. Outlier (exception) detection is one kind of data mining, which can be applied in a variety of areas like monitoring of credit card fraud and criminal activities in electronic commerce. With the ever-increasing size and attributes (dimensions) of database, previously proposed detection methods for two dimensions are no longer applicable. The time complexity of the Nested-Loop (NL) algorithm (Knorr and Ng, in Proc. 24th VLDB, 1998) is linear to the dimensionality but quadratic to the dataset size, inducing an unacceptable cost for large dataset.A more efficient version (ENL) and its parallel version (PENL) are introduced. In theory, the improvement of performance in PENL is linear to the number of processors, as shown in a performance comparison between ENL and PENL using Bulk Synchronization Parallel (BSP) model. The great improvement is further verified by experiments on a parallel computer system IBM 9076 SP2. The results show that it is a very good choice to mine outliers in a cluster of workstations with a low-cost interconnected by a commodity communication network.  相似文献   

13.
面向大规模数据集的近邻传播聚类   总被引:1,自引:0,他引:1       下载免费PDF全文
近邻传播聚类在计算过程中需构建相似度矩阵,该矩阵的规模随样本数急剧增长,限制了算法在大规模数据集上的直接应用。为此,提出一种改进的近邻传播聚类算法,利用数据点的局部分布,借鉴半监督聚类的思想构造稀疏化的相似度矩阵,并对聚类结果中的簇代表点再次或多次聚类,直至得到合适的簇划分。实验结果表明,该算法在处理能力和运算速度上优于原算法。  相似文献   

14.
高维大数据集对现有的数据挖掘算法提出了挑战。该文把挖掘任务分解为挖掘频繁长模式与短模式2个子问题,提出一种在高维大数据集中挖掘长项集的算法,即inter-transaction。该算法利用了高维数据中长事务相交迅速变短的特性,通过事务的交集运算直接得到长闭合模式,同时采用新的减枝策略,优化了事务交集运算的方法。实验表明,该方法对高维大数据集非常有效。  相似文献   

15.
随着信息技术的持续发展和广泛使用,大量的数据不断被收集和存储,对分布的目标数据进行数据挖掘处理任务的规模越来越大,而传统的数据挖掘无法解决分布式海量数据挖掘的问题,分布式系统很难解决异构的操作系统和协议问题.网格技术的发展成熟,使得利用网格环境下强大的资源共享异构虚拟组织实现协同并行数据挖掘成为网格技术应用的一个研究重点.本文提出基于网格环境的Agent技术、多线程和集中表决技术的关联规则并行挖掘方案,并在GT4下实验验证,实现对大规模数据的网格环境分布式并行数据挖掘.  相似文献   

16.
对某高校教学资源平台的海量日志进行了分析,将传统单机分析处理模式,转变为Hadoop框架下的MapReduce分布式处理模式。MapReduce采用分而治之的思想,很好地解决了单机对海量数据处理产生的瓶颈问题。通过分析Hadoop源码的使用,认真研究MapReduce对海量数据处理作业流程分析,提出了MapReduce分布式作业计算的优化策略,从而更好地提高了海量数据的处理效率。  相似文献   

17.
影响电力负荷的因素有很多,用于电力负荷预测的数据随着电网规模的扩大也越来越多。传统预测方法不能通过挖掘大量数据,有效地建立电力负荷预测模型。论文结合并行共享数据挖掘技术,综合分析了基于HADOOP的并行共享决策树算法(PSDT)以及SLIQ算法,提出了一种新的方法来构建电力负荷预测模型。试验结果表明,使用该方法构建预测模型实用性较强,并且有良好的扩展性。  相似文献   

18.
序列是一种重要的数据类型,在诸多应用领域广泛存在.基于序列的特征选择具有广阔的现实应用场景.交互特征是指一组整体具有显著强于单独个体与目标相关性的特征集合.从大规模序列中挖掘交互特征面临着位点的“组合爆炸”问题,计算挑战性极大.针对该问题,以生物领域高通量测序数据为背景,提出了一种新的基于并行处理和演化计算的高阶交互特征挖掘算法.位点数是制约交互作用挖掘效率的根本因素.摈弃了现有方法基于序列分块的并行策略,采用基于位点分块的并行思想,具有天然的效率优势.进一步,提出了极大等位公共子序列(maximal allelic common subsequence, MACS)的概念并设计了基于MACS的特征区域划分策略.该策略能将交互特征的查找范围缩小至许多“碎片”空间,并保证不同“碎片”间不存在交互特征,避免计算耦合引起的高额通信代价.利用基于置换搜索的并行蚁群算法,执行交互特征选择.大量真实数据集和合成数据集上的实验结果,证实提出的PACOIFS算法在有效性和效率上优于同类其他算法.  相似文献   

19.
基于Hadoop的高性能海量数据处理平台研究   总被引:2,自引:0,他引:2  
海量数据高性能计算蕴藏着巨大的应用价值,但是目前云计算体系只具有海量数据处理能力,而不具有足够的高性能计算能力。将具有超强并行计算能力的CPU与云计算相融合,提出了基于CPU/GPU协同的异构高性能云计算体系结构。以开源Hadoop为基础,采用注释码的形式对MapReduce函数中需要并行的部分进行标记。通过 定制GPU类加载器,将被标记代码转换为CUDA代码并动态编译运行。该平台将GPU的计算能力融合到MapReduce框架中,可高效处理海量数据。  相似文献   

20.
根据人工神经网络自组织、高度并行以及具有非线性映射能力的特点,提出一种基于云计算的Hadoop多模式并行分类算法。通过将自组织映射网络与多个并行BP神经网络结合,提高多语义模式中复杂分类问题的学习效率和训练精度。采用Hadoop平台下的Map Reduce框架实现算法的并行处理,解决大规模数据样本训练时内存开销大、通信耗时长的问题。实验结果表明,与传统单BP多输出分类算法相比,该算法训练速度更快、分类精度更高,在处理大规模数据集时具有实时和高效的特性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号