首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
藏汉双语语料库是对藏汉双语进行自然语言处理的必不可少的语言资源,利用万维网上已经存在的大规模藏语和汉语的语言资源使用Spark大数据技术进行深度爬取,构建出藏汉双语语料库并提供基础数据支撑.本文设计出一种藏汉双语对URL进行深度爬虫的分布式算法,为藏汉双语语料库建设数据来源提供理论依据.  相似文献   

2.
针对传统数据抽取、转换及加载(ETL)工具集中式执行的不足,设计实现了一种基于Hadoop平台的分布式ETL系统。该系统采用分布式文件系统存储和映射-规约并行处理海量数据架构,实现了ETL作业的分布式执行,提高了ETL效率,为大数据环境下的基础数据加工提供了解决方案。  相似文献   

3.
针对如何有效地处理、分析和管理大数据的问题,研究提出一种基于大数据场景中的分布式ETL作业调度方案,将多源异构的数据统一抽取,进行清洗、转换、集成加载到数据仓库,改进后的ETL比传统的开源工具提升了性能和可靠性.  相似文献   

4.
在移动互联网时代,越来越活跃的用户手机上网行为带来了流量的迅猛发展.对电信运营商而言,用户上网日志包含了大量用户个性化需求、喜好信息,对其进行分析和挖掘,能更好的了解客户需求.传统经营分析系统小型机加关系型数据库的架构无法满足对海量非结构化数据的处理需求,搭建基于X86的Hadoop平台,引入大数据处理技术的方式,实现高效率、低成本、易扩展的经营分析系统混搭架构成为电信运营商最为倾向的选择.文章主要以用户WAP日志为例,详细阐述如何利用大数据技术处理海量的非结构化数据,进而挖掘和分析用户上网行为.  相似文献   

5.
针对某电信公司的需求:建设网络基础,优化网络管理、企业管理,数据商业化,设计并搭建大数据平台。利用HDFS(分布式文件系统)存储数据,Spark计算引擎在内存计算中数据处理速度快,Yarn(通用资源管理系统)对Spark进行调度。对于电信运营商关心的数据检索速度进行测试和分析,验证大数据技术可以将数据检索时间控制在毫秒级,为电信行业利用海量流量数据信息进行企业优化管理、精准营销与市场拓展提供必要的数据支撑。  相似文献   

6.
基于SQL 2005 SSIS技术的分布式海量数据ETL系统   总被引:1,自引:0,他引:1  
1 前言 中国移动的BOSS、经营分析、中心业务等系统大都集中在省公司。数据库、系统平台由省公司管理开发,市公司通过系统的客户端办理业务。这种高度集中的管理方式不可能满足各市公司的个性化需求。为此,辽宁移动每天在数据库中抽取大量数据,转换成文本文件,以FTP方式供市公司使用。  相似文献   

7.
文章针对ETL技术下的装备大数据治理应用进行研究,获取相关的数据信息,主要目的就是帮助军用和民用装备领域能够更好地处理数据融合方面的问题。基于此,文章提出一套较为详细的治理方案,涵盖清洗服务、数据抽取和加载等方面的内容,同时在现有技术基础上提出标准统一和增量抽取等应用技术,这些都将为数据高效融合提供重要的途径。  相似文献   

8.
《信息技术》2017,(9):26-30
随着气象监测水平的不断提高,气象数据在短时间内可大量收集,充分从海量的气象数据中提取有价值的信息,是气象研究的关键所在。气象数据资源极其丰富,增长迅速,需要大量的科学计算,传统计算在大规模数据处理中需较长时间,无法满足数据即时转化的需求,大数据平台并行化处理可有效解决此问题。文中提出并行K-means算法对气候区进行划分方法,应用Spark平台进行处理,能快速有效地分析数据并从中发现有用信息,对气象领域研究具有重要的现实意义。  相似文献   

9.
随着计算机技术的不断发展,互联网业务也在逐渐地扩大,海量用户纷纷涌入到网络中,使得网络系统数据存储空间日益增大。然而海量数据的存储容量往往同存储性能是相反的,传统的数据库在面对海量数据时早已不堪重负,渐渐地就出现了扩展性能差、网络延迟、效率低下等问题。基于此,就车联网海量数据的分布式存储处理技术为研究方向,通过详细分析,构建出一种基于传统数据库存储模式的分布式存储技术,通过仿真实验测试后表明,该技术能够有效解决现有问题,具有一定的参考意义及推广价值。  相似文献   

10.
随着大数据时代的到来,数据分析对于公司甚至是一个行业的发展逐步展现出其优越性和重要性。使用开源Kettle工具提供高效、支持异构的数据提取方案,通过新型数据建模完成不仅仅是数据查询,更重要的是大数据分析,能够为公司未来的发展决策提供重要依据。  相似文献   

11.
基于大数据处理的ETL框架的研究与设计   总被引:1,自引:0,他引:1  
  相似文献   

12.
随着云计算和大数据时代的到来,在满足用户对系统访问量、访问速度、访问安全的要求的同时,系统必须实时准确地处理迅猛增长的海量数据,而传统的缓存技术无法满足海量数据处理和用户高并发访问的需求.分布式缓存技术是最好的高性能缓存解决方案.本文研究如何利用云计算下分布式缓存技术在海量数据处理平台中解决该问题,分析研究了分布式缓存的关键技术、分布式缓存的一致性和分布式内存数据管理.在此基础上,分析并设计了分布式缓存系统的部署和整体架构.并将该分布式缓存系统的设计模式应用在某团购网上,进行了POC测试.测试结果证明分布式缓存技术可以缓解服务器的压力,解决海量数据和超高并发数据访问所带来的问题,提升了系统的性能、访问速度、可靠性以及降低响应延迟.  相似文献   

13.
姚陶  郑涛  辛锐  吴军英  陈曦 《信息技术》2020,(5):165-168
传统数据处理方法采用抑制量测误差方法改变权值,但增加了迭代次数,导致迭代总应用时间过长。为解决这一问题,提出基于大数据技术Spark的配网运维数据处理方法。先采用大数据技术Spark评估配网运维数据,再设计数据处理环节,运维数据经过HDFS、数据添加、数据清洗、数据合并、数据类型管理处理后,即可投入使用。在应用实例分析中,随机抽取10个配网运维数据,完成本次实验。实验结果表明,设计的基于大数据技术Spark的配网运维数据处理方法迭代总应用时间相比传统数据处理方法少26%。由此证明,该方法符合设计需求。  相似文献   

14.
张雷  王勤 《通信学报》2022,(1):104-116
在多用户大规模多输入多输出(MIMO)系统中,针对传统方案受限于集中式部分连接结构和固定匹配相控算法而未能充分利用空间资源的问题,提出一种基于分布式部分连接结构的低复杂度相控迫零混合预编码方案.所提方案设计了多于射频链路数的逻辑天线子阵列,以使每个射频链路能连接多个分布子阵列,从而提供更高的空间分集增益.进一步通过分析...  相似文献   

15.
本文首先对智慧校园数据挖掘的意义进行研究和分析,提出了基于Spark技术的智慧校园数据挖掘平台,将数据挖掘技术与Spark计算框架相结合,该平台采用HDFS作为数据存储,上层的Spark平台作为智慧校园数据挖掘算法的运行环境.针对与学生相关的数据挖掘,构建了学生分析子系统.  相似文献   

16.
蔺莉  魏锐 《电子测试》2013,(20):79-80
随着计算机及网络技术的广泛应用,网络上每日都会产生海量的图像数据,如何从海量的图像数据中提取有用的信息,成为我们面临的最大问题。云计算是一种基于互联网的以数据为中心的新型超级计算模式,利用云计算技术,探讨了在海量图像数据中快速的挖掘有用的图像信息方法。  相似文献   

17.
基于ETL和JMS的数据同步的设计与实现   总被引:1,自引:0,他引:1  
黄瑛  邓东华  廖德利 《信息技术》2009,33(12):49-51
分析了发电集团级数据的同步需求,提出采用ETL技术进行数据抽取和转换,并将数据提供给消息发送者(JMS服务),采用JMS技术进行数据传输和消息发送。通过分析实例描述了系统的设计思路和实现方法,并给出了关键技术的主要代码,成功实现了异构数据库的数据同步。  相似文献   

18.
周林兵  杨玲玲  朱滔 《电子设计工程》2013,(22):133-134,140
根据物流揽件数据采集系统的应用需求,以TQ2440开发平台为硬件平台,开发了基于LINUX系统的交互界面和驱动程序。实现了针对物流揽件、派件所需要的全部功能。该系统具有功能齐全,可靠性高、成本低、体积小、功耗小的特点。满足了市场需求。  相似文献   

19.
针对传统物流管理系统存在数据更新缓慢、客户服务薄弱以及对物流历史数据利用率不足、无法深入分析等问题,文中研究与设计了一种基于数据挖掘的物流信息监控系统.该系统根据管理人员的具体需求从数据库中提取相应的数据,经过清洗、集成和数据挖掘等步骤,完成对选用数据集的建模,进而实现数据的关联性分析及预测.将结果以可视化的形式反馈给...  相似文献   

20.
ETL(extra,transform,load)是数据仓库的重要组成部分。ETL过程是一个复杂的过程,从源数据中抽取,转换,装载到数据仓库的过程。文中通过从两个不同角度来建模,对ETL过程进行概念建模和逻辑建模。概念建模主要研究整个ETL过程概念和属性的内在属性,而逻辑建模主要研究是ETL工作流。最后,提出一个从概念模型映射到逻辑模型的转换算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号