共查询到20条相似文献,搜索用时 46 毫秒
1.
藏汉双语语料库是对藏汉双语进行自然语言处理的必不可少的语言资源,利用万维网上已经存在的大规模藏语和汉语的语言资源使用Spark大数据技术进行深度爬取,构建出藏汉双语语料库并提供基础数据支撑.本文设计出一种藏汉双语对URL进行深度爬虫的分布式算法,为藏汉双语语料库建设数据来源提供理论依据. 相似文献
2.
3.
支文瑜 《信息技术与标准化》2021,(4):32-35
针对如何有效地处理、分析和管理大数据的问题,研究提出一种基于大数据场景中的分布式ETL作业调度方案,将多源异构的数据统一抽取,进行清洗、转换、集成加载到数据仓库,改进后的ETL比传统的开源工具提升了性能和可靠性. 相似文献
4.
在移动互联网时代,越来越活跃的用户手机上网行为带来了流量的迅猛发展.对电信运营商而言,用户上网日志包含了大量用户个性化需求、喜好信息,对其进行分析和挖掘,能更好的了解客户需求.传统经营分析系统小型机加关系型数据库的架构无法满足对海量非结构化数据的处理需求,搭建基于X86的Hadoop平台,引入大数据处理技术的方式,实现高效率、低成本、易扩展的经营分析系统混搭架构成为电信运营商最为倾向的选择.文章主要以用户WAP日志为例,详细阐述如何利用大数据技术处理海量的非结构化数据,进而挖掘和分析用户上网行为. 相似文献
5.
6.
基于SQL 2005 SSIS技术的分布式海量数据ETL系统 总被引:1,自引:0,他引:1
1 前言 中国移动的BOSS、经营分析、中心业务等系统大都集中在省公司。数据库、系统平台由省公司管理开发,市公司通过系统的客户端办理业务。这种高度集中的管理方式不可能满足各市公司的个性化需求。为此,辽宁移动每天在数据库中抽取大量数据,转换成文本文件,以FTP方式供市公司使用。 相似文献
7.
文章针对ETL技术下的装备大数据治理应用进行研究,获取相关的数据信息,主要目的就是帮助军用和民用装备领域能够更好地处理数据融合方面的问题。基于此,文章提出一套较为详细的治理方案,涵盖清洗服务、数据抽取和加载等方面的内容,同时在现有技术基础上提出标准统一和增量抽取等应用技术,这些都将为数据高效融合提供重要的途径。 相似文献
8.
9.
魏彬 《信息技术与信息化》2023,(7):100-103
随着计算机技术的不断发展,互联网业务也在逐渐地扩大,海量用户纷纷涌入到网络中,使得网络系统数据存储空间日益增大。然而海量数据的存储容量往往同存储性能是相反的,传统的数据库在面对海量数据时早已不堪重负,渐渐地就出现了扩展性能差、网络延迟、效率低下等问题。基于此,就车联网海量数据的分布式存储处理技术为研究方向,通过详细分析,构建出一种基于传统数据库存储模式的分布式存储技术,通过仿真实验测试后表明,该技术能够有效解决现有问题,具有一定的参考意义及推广价值。 相似文献
10.
伊秀中刘运通胡洋陈超 《广播电视网络》2017,(10):38-41
随着大数据时代的到来,数据分析对于公司甚至是一个行业的发展逐步展现出其优越性和重要性。使用开源Kettle工具提供高效、支持异构的数据提取方案,通过新型数据建模完成不仅仅是数据查询,更重要的是大数据分析,能够为公司未来的发展决策提供重要依据。 相似文献
11.
12.
段春梅 《智能计算机与应用》2016,(1)
随着云计算和大数据时代的到来,在满足用户对系统访问量、访问速度、访问安全的要求的同时,系统必须实时准确地处理迅猛增长的海量数据,而传统的缓存技术无法满足海量数据处理和用户高并发访问的需求.分布式缓存技术是最好的高性能缓存解决方案.本文研究如何利用云计算下分布式缓存技术在海量数据处理平台中解决该问题,分析研究了分布式缓存的关键技术、分布式缓存的一致性和分布式内存数据管理.在此基础上,分析并设计了分布式缓存系统的部署和整体架构.并将该分布式缓存系统的设计模式应用在某团购网上,进行了POC测试.测试结果证明分布式缓存技术可以缓解服务器的压力,解决海量数据和超高并发数据访问所带来的问题,提升了系统的性能、访问速度、可靠性以及降低响应延迟. 相似文献
13.
传统数据处理方法采用抑制量测误差方法改变权值,但增加了迭代次数,导致迭代总应用时间过长。为解决这一问题,提出基于大数据技术Spark的配网运维数据处理方法。先采用大数据技术Spark评估配网运维数据,再设计数据处理环节,运维数据经过HDFS、数据添加、数据清洗、数据合并、数据类型管理处理后,即可投入使用。在应用实例分析中,随机抽取10个配网运维数据,完成本次实验。实验结果表明,设计的基于大数据技术Spark的配网运维数据处理方法迭代总应用时间相比传统数据处理方法少26%。由此证明,该方法符合设计需求。 相似文献
14.
在多用户大规模多输入多输出(MIMO)系统中,针对传统方案受限于集中式部分连接结构和固定匹配相控算法而未能充分利用空间资源的问题,提出一种基于分布式部分连接结构的低复杂度相控迫零混合预编码方案.所提方案设计了多于射频链路数的逻辑天线子阵列,以使每个射频链路能连接多个分布子阵列,从而提供更高的空间分集增益.进一步通过分析... 相似文献
15.
本文首先对智慧校园数据挖掘的意义进行研究和分析,提出了基于Spark技术的智慧校园数据挖掘平台,将数据挖掘技术与Spark计算框架相结合,该平台采用HDFS作为数据存储,上层的Spark平台作为智慧校园数据挖掘算法的运行环境.针对与学生相关的数据挖掘,构建了学生分析子系统. 相似文献
16.
随着计算机及网络技术的广泛应用,网络上每日都会产生海量的图像数据,如何从海量的图像数据中提取有用的信息,成为我们面临的最大问题。云计算是一种基于互联网的以数据为中心的新型超级计算模式,利用云计算技术,探讨了在海量图像数据中快速的挖掘有用的图像信息方法。 相似文献
17.
18.
19.
针对传统物流管理系统存在数据更新缓慢、客户服务薄弱以及对物流历史数据利用率不足、无法深入分析等问题,文中研究与设计了一种基于数据挖掘的物流信息监控系统.该系统根据管理人员的具体需求从数据库中提取相应的数据,经过清洗、集成和数据挖掘等步骤,完成对选用数据集的建模,进而实现数据的关联性分析及预测.将结果以可视化的形式反馈给... 相似文献