基于Hadoop的XML查询 |
| |
作者单位: | ;1.北京锐安科技有限公司 |
| |
摘 要: | XML(Extensible Markup Language)可扩展标记语言,指的是用于标记电子文件并且可以使其具有结构性的标记语言,它的主要作用是标记数据和定义数据类型,是一种允许用户对自己的标记语言进行定义的语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立,虽然XML比其他格式数据要占用较多的空间,但XML对于初学者简单并且较易掌握和使用。XML是互联网环境中跨平台的、依赖于文本本身的技术,是当前处理结构化文档信息的有力工具。随着互联网的兴起,海量数据存储与处理是互联网公司必须面对的问题之一。因此,Hadoop受到Yahoo等主流IT公司的青睐。社交网络和Web2.0的兴起使得数据,尤其是非结构化数据呈现指数级增长,云计算和移动互联网的趋势更是加剧了这一增长势头,然而,传统的数据库却基本不太可能处理如此海量的非结构化数据,因此在大数据平台技术中,Hadoop成为处理海量数据的有力工具。
|
|
|