共查询到20条相似文献,搜索用时 25 毫秒
1.
非结构化数据的ETL设计 总被引:1,自引:0,他引:1
为了实现非结构化数据的ETL处理,分析了数据整合的发展现状和业务需求,描述了目前国际流行的公共仓库元模型(CWM)以及在ETL实现中的作用,详细分析了结构化数据和非结构化数据的不同特点。针对两种数据的差异,提出了解决非结构化数据的属性提取和数据打包的方法,为非结构化数据形成元数据奠定了基础,从而实现了非结构化数据的ETL设计,设计完全满足标准的数据整合要求。 相似文献
2.
3.
从目前国内电子政务普遍应用需求来看,大多需要将原本分散于各环节、不同职能部门间异构的文档信息和内容进行有效集成。这就要求应用软件系统处理各种信息时,必须面对大量的结构化和非结构化数据混杂的局面。目前,人们日常生活中所面对的更多的是非结构化数据,这些非结构化数据大多仍然以纸质文档或者办公软件(如Word、PDF、WPS等)制作的文档形式存在。 相似文献
4.
市场调研公司Gartner给出的最新统计称,企业及互联网产生的数据以每年50%的速率在增长,新增数据中多数为非结构化数据,想要从这些数量庞大且杂乱无章的非结构化数据中提取有价值的信息,存储设备是关键,这也是包括中兴通讯在内的巨头设备商面向政企行业重点打造的产品和服务。 相似文献
5.
6.
7.
医院数据中心涉及的系统较多,逐渐形成了经典的分层整合信息架构。文章基于医院数据中心建设需求展开,指出传统数据中心存在的缺点,建议将结构化数据和非结构化数据分别单独构建双活数据中心。通过分布式存储双活副本,结合目前成熟的服务器虚拟化技术,双活数据中心解决方案能轻松打破数据中心不同位置存储设备和服务器业务应用壁垒。 相似文献
8.
云计算下非结构化大数据存储系统设计 总被引:1,自引:0,他引:1
《现代电子技术》2018,(1):173-177
当前云计算下非结构化大数据存储系统设计方法是通过使用分布式数据库存储跨区域的云计算数据和全局数据存储管理目录实现的,运行系统复杂,成本高昂。为此,提出基于HBase的云计算下非结构化大数据存储系统设计方法,首先对云计算下非结构化大数据进行分析,完成云计算下非结构化大数据提取,为云计算下非结构化大数据存储系统框架设计创造条件,并介绍HBase的特点,得到基于HBase非结构化大数据存储系统架构及运行流程,然后进行云计算下非结构化大数据存储结构模型总体设计及非结构化大数据分布式结构分析,采用负载均衡控制方法进行云计算下非结构化大数据存储系统冗余数据特征压缩及信息存储优化算法设计,完成云计算下非结构化大数据存储系统设计。通过仿真实验证明,所提方法能够有效降低云计算下非结构化大数据存储花费的时间,保证存储的数据可用、不丢失,方便云计算下非结构化大数据的使用,具有较强的使用价值。 相似文献
10.
现代社会的信息量正以飞快的速度增长.这些信息里又积累着大量的数据。预计到2025年.每年产生的数据信息将会有超过1/3的内容驻留在云平台中或借助云平台处理。我们需要对这些数据进行分析和处理.以获取更多有价值的信息。在未来的“智慧城市”中,会有越来越大的结构化以及非结构化的数据。那么我们如何高效地存储和管理这些数据.如何分析这些数据呢?答案是,我们需要强有力的大数据处理系统进行支撑。 相似文献
11.
12.
企业非结构化数据检索研究 总被引:3,自引:0,他引:3
随着信息化的高速发展,企业内部各业务系统中非结构化数据的数据量急剧膨胀,使得信息的搜索工作变得极为繁琐。建设该企业级非结构化数据检索平台,在Linux计算机集群上部署Hadoop开发框架以及Solr全文检索系统,将各业务系统中的非结构化数据进行集中式的存储、管理,并且提供统一的搜索服务。介绍了Solr的原理,并使用它搭建非结构化数据的中文搜索引擎,通过测试证明了该搜索引擎具有良好的搜索性能。通过检索平台,用户能够快速而高效地获取精确的搜索结果。 相似文献
13.
现代社会的信息量正以飞快的速度增长.这些信息里又积累着大量的数据。预计到2025年.每年产生的数据信息将会有超过1/3的内容驻留在云平台中或借助云平台处理。我们需要对这些数据进行分析和处理.以获取更多有价值的信息。在未来的“智慧城市”中.会有越来越大的结构化以及非结构化的数据。那么我们如何高效地存储和管理这些数据.如何分析这些数据呢?答案是.我们需要强有力的大数据处理系统进行支撑。 相似文献
14.
为了加快非结构化电网数据存储的译码速率,从而促进电网主机分布式存储能力的提升,提出智能电网海量非结构化数据分布式存储方法。定义MongoDB数据格式的方法,对电网信息实施复制处理,联合分布式存储架构完成智能电网海量非结构化数据库搭建。在此基础上,分析电网数据的特性能力,通过信息增删排查的方式,确定最终的分布式查询语句,搭建智能电网海量非结构化数据分布式存储模型,实现数据的分布式存储。与局部修复型存储编码方法相比,在分布式存储模型作用下,电网主机的存储译码速率最大值能够达到54.5 MB/s,可在实现非结构化电网数据快速转码的同时,提升电网主机分布式存储能力。 相似文献
15.
《信息技术》2017,(6)
针对各种数据呈几何级数爆炸式增长促使数据存储容量面对巨大压力的问题,本研究致力于开发设计一种面向非结构化元数据的分布式分级存储管理系统。通过在Client端和Server端分别组织Java jar和逻辑节点实现非结构化元数据管理平台的功能调用,并采用Mongodb数据库构建了自研元数据管理组件的文档数据库。将策略配置存放在Client端的Zookeeper中,并在Server端中实现非结构化元数据的分级存储。通过性能测试结果显示:相比传统的LRU存储方式,采用高低层Server端服务器对非结构化元数据分级存储过程中,平均响应时间下降了45.2%和36.7%,字节命中率分别提升了3.0%和2.6%。因此,本研究提出的分布式分级存储原理可以提升非结构化元数据存储效率。 相似文献
16.
很多企业试图通过扩展现有的传统存储系统,来满足非结构数据在制作、管理和归档方面的需求,但是往往却大失所望。因为这些传统系统只是为结构化处理数据或基于文本格式的数据存储而设计的,根本就不适用非结构化数据。即使运用最新的NAS(网络附加存储)和SAN(存储区域网络)系统架构,也存在一定的内在缺陷——“存储孤岛”、受限的延展性、性能的瓶颈、缺乏可用性以及高昂的成本,将极大的增加管理复杂性。 相似文献
17.
随着传统数据库中的结构化数据,来自图像、视频、电子邮件和短信等的非结构化数据,以及来自传感器和机器的半结构化数据不断激增,到2015年大数据的规模将达到8ZB。对于在日益复杂的信息环境中提供优质内容的通信服务供应商(CSP)来说,这一趋势将产生巨大影响。对用户需求全面的、基于情景的洞察能帮助通信服务供应商开发旨在提高用户满意度和保留率的新产品,并进行有 相似文献
18.
为了充分挖掘非结构化数据蕴含的信息价值,文章介绍了基于自然语言处理的文本挖掘技术,从原理到实践进行了探究。以电信运营商移动网络客户的体验与口碑为导向,利用文本挖掘技术在互联网舆情分析和客服部门投诉工单分析等方面进行探索,给出了基于非结构化文本数据的信息分类与呈现的方法,从而更好地聚焦客户需求和网络问题,支撑网络维护与优化工作,提升客户满意度。 相似文献
19.