首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 25 毫秒
1.
非结构化数据的ETL设计   总被引:1,自引:0,他引:1  
为了实现非结构化数据的ETL处理,分析了数据整合的发展现状和业务需求,描述了目前国际流行的公共仓库元模型(CWM)以及在ETL实现中的作用,详细分析了结构化数据和非结构化数据的不同特点。针对两种数据的差异,提出了解决非结构化数据的属性提取和数据打包的方法,为非结构化数据形成元数据奠定了基础,从而实现了非结构化数据的ETL设计,设计完全满足标准的数据整合要求。  相似文献   

2.
以非结构化数据高精度提取为目的,利用改进K-均值算法聚类云数据库非结构化数据,对分类后非结构化数据进行归一化预处理;通过基于自然语言语义的数据库目标检索模型,对预处理后的多种云数据库非结构化数据,按照用户需求实时提取。经测试:所提方法在不同数据集中,对多种类型的云数据库非结构化数据提取结果存在可信度,最大偏差为1个,偏差极小,在可接受范围内,可高精度提取云数据库非结构化数据。  相似文献   

3.
陈军 《中国信息界》2005,(19):42-42
从目前国内电子政务普遍应用需求来看,大多需要将原本分散于各环节、不同职能部门间异构的文档信息和内容进行有效集成。这就要求应用软件系统处理各种信息时,必须面对大量的结构化和非结构化数据混杂的局面。目前,人们日常生活中所面对的更多的是非结构化数据,这些非结构化数据大多仍然以纸质文档或者办公软件(如Word、PDF、WPS等)制作的文档形式存在。  相似文献   

4.
鲁义轩 《通信世界》2013,(27):46-46
市场调研公司Gartner给出的最新统计称,企业及互联网产生的数据以每年50%的速率在增长,新增数据中多数为非结构化数据,想要从这些数量庞大且杂乱无章的非结构化数据中提取有价值的信息,存储设备是关键,这也是包括中兴通讯在内的巨头设备商面向政企行业重点打造的产品和服务。  相似文献   

5.
文章针对大数据环境下的非结构化数据的特性和存储现状进行分析,运用分布式云存储理论,以及分布式技术和软硬件一体化原理,提出一个务实的高性能、可伸缩、易管理的分布式海量非结构化信息处理解决方案。  相似文献   

6.
王传东  赵宇  孙潇静 《通讯世界》2016,(14):266-266
企业在经营管理的过程中会出现大量的非结构化数据,如果忽视对其进行数据价值挖掘,企业对市场的适应能力将被严重的削弱,所以企业级非结构化数据管理平台的构建越来越受到关注,本文以Linux集群为基础的Hadoop开发框架管理平台为对象,对企业非结构化数据管理平台架构、平台功能和特点展开研究,为提升企业级非结构化数据的管理水平作出努力。  相似文献   

7.
医院数据中心涉及的系统较多,逐渐形成了经典的分层整合信息架构。文章基于医院数据中心建设需求展开,指出传统数据中心存在的缺点,建议将结构化数据和非结构化数据分别单独构建双活数据中心。通过分布式存储双活副本,结合目前成熟的服务器虚拟化技术,双活数据中心解决方案能轻松打破数据中心不同位置存储设备和服务器业务应用壁垒。  相似文献   

8.
云计算下非结构化大数据存储系统设计   总被引:1,自引:0,他引:1  
《现代电子技术》2018,(1):173-177
当前云计算下非结构化大数据存储系统设计方法是通过使用分布式数据库存储跨区域的云计算数据和全局数据存储管理目录实现的,运行系统复杂,成本高昂。为此,提出基于HBase的云计算下非结构化大数据存储系统设计方法,首先对云计算下非结构化大数据进行分析,完成云计算下非结构化大数据提取,为云计算下非结构化大数据存储系统框架设计创造条件,并介绍HBase的特点,得到基于HBase非结构化大数据存储系统架构及运行流程,然后进行云计算下非结构化大数据存储结构模型总体设计及非结构化大数据分布式结构分析,采用负载均衡控制方法进行云计算下非结构化大数据存储系统冗余数据特征压缩及信息存储优化算法设计,完成云计算下非结构化大数据存储系统设计。通过仿真实验证明,所提方法能够有效降低云计算下非结构化大数据存储花费的时间,保证存储的数据可用、不丢失,方便云计算下非结构化大数据的使用,具有较强的使用价值。  相似文献   

9.
简讯     
《通信世界》2010,(10):11-11
赛门铁克日前推出一项新技术Data Insight,该技术可帮助企业通过洞察非结构化数据的所有权及使用情况,提升对数据的治理。  相似文献   

10.
现代社会的信息量正以飞快的速度增长.这些信息里又积累着大量的数据。预计到2025年.每年产生的数据信息将会有超过1/3的内容驻留在云平台中或借助云平台处理。我们需要对这些数据进行分析和处理.以获取更多有价值的信息。在未来的“智慧城市”中,会有越来越大的结构化以及非结构化的数据。那么我们如何高效地存储和管理这些数据.如何分析这些数据呢?答案是,我们需要强有力的大数据处理系统进行支撑。  相似文献   

11.
文章通过研究和分析了典型的NoSQL数据库技术,基于该平台和Hadoop云架构,完成了非结构化的数据云存储架构的设计,可以很好的解决传统的关系型数据库在应对非结构化数据存储过程中的效率低下等问题。  相似文献   

12.
企业非结构化数据检索研究   总被引:3,自引:0,他引:3  
随着信息化的高速发展,企业内部各业务系统中非结构化数据的数据量急剧膨胀,使得信息的搜索工作变得极为繁琐。建设该企业级非结构化数据检索平台,在Linux计算机集群上部署Hadoop开发框架以及Solr全文检索系统,将各业务系统中的非结构化数据进行集中式的存储、管理,并且提供统一的搜索服务。介绍了Solr的原理,并使用它搭建非结构化数据的中文搜索引擎,通过测试证明了该搜索引擎具有良好的搜索性能。通过检索平台,用户能够快速而高效地获取精确的搜索结果。  相似文献   

13.
现代社会的信息量正以飞快的速度增长.这些信息里又积累着大量的数据。预计到2025年.每年产生的数据信息将会有超过1/3的内容驻留在云平台中或借助云平台处理。我们需要对这些数据进行分析和处理.以获取更多有价值的信息。在未来的“智慧城市”中.会有越来越大的结构化以及非结构化的数据。那么我们如何高效地存储和管理这些数据.如何分析这些数据呢?答案是.我们需要强有力的大数据处理系统进行支撑。  相似文献   

14.
为了加快非结构化电网数据存储的译码速率,从而促进电网主机分布式存储能力的提升,提出智能电网海量非结构化数据分布式存储方法。定义MongoDB数据格式的方法,对电网信息实施复制处理,联合分布式存储架构完成智能电网海量非结构化数据库搭建。在此基础上,分析电网数据的特性能力,通过信息增删排查的方式,确定最终的分布式查询语句,搭建智能电网海量非结构化数据分布式存储模型,实现数据的分布式存储。与局部修复型存储编码方法相比,在分布式存储模型作用下,电网主机的存储译码速率最大值能够达到54.5 MB/s,可在实现非结构化电网数据快速转码的同时,提升电网主机分布式存储能力。  相似文献   

15.
针对各种数据呈几何级数爆炸式增长促使数据存储容量面对巨大压力的问题,本研究致力于开发设计一种面向非结构化元数据的分布式分级存储管理系统。通过在Client端和Server端分别组织Java jar和逻辑节点实现非结构化元数据管理平台的功能调用,并采用Mongodb数据库构建了自研元数据管理组件的文档数据库。将策略配置存放在Client端的Zookeeper中,并在Server端中实现非结构化元数据的分级存储。通过性能测试结果显示:相比传统的LRU存储方式,采用高低层Server端服务器对非结构化元数据分级存储过程中,平均响应时间下降了45.2%和36.7%,字节命中率分别提升了3.0%和2.6%。因此,本研究提出的分布式分级存储原理可以提升非结构化元数据存储效率。  相似文献   

16.
很多企业试图通过扩展现有的传统存储系统,来满足非结构数据在制作、管理和归档方面的需求,但是往往却大失所望。因为这些传统系统只是为结构化处理数据或基于文本格式的数据存储而设计的,根本就不适用非结构化数据。即使运用最新的NAS(网络附加存储)和SAN(存储区域网络)系统架构,也存在一定的内在缺陷——“存储孤岛”、受限的延展性、性能的瓶颈、缺乏可用性以及高昂的成本,将极大的增加管理复杂性。  相似文献   

17.
潘家驰 《通信世界》2013,(11):32-32
随着传统数据库中的结构化数据,来自图像、视频、电子邮件和短信等的非结构化数据,以及来自传感器和机器的半结构化数据不断激增,到2015年大数据的规模将达到8ZB。对于在日益复杂的信息环境中提供优质内容的通信服务供应商(CSP)来说,这一趋势将产生巨大影响。对用户需求全面的、基于情景的洞察能帮助通信服务供应商开发旨在提高用户满意度和保留率的新产品,并进行有  相似文献   

18.
为了充分挖掘非结构化数据蕴含的信息价值,文章介绍了基于自然语言处理的文本挖掘技术,从原理到实践进行了探究。以电信运营商移动网络客户的体验与口碑为导向,利用文本挖掘技术在互联网舆情分析和客服部门投诉工单分析等方面进行探索,给出了基于非结构化文本数据的信息分类与呈现的方法,从而更好地聚焦客户需求和网络问题,支撑网络维护与优化工作,提升客户满意度。  相似文献   

19.
为实现非结构化大数据的安全存储并提高其抗攻击能力,提出了基于递归神经网络的非结构化数据加密存储方法。通过分块处理医院非结构化大数据,获得输入、输出张量,构建基于LSTM的递归神经网络,生成医院大数据序列;通过向前反馈和向后反馈获得加密数据,将加密后数据包用加密后源数据包的线性组合代替;再设计基于列不满秩概率存储算法,通过加密存储子节点控制器分配加密存储任务。实验结果表明:该方法具有较强的抗攻击能力,存储效率优势更显著。  相似文献   

20.
《移动通信》2009,(23):92-93
近日,IBM发布了新的业务分析产品:IBM Cognos内容分析软件、IBM InfoSphere内容评估软件和IBM InfoSphere主内容软件,旨在帮助客户以统一的方式更好地管理和控制结构化和非结构化数据。同时基于企业内各方面内容提供有价值的洞察。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号