首页 | 本学科首页   官方微博 | 高级检索  
 共查询到20条相似文献,搜索用时 484 毫秒
信息技术的快速发展促使非结构化数据管理成为一个重要的问题.非结构化数据的主要特点是数量巨大和模式滞后.传统的关系数据管理系统在处理非结构化数据上难以提出有效的解决方案.从"现实的数据总是包含着诸多特征(feature)观点出发,提出了"数据-特征模型",建立特征,特征空间以及数据类型等概念.在此基础上提出了基于特征的非结构化数据演化管理建模框架.同时简述了非结构化数据管理原型系统MYUSD的结构.  相似文献   

非结构化数据资源具有较高的研究价值,伴随着信息化技术、互联网技术应用范围的扩大,非结构化数据资源规模随之增大,对其存储技术提出了较大的挑战,因此提出了大规模非结构化数据资源快速存储方法,采用层次聚类算法分组处理非结构化数据资源。以某一组非结构化数据资源为对象,结合数据资源传输距离、节点能量、传输方向等因素,确定非结构化数据资源转发路径,描述非结构化数据资源存储过程,制定分层扩展存储机制,从而实现大规模非结构化数据资源的快速存储。实验数据表明,在不同实验工况背景下,应用本文方法后获得的非结构化数据资源存储速率最大值为1 920 MB/s,非结构化数据资源存储位置准确性最大值为98%。  相似文献   

高校教师在日常教学和科研工作中,需要查阅大量的非结构化资料,而这些资料存储在各种终端设备上,给查阅带来极大的不便。为此,设计了一套基于J2EE多层架构、通过XML进行数据存储的公共机房网络存储管理系统。该系统为高校教师的数据存储、数据转移、数据共享提供了一个公共平台,实现了公共机房的网络存储管理,为高校机房、多媒体教室的数据管理提供了一种切实有效的解决方案。  相似文献   

谷洪彬  杨希  魏孔鹏 《计算机时代》2020,(5):109-111,115
针对高校本身业务系统带来的不同结构海量数据的存储管理和高效利用问题,通过比较新兴的数据湖技术和传统的数据仓库的区别,构建了基于数据湖的高校数据管理体系和数据处理机制,为高校的数据治理提供了数据层的存储支持,为使用机器学习方法进行大数据分析提供了非结构化数据来源。  相似文献   

该文从数据的存储方式入手,列出了目前业界对非结构化数据的几种管理方式和方法,并提出了通过XML,采用"非结构化数据-半结构化数据-结构化数据"的逐步转换方式,将目前难以管理的非结构化数据转到容易管理的结构化数据的方法,达到了非结构化数据为我所用的目的。  相似文献   

非结构化数据的可视化编辑系统   总被引:1,自引:0,他引:1  
在创新计算中碰到大量的非结构化数据,采用超图模型实现非结构化数据在计算机中的存储与表示,并实现了一个非结构化数据的编辑系统,通过图形界面,用户可以交互式的编辑非结构化数据。  相似文献   

分析了目前常用数据库备份与恢复方案的现状,针对结构化与非结构化数据管理的复杂性,本文提出了一种基于B/S模式下的一体化的结构化与非结构化数据备份方案.该方案整合了结构化数据和非结构化数据的备份方法,并能够根据特定的需求进行分类备份和恢复.论文最后应用上述方案成功地实现了一个具体系统的数据备份和恢复.  相似文献   

作为一种先进计算方式的云计算,不断在信息服务与科研领域升温,并且影响了存储和运算大规模数据。本文主要分析了云存储技术,非结构化数据存储方式,面向云存储的非结构化数据存储系统架构,面向云存储的非结构化数据存储结构设计和实现。  相似文献   

交互式电子技术手册是综合保障领域的一次技术革命,在分析非结构化数据和结构化数据分类的基础上,采取"非结构化数据-XML-结构化数据"的转换方式,将非结构化技术资料的元数据信息转换为可存储在公共源数据库(CSDB)中的结构化数据,为IETM数据录入问题提供解决方法。  相似文献   

分析了目前常用数据库备份与恢复方案的现状,针对结构化与非结构化数据管理的复杂性,本文提出了一种基于B/S模式下的一体化的结构化与非结构化数据备份方案。该方案整合了结构化数据和非结构化数据的备份方法,并能够根据特定的需求进行分类备份和恢复。论文最后应用上述方案成功地实现了一个具体系统的数据备份和恢复。  相似文献   

非结构化数据通常指相对于关系数据而言没有固定的显式结构的数据,比如视频、音频、图像、文档等非结构化数据。根据权威数据咨询机构或研究机构的预测报告显示,近 5~10年的数据量将呈指数级增长,而其中的非结构化数据占到当前数字信息总量的70%~85%。面对如此庞大的数据量和信息量,如何有效管理非结构化数据、获得有价值的信息或知识显得迫在眉睫。(非结构化) 数据管理可以简单化为3个目标,即:实现数据的“存得下、管得了、用的上”。本文将主要围绕前两个基本目标介绍目前的非结构化数据存储管理的研究情况。同时介绍中国人民大学非结构数据管理(Unstructured DataManagement,UDM)研究小组基于“自由表”数据模型和BUD(Bank of Unstructured Data)参考体系模型在这一个问题上所作的初步研究与探索工作,以及在原型平台myBUD中的若干存储管理技术。  相似文献   

As we are now entering the era of data deluge, how to efficiently manage these massive data is becoming a great challenge, especially for the exponentially growing unstructured data, which is far more than structured and semi-structured data. However, unstructured data is more complex for its variety. That is to say, different types of unstructured data have different file size, type and usage, which need different storage and processing for high efficiency. In this paper, we propose a hybrid storage architecture to store the pervasive unstructured data. This hybrid architecture integrates various kinds of data stores within a unified framework, where each type of unstructured data can find its suitable placement policy and it is transparent to users. In addition, we present several partitioning strategies based on the unified framework, which are beneficial to the MapReduce-based batch processing for these unstructured data. The experiments demonstrate that it is possible to build an efficient and smart system through the hybrid architecture and the partitioning strategies.  相似文献   

Many companies have complex information systems with a growing amount of unstructured data - information that isn't organized into fixed categories. Databases have built-in tools for understanding and managing structured data. However, managing unstructured data - including migrating it to new storage equipment, backing it up, maintaining user access to material, and keeping information to satisfy governmental regulatory requirements - is a challenge. The current approaches - which entail manually moving files and examining the information they contain to determine how best to handle them - are not adequate for coping with the exploding quantity of unstructured data. Because of this, companies are turning to a new file-management approach: the file area network. A FAN is a set of technologies that organize, route, switch, replicate, and otherwise handle files over networks, all without interrupting user access to information, thereby providing a flexible, intelligent, cost-effective platform to move and manage data.  相似文献   

非结构化数据存储管理的实用化方法   总被引:2,自引:0,他引:2  
针对目前广泛采用的非结构化数据文件与其属性数据分开存储的机制中的不安全性问题,本文从实用化角度给出一个“监控”策略和实现方法,通过软件实现可以约束非法的或意外的对非结构化数据源文件的破坏,并且保证了源文件与其在数据库中的索引的一致性。  相似文献   

为解决在区块链上进行数据存储和共享过程中面临的交易确认效率低以及存储空间利用率低的问题,本文提出一种基于云平台部署的区块链组网方案以及与其适配的数据共享存储方案。首先,通过对传统的全连接区块链组网进行分解和重构,形成一种基于子网的非全连接组网方案,将交易确认的范围限定在有限的节点之内;其次,通过将数据依次划分为事务数据-敏感状态数据-非敏感状态数据3个层次进行管理,节点只保存与状态转移相关的事务数据以保障不可篡改性,状态数据则在云平台上实现不同程度的共享存储,最大限度优化了存储空间。实验结果表明,该方案可为区块链中可信数据的存储和共享提供新的思路。  相似文献   

随着大数据应用的不断深入,对大规模结构化/非结构化数据进行融合管理和分析的需求日益凸显.然而,结构化/非结构化数据在存储管理方式、信息获取方式、检索方式方面的差异给融合管理和分析带来了技术挑战.本文提出了适用于异构数据融合管理和语义计算的属性图扩展模型,并定义了相关属性操作符和查询语法.接着,基于智能属性图模型提出异构数据智能融合管理系统PandaDB,并详细介绍了PandaDB的总体架构、存储机制、查询机制、属性协存和AI算法集成机制.性能测试和应用案例证明,PandaDB的协存机制、分布式架构和语义索引机制对大规模异构数据的即席查询和分析具有较好的性能表现,该系统可实际应用于学术图谱实体消歧与可视化等融合数据管理场景.  相似文献   

谢华成  陈向东 《计算机应用》2012,32(7):1924-1928
非结构化数据呈爆炸态势增长,现有存储技术在I/O吞吐能力、可扩展性及易管理性等方面亟待改进。存储系统以云存储和可靠性理论为基础,建立了非结构化数据的分布式存储模型,并设计了可靠度函数。采用分布式关系数据库管理系统(RDBMS)作为存储底层,将非结构化数据直接存储于数据表中,实现了非结构化数据和元数据的分离式存储和统一管理,进而提升了存储系统性能。相对于集中式存储,新系统具有较高的可用性。仿真结果显示,存储系统可靠度高且易于扩展。该分布式存储系统可应用于动态开放计算环境,提供效能较高的云存储服务。  相似文献   

互联网技术的发展产生的海量非结构化数据在传统关系型数据库中难以被高速有效地进行存储和处理,各类NoSQL数据库可以有效存储处理非结构化数据,但是对关系运算功能的弱化难以满足应用场景的需求。具备非结构化数据处理能力的新型关系型数据库提供了适用多种应用场景的高效存储方式。为了能够定量地比较关系型数据库和面向文档的NoSQL数据库的数据存储与处理能力,比较了PostgreSQL的hstore数据类型和MongoDB的内嵌文档对非结构化数据的储存方式,并通过非结构化数据的批量加载、磁盘占用、主键查询、非主键查询、地理空间坐标查询等方面的对比来以分析性能特征与适用场景。  相似文献   

More and more unstructured data are produced and consumed over network. How to maintain these data and improve the availability and scalability of the storage systems has become a considerable challenge. Although some NoSQL systems such as Dynamo, Cassandra, MongoDB have provided different advantages for unstructured data management, no one can provide flexible query functions like MongoDB, meanwhile guarantee the availability and scalability as Cassandra simultaneously. This paper presents a new high available distributed storage system called MyStore based on an optimized clustered MongoDB for unstructured data. Consistent hash is used to distribute data on multiple MongoDB nodes by applying virtual node method. NWR mode is applied to provide automatic backup operation and guarantee data consistency. And a gossip protocol is taken for exchanging information of failures in the system. Moreover, a user-friendly interface module and an efficient cache module are designed for improving the usability of the system. Based on above strategies, the system can realize high availability for unstructured data storage, while providing complex query functions like rational databases. Moreover, it is applied in a multi-discipline virtual experiment platform named VeePalms that has run practically. Experimental evaluation shows that the methodology is powerful enough not only to enhance the data availability, but also to improve the server’s scalability.  相似文献   

Management of unstructured information, such as emails, is vital for supporting knowledge work in professional services. However, the conventional way for managing unstructured information is inadequate as the knowledge work and associated tasks are becoming more complex, are dynamically changing with time and involve multiple concepts. This paper attempts to address the inadequacy, deficiency and limitations of the methods presently used to elicit knowledge from masses of unstructured information. These methods rely heavily on manpower, are time consuming and costly. With the development of a multi-faceted and automatic knowledge elicitation system (MAKES) manpower, time and cost can be dramatically reduced. The MAKES integrates the processes of collecting data, classifying unstructured information, modelling knowledge flow and social network analysis, and makes all of these actions into a connected process to audit unstructured information automatically. This audit is based on specific search criteria, search keywords, and the user behaviours of the knowledge workers. The unstructured information is automatically organized, classified and presented in a multi-facet taxonomy map. New concepts and knowledge are uncovered, analyzed and updated continuously from the incoming unstructured information, using a purpose-built knowledge elicitation algorithm named self-associated concept mapping (SACM). The capability and advantages of the MAKES are demonstrated through a successful trial implementation and a verification test conducted in an electronics trading company. Encouraging results have been achieved and a number of potential advantages have been realized. The area of application in this first deployment is based on an email-intensive organization and the proposed study will contribute to the advancement of methods and tools for managing other kinds of unstructured information.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号