共查询到20条相似文献,搜索用时 343 毫秒
1.
文章利用并行计算框架MapReduce,探索数据立方体的计算问题。数据立方体的计算存在两个关键问题,一个是计算时间的问题,另一个是立方体的体积问题。随着维度的增加,计算时间将呈现指数级的增长,立方体的体积也是如此。尽管MapReduce是一个优秀的并行计算框架,但在处理数据倾斜时,分区算法不够完善,导致一些计算任务时间过长,影响整个作业的完成时间。本文通过数据采样的方式,优化数据分区,实验结果表明,数据立方体的计算的性能明显提升。为解决数据立方体体积过大的问题,在Reduce阶段将最终的结果输出到基于NoSQL的HBase数据库进行存储,HBase方便水平扩展,同时也便于日后对数据立方体的查询。 相似文献
2.
3.
硬盘大了.东西多了.种类杂了,找不到了……面对被我弄得纷乱不堪的硬盘,我显得有点茫然不知所措。为了找一个自己需要的东西.往往要在硬盘里“寻觅”半天。好不郁闷。有什么办法.能让我不再迷失于茫茫的数据海洋之中啊?[编者按] 相似文献
4.
5.
6.
1解除硬盘分割的妙法NORTON80中的DISKREET.SYS提供的加密方法确实很好,其加密的程度经过美国中央情报局测试,可以说是无法解密,当你忘记了口令怎么办?它占去了32MB的硬盘就无法使用。如果把硬盘格式化,盘上有用的重要数据就会丢失。下面... 相似文献
7.
8.
9.
10.
11.
SQL Server 2000只有两个对象:数据表和索引占用磁盘空间;只存在三类页:索引页、数据页和存放LOB数据的第三类页用于存储用户数据。SQL Server 2005中增强的存储模型扩展了占用空间的对象的数量和类型,并赋予用户存储变长LOB数据的更灵活的选择,还增加了将分区数据存放到不同位置的功能。本文详细介绍了SQL Server 2000的基本存储模型,以及SQL Server 2005如何管理数据的磁盘空间。[编者按] 相似文献
12.
介绍系统的功能模型及其采用的SSH结构,并重点阐述系统采用的表分区、高速缓存和数据统计等关键技术.通过利用表分区和存储过程对统计功能进行改进,取得较好的效果. 相似文献
13.
基于分条单元热度的RAID数据分布优化 总被引:3,自引:0,他引:3
磁盘具有离磁盘轴心越远的分区其数据传输率越高的特点,然而传统 RAID 中文件分条单元在磁盘中是随机和静态存放的。针对此种情况,为了充分改进 RAID的 I/O 性能,本文提出了一种动态的 RAID 数据分条存放和迁移策略 PMSH(Placement and Migration based on Stripe unit Heat)。PMSH 根据 RAID 中的文件分条单元的访问热度,动态地将访问频率高的分条单元迁移到数据传榆率较高的磁盘分区,从而优化文件在 RAID 的存放位置,使RAID 中的数据分布能够适应文件访问率的动态变化。仿真实验的结果表明:PMSH 算法能够显著地改进整个 RAID的 I/O 性能,具有很好的实用价值。 相似文献
14.
在各种分区工具如雨后春笋般地涌现出来的今天,FDISK几乎已经被打入了冷宫,由于它的特点,还背上了“洗白数据”的罪名,其实,在实际应用中,当用其他分区软件管理磁盘分区出错时,用FDISK/MBR命令能修复很多错误,更重要的是,也能用它在不破坏数据的前提下调整分区大小。 相似文献
15.
为对网格文件进行数据访问,提出一个带有标准服务器和协议的高性能存储系统——联众系统。采用集群环境中的数据管理方法,通过使用多个标准数据服务器访问多个站点,采用的技术包括Grid FTP以及OGSA Byte I/O界面等。实验结果证明,联众系统能够被用作真实网格环境中的并行文件系统,并获得较好的数据访问结果。 相似文献
16.
17.
随着网络和通信技术的不断发展,在大规模科学计算中间结果的保存和处理、基于Internet信息的分析和研究、实时监控系统信息的存储和处理等诸多应用领域,都产生了TB级的海量数据.数据规模的不断增加以及实时的海量数据加载要求对传统的数据库技术提出了新的挑战.设计并实现了一个面向实时Internet监控信息的海量数据实时加载系统IMIL(Internet monitoring information loader),包括可扩展、高度容错的硬件体系结构,使用SQL*Loader以及交换分区机制的高效批量加载算法以及优化的并行调度机制.性能测试显示,这些海量数据加载及优化技术使得数据加载速度由每天2.2亿条提高到12亿条,10个Cluster同时工作时峰值数据加载速度达到每天6TB.IMIL系统对需要实时加载TB级海量数据的大规模复杂数据库系统具有重要的参考和借鉴价值. 相似文献
18.
周文宇 《数字社区&智能家居》2005,(12):15-17
本文根据数据仓库的任务、特点和应该具备的关键能力,对DB2和Oracle两大数据库的数据仓库技术在索引能力、数据分区、仓库管理器等方面进行了对比研究。 相似文献
19.
基于数据分区的DBSCAN算法 总被引:34,自引:1,他引:33
数据聚类在数据挖掘、模式识别、图像处理和数据压缩等领域有着广泛的应用。DBSCAN是一种基于密度的空间聚类算法,在处理空间数据时具有快速、有效处理噪声点和发现任意形状的聚类等优点,但由于直接对数据库进行操作,在数据量大的时间就需要较多的内存和I/O开销;此外,当数据密度和聚类间的距离不均匀时聚类质量较差,为此,在分析DBSCAN算法不足的基础上,提出了一个基于数据分区的DBSCAN算法,测试结果表 相似文献
20.
《计算机光盘软件与应用》2013,(19):283-284
分析研究现有雷达数据库的现状和发展,并结合大型雷达存在的问题的和难点,提出大型数据库雷达管理与维护系统。首先提出大型数据库系统的数据库设计模型,包括基础数据库和动态数据库,同时给出数据库可扩展性设计的方法。接着,针对数据库海量数据查询的问题,提出分区和建立索引的数据库优化方法。最后,在某大型雷达工程项目中应用取得安全、可靠、稳定的效果。 相似文献