共查询到20条相似文献,搜索用时 125 毫秒
1.
为了解当前自发地理信息的发展现状、存在问题和发展前景,对自发地理信息展开了研究。首先,介绍了自发地理信息的概念及其研究背景。然后,归纳统计了目前相关的研究文献,分析了自发地理信息的研究现状及其研究中亟待解决的难题。接着,根据研究侧重点的不同,将当前的自发地理信息研究领域总结为数据获取、数据处理和数据应用三个方面,并分别探讨各方面的研究现状、研究成果以及不足。最后,结合大数据研究背景,展望了自发地理信息的未来研究方向。研究表明,自发地理信息已成为地理信息的一个重要发展方向,但其数据处理、应用的理论和方法仍有待完善。 相似文献
2.
3.
4.
5.
6.
7.
8.
针对传统欠采样方法对不平衡数据集重采样时,容易丢失多数类样本信息的问题,本文提出一种基于数据密度分布的欠采样方法US-DD,该方法引入数据密度的概念,并以此概念为依据将数据划分为高密度数据簇和低密度数据簇,高密度数据簇数据高度集中,低密度数据簇数据稀疏松散,两种不同数据簇对分类的意义也不同,因此可以针对不同密度的数据簇,执行不同的重采样策略,以达到改善数据平衡度的目的。实验通过选取6组UCI数据集,采用C4.5决策树、支持向量机作为分类器,将US-DD与随机欠采样、KNN-NearMiss等方法进行比较,实验结果表明,该方法对不平衡数据分类有较好的效果,能有效提升分类器对少数类的识别性能。 相似文献
9.
常广炎 《电脑编程技巧与维护》2016,(6):70-71
Hadoop的HDFS是一个部署在廉价硬件设备上使用的分布式文件系统,具有高容错性,适合海量数据集的应用程序,可用来存储海量数据,为应用程序提供高吞吐量。HDFS开放了一些可移植操作系统接口,文件系统中数据的访问采用流的方式,在时下企业数据急剧膨胀,海量存储挑战严峻的情况下,提供了一个好的技术方法,海量数据的存储需求就是时下流行的云存储的概念,以存储海量视频数据为实例,介绍HDFS存储海量的过程。 相似文献
10.
11.
随着大数据计算需求的增长,集群的处理速度需要得到快速的提升,然而目前大数据处理框架的处理性能已逐渐满足不了这种快速增长的需求。由于集群的存储架构是分布式存储,因此数据的存放在大数据处理过程中成为影响集群的处理性能的因素之一。首先,对当今的分布式文件存储系统的结构进行了介绍;接着,根据不同的优化目标,例如减少网络负载、负载均衡、降低能耗和高容错性等,对近年国内外大数据存储算法的研究进行了总结,分析和对比了已有算法的优点以及存在的问题;最后,对大数据存储架构和优化算法设计的挑战和未来研究方向作了展望。 相似文献
12.
很多大企业采用Hadoop分布式文件系统来存储海量数据,而传统的病毒扫描主要针对单机系统环境。研究如何并行化病毒扫描中的核心特征匹配算法来处理分布式海量数据。在Hadoop平台下,基于MapReduce并行编程模型来实现大数据高效的病毒扫描,特别是针对Hadoop处理海量小文件效率低的问题,通过将小文件合并,再利用索引来提高海量小文件的处理效率。实验结果表明,提出的并行特征匹配算法可以显著降低处理时间,适用于大数据的病毒扫描。 相似文献
13.
《International Journal of Parallel, Emergent and Distributed Systems》2013,28(5):407-433
Due to the explosive growth in the size of scientific data-sets, data-intensive computing and analysing are an emerging trend in computational science. In these applications, data pre-processing is widely adopted because it can optimise the data layout or format beforehand to facilitate the future data access. On the other hand, current research shows an increasing popularity of MapReduce framework for large-scale data processing. However, the data access patterns which are generally applied to scientific data-set are not supported by current MapReduce framework directly. This gap motivates us to provide support for these scientific data access patterns in MapReduce framework. In our work, we study the data access patterns in matrix files and propose a new concentric data layout solution to facilitate matrix data access and analysis in MapReduce framework. Concentric data layout is a data layout which maintains the dimensional property in chunk level. Contrary to the continuous data layout adopted in the current Hadoop framework, concentric data layout stores the data from the same sub-matrix into one chunk. This layout can guarantee that the average performance of data access is optimal regardless of the various access patterns. The concentric data layout requires reorganising the data before it is being analysed or processed. Our experiments are launched on a real-world halo-finding application; the results indicate that the concentric data layout improves the overall performance by up to 38%. 相似文献
14.
Windows NTFS下数据恢复的研究与实现 总被引:6,自引:0,他引:6
针对由主观或客观因素造成计算机中数据丢失的情况,提出一种Windows NTFS文件系统下数据恢复的实现方案.介绍了NTFS文件系统在磁盘上的结构,重点分析了NTFS文件系统的核心--主文件表MFT,文件记录的结构和文件的几个关键属性.通过分析文件删除前后文件记录中属性值的变化,详细阐述了数据恢复的具体实现. 相似文献
15.
高性能高适应性分布式文件服务器研究与实现 总被引:1,自引:0,他引:1
随着计算机网络技术的发展以及Internet技术广泛应用,分布式技术及分布式系统应运而生.但不管是传统分布式文件系统还是面向Internet的分布式文件系统,它们在可靠性、扩展性、易用性及性能等诸多方面都很难做到兼得.研究的目标就是面向分布式计算环境下的文件存储系统,分析当前文件服务器领域的现状及不足,研究构造一个高性能、高适应性的分布式文件服务器系统所涉及到的理论和技术问题.提出了基于虚拟机的分布式文件服务器Cache系统的设计思想,并给出了详细的设计方案;将Adapter的设计思想用于文件传输协议模块的设计,使文件服务器的网络环境适应能力以及客户需求的适应能力得到加强. 相似文献
16.
李晓蕾 《计算机测量与控制》2014,22(12)
随着社交网络的快速发展,海量社交网络的数据挖掘成为一个重要课题;针对海量数据的社交网络分析方法进行研究,以Hadoop的分布式文件系统和Map/Reduce并行方法设计基于Hadoop的分布式数据挖掘框架,在此基础上,通过Map/Reduce的并行方法,将传统数据挖掘算法并行化,以谱聚类的并行为例,阐述转化的过程并对在大数据条件下所面临的内存不足的问题给出相应的算法优化;最后对3个不同量级的数据集进行实验,验证基于Hadoop的社交网络分析平台的框架的合理性和算法并行化的有效性。 相似文献
17.
针对Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)在海量样本数据集存储方面存在内存占用多、读取效率低的问题,以及分布式数据库HBase在存储文件名重复度和类似度高时产生访问热点的问题,结合样本数据集的特点、类型,提出一种面向样本数据集存取优化方案,优化样本数据集中小文件的写入、读取、添加、删除和替换策略。该方案根据硬件配置测得大、小文件的分界点,通过变尺度堆栈算法按样本数据集的目录结构将小文件合并存储至HDFS;结合行键优化策略将文件索引存储在HBase数据表中;搭建基于Ehcache缓存框架的预取机制。实验结果表明,该方案降低了主节点的内存消耗,提高了文件的读取效率,实现了对海量样本数据集中小文件的高效存取。 相似文献
18.
基于Hadoop的测试数据处理系统设计与实现 总被引:2,自引:0,他引:2
提出一种基于Hadoop软件框架进行海量测试数据处理的解决方案。在深入研究Hadoop分布式系统构架、HDFS分布式文件系统以及Map Reduce分布式编程模型的基础上,设计并实现了二进制测试数据文件到HDFS的传输机制以及基于Map Reduce的测试数据分布式格式转换系统。最后搭建实验环境,验证了整个系统的正确性并对分布式格式转换系统进行性能评估。与本地单机相比,系统在处理海量数据时具有更高的效率及更好的可拓展性。 相似文献
19.
20.
面向大数据分析的分布式文件系统关键技术 总被引:1,自引:0,他引:1
大数据时代的来临使数据分析和处理能力成为数据中心和互联网公司日益倚重的技术手段.信息规模的扩大和数据结构的多样化,使海量数据存储成为大数据分析研究的热点.传统的分布式文件系统在扩展性、可靠性和数据访问性能等方面难以满足新形势下的需求.设计并实现了一个面向大数据分析、专为大规模集群应用的分布式文件系统Clover.该系统采用基于目录划分和一致性Hash映射的名字空间管理方法,解决了元数据扩展性问题;通过改进的两阶段提交协议,保证了多元数据服务器下分布式元数据操作的一致性;提出了基于共享存储池的高可用机制,通过热备和全局状态恢复机制提高了元数据的可靠性.评测结果表明,Clover的元数据处理能力随服务器的数量线性增长,增加单个服务器的元数据操作性能平均提升了5.13%~159.32%.由于名字空间管理和分布式事务的开销,多元数据服务器会导致复杂操作的性能下降,但是这种下降的幅度很小(小于10%).与HDFS相比,Clover的文件读写带宽与之接近,并能够保证在元数据服务器失效后文件系统快速恢复,适合于构建高可扩展和高可用的存储系统. 相似文献