首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
为了解当前自发地理信息的发展现状、存在问题和发展前景,对自发地理信息展开了研究。首先,介绍了自发地理信息的概念及其研究背景。然后,归纳统计了目前相关的研究文献,分析了自发地理信息的研究现状及其研究中亟待解决的难题。接着,根据研究侧重点的不同,将当前的自发地理信息研究领域总结为数据获取、数据处理和数据应用三个方面,并分别探讨各方面的研究现状、研究成果以及不足。最后,结合大数据研究背景,展望了自发地理信息的未来研究方向。研究表明,自发地理信息已成为地理信息的一个重要发展方向,但其数据处理、应用的理论和方法仍有待完善。  相似文献   

2.
针对K最近邻算法测试复杂度至少为线性,导致其在大数据样本情况下的效率很低的问题,提出了一种应用于大数据下的快速KNN分类算法。该算法创新的在K最近邻算法中引入训练过程,即通过线性复杂度聚类方法对大数据样本进行分块,然后在测试过程中找出与待测样本距离最近的块,并将其作为新的训练样本进行K最近邻分类。这样的过程大幅度的减少了K最近邻算法的测试开销,使其能在大数据集中得以应用。实验表明,本文算法在与经典KNN分类准确率保持近似的情况下,分类的速度明显快于经典KNN算法。  相似文献   

3.
4.
智能手机时代所产生的大数据能够为交通研究者带来大量信息,基于智能手机采集交通出行大数据,利用基于粒子群的支持向量机模型进行了交通出行方式识别研究。在分析数据特点的基础上提出用于建模的特征变量,之后使用粒子群算法优化支持向量机参数,并基于成都市的实证数据进行模型的训练与出行方式识别研究。研究结果表明,该模型识别正确率为95.1%,高于决策树、BP神经网络、基于网格搜索的支持向量机模型,且该模型在时间效率方面具有明显的优越性,因而在出行方式识别方面具有良好的现实意义。  相似文献   

5.
数据起源是描述数据来源及其所经历处理过程的元数据。数据起源常用于数据错误溯源、数据重建和数据可信性验证。起源安全是制约起源技术大规模应用的关键瓶颈。为推动起源安全研究,本文首先从完整性、机密性和可用性三方面分析了起源安全的内涵;然后介绍了目前广受关注的起源安全机制:起源过滤和起源感知的访问控制,分别分析了这两类起源安全机制的主要特征,并对比了现有工作的优点和不足;最后指出了起源安全研究的发展方向。  相似文献   

6.
在线聚集通过统计计算估计查询结果,能够在查询完成前给用户反馈,在大数据分析领域具有重要意义。现有研究工作采用统一随机采样策略,当查询出现小分组或低选择率时,导致估计结果不准确及收敛速度缓慢。针对这一问题,提出了结合负载特征和数据分布进行多维分层采样的有偏采样策略,并结合大数据处理平台Storm设计了结果估计和置信区间计算方法。实验证明所提出的方案有效提高了在线聚集估计结果的准确度,并且具有良好的扩展性。  相似文献   

7.
片段缓存机制是加速动态网页分发的有效解决方案之一,但是实施片段缓存需要有效的共享片段检测机制。针对这种情况,提出了一种高效的共享片段检测算法,介绍了基于片段缓存的动态网页传送模型。该模型能够自动识别共享片段和有效的缓存单元,更好地消除冗余数据,提高缓存命中率。实验和分析表明,与现有方案ESI和Silo相比,该模型能够有效节约带宽,缩短用户请求的响应时间。  相似文献   

8.
针对传统欠采样方法对不平衡数据集重采样时,容易丢失多数类样本信息的问题,本文提出一种基于数据密度分布的欠采样方法US-DD,该方法引入数据密度的概念,并以此概念为依据将数据划分为高密度数据簇和低密度数据簇,高密度数据簇数据高度集中,低密度数据簇数据稀疏松散,两种不同数据簇对分类的意义也不同,因此可以针对不同密度的数据簇,执行不同的重采样策略,以达到改善数据平衡度的目的。实验通过选取6组UCI数据集,采用C4.5决策树、支持向量机作为分类器,将US-DD与随机欠采样、KNN-NearMiss等方法进行比较,实验结果表明,该方法对不平衡数据分类有较好的效果,能有效提升分类器对少数类的识别性能。  相似文献   

9.
Hadoop的HDFS是一个部署在廉价硬件设备上使用的分布式文件系统,具有高容错性,适合海量数据集的应用程序,可用来存储海量数据,为应用程序提供高吞吐量。HDFS开放了一些可移植操作系统接口,文件系统中数据的访问采用流的方式,在时下企业数据急剧膨胀,海量存储挑战严峻的情况下,提供了一个好的技术方法,海量数据的存储需求就是时下流行的云存储的概念,以存储海量视频数据为实例,介绍HDFS存储海量的过程。  相似文献   

10.
针对云计算环境中来自数据中心或存储区域内部的攻击,以及适应更复杂的存储管理的需求。从分布式体系设计角度提出一个实现存储控制平面和数据存储平面融合的协同体系模型。为协同存储安全模型设计详细的多级可信管理、密钥管理和数据同步方案。实验结果表明对于大量中等文件的读写性能较好,数据安全管理造成的性能损失在可接受范围内。而且具有较好的可扩展性,能够适应大规模分布式存储系统的应用环境。  相似文献   

11.
随着大数据计算需求的增长,集群的处理速度需要得到快速的提升,然而目前大数据处理框架的处理性能已逐渐满足不了这种快速增长的需求。由于集群的存储架构是分布式存储,因此数据的存放在大数据处理过程中成为影响集群的处理性能的因素之一。首先,对当今的分布式文件存储系统的结构进行了介绍;接着,根据不同的优化目标,例如减少网络负载、负载均衡、降低能耗和高容错性等,对近年国内外大数据存储算法的研究进行了总结,分析和对比了已有算法的优点以及存在的问题;最后,对大数据存储架构和优化算法设计的挑战和未来研究方向作了展望。  相似文献   

12.
很多大企业采用Hadoop分布式文件系统来存储海量数据,而传统的病毒扫描主要针对单机系统环境。研究如何并行化病毒扫描中的核心特征匹配算法来处理分布式海量数据。在Hadoop平台下,基于MapReduce并行编程模型来实现大数据高效的病毒扫描,特别是针对Hadoop处理海量小文件效率低的问题,通过将小文件合并,再利用索引来提高海量小文件的处理效率。实验结果表明,提出的并行特征匹配算法可以显著降低处理时间,适用于大数据的病毒扫描。  相似文献   

13.
Due to the explosive growth in the size of scientific data-sets, data-intensive computing and analysing are an emerging trend in computational science. In these applications, data pre-processing is widely adopted because it can optimise the data layout or format beforehand to facilitate the future data access. On the other hand, current research shows an increasing popularity of MapReduce framework for large-scale data processing. However, the data access patterns which are generally applied to scientific data-set are not supported by current MapReduce framework directly. This gap motivates us to provide support for these scientific data access patterns in MapReduce framework. In our work, we study the data access patterns in matrix files and propose a new concentric data layout solution to facilitate matrix data access and analysis in MapReduce framework. Concentric data layout is a data layout which maintains the dimensional property in chunk level. Contrary to the continuous data layout adopted in the current Hadoop framework, concentric data layout stores the data from the same sub-matrix into one chunk. This layout can guarantee that the average performance of data access is optimal regardless of the various access patterns. The concentric data layout requires reorganising the data before it is being analysed or processed. Our experiments are launched on a real-world halo-finding application; the results indicate that the concentric data layout improves the overall performance by up to 38%.  相似文献   

14.
Windows NTFS下数据恢复的研究与实现   总被引:6,自引:0,他引:6  
针对由主观或客观因素造成计算机中数据丢失的情况,提出一种Windows NTFS文件系统下数据恢复的实现方案.介绍了NTFS文件系统在磁盘上的结构,重点分析了NTFS文件系统的核心--主文件表MFT,文件记录的结构和文件的几个关键属性.通过分析文件删除前后文件记录中属性值的变化,详细阐述了数据恢复的具体实现.  相似文献   

15.
高性能高适应性分布式文件服务器研究与实现   总被引:1,自引:0,他引:1  
随着计算机网络技术的发展以及Internet技术广泛应用,分布式技术及分布式系统应运而生.但不管是传统分布式文件系统还是面向Internet的分布式文件系统,它们在可靠性、扩展性、易用性及性能等诸多方面都很难做到兼得.研究的目标就是面向分布式计算环境下的文件存储系统,分析当前文件服务器领域的现状及不足,研究构造一个高性能、高适应性的分布式文件服务器系统所涉及到的理论和技术问题.提出了基于虚拟机的分布式文件服务器Cache系统的设计思想,并给出了详细的设计方案;将Adapter的设计思想用于文件传输协议模块的设计,使文件服务器的网络环境适应能力以及客户需求的适应能力得到加强.  相似文献   

16.
随着社交网络的快速发展,海量社交网络的数据挖掘成为一个重要课题;针对海量数据的社交网络分析方法进行研究,以Hadoop的分布式文件系统和Map/Reduce并行方法设计基于Hadoop的分布式数据挖掘框架,在此基础上,通过Map/Reduce的并行方法,将传统数据挖掘算法并行化,以谱聚类的并行为例,阐述转化的过程并对在大数据条件下所面临的内存不足的问题给出相应的算法优化;最后对3个不同量级的数据集进行实验,验证基于Hadoop的社交网络分析平台的框架的合理性和算法并行化的有效性。  相似文献   

17.
针对Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)在海量样本数据集存储方面存在内存占用多、读取效率低的问题,以及分布式数据库HBase在存储文件名重复度和类似度高时产生访问热点的问题,结合样本数据集的特点、类型,提出一种面向样本数据集存取优化方案,优化样本数据集中小文件的写入、读取、添加、删除和替换策略。该方案根据硬件配置测得大、小文件的分界点,通过变尺度堆栈算法按样本数据集的目录结构将小文件合并存储至HDFS;结合行键优化策略将文件索引存储在HBase数据表中;搭建基于Ehcache缓存框架的预取机制。实验结果表明,该方案降低了主节点的内存消耗,提高了文件的读取效率,实现了对海量样本数据集中小文件的高效存取。  相似文献   

18.
基于Hadoop的测试数据处理系统设计与实现   总被引:2,自引:0,他引:2  
提出一种基于Hadoop软件框架进行海量测试数据处理的解决方案。在深入研究Hadoop分布式系统构架、HDFS分布式文件系统以及Map Reduce分布式编程模型的基础上,设计并实现了二进制测试数据文件到HDFS的传输机制以及基于Map Reduce的测试数据分布式格式转换系统。最后搭建实验环境,验证了整个系统的正确性并对分布式格式转换系统进行性能评估。与本地单机相比,系统在处理海量数据时具有更高的效率及更好的可拓展性。  相似文献   

19.
本文旨在对企业级Hadoop 大数据平台安全管理机制进行探究。首先介绍当前企业级Hadoop 大数据集群安全管理方案存在的问题和不足;然后结合当前Hadoop 生态圈安全管理组件的发展现状和第三方安全信息管理解决方案,针对现有的Hadoop 大数据平台安全管理机制的不足进行优化和整合;最后提出了以Ranger+FreeIPA(Kerberos+LDAP)为整体的Hadoop 大数据平台安全管理解决方案。  相似文献   

20.
面向大数据分析的分布式文件系统关键技术   总被引:1,自引:0,他引:1  
大数据时代的来临使数据分析和处理能力成为数据中心和互联网公司日益倚重的技术手段.信息规模的扩大和数据结构的多样化,使海量数据存储成为大数据分析研究的热点.传统的分布式文件系统在扩展性、可靠性和数据访问性能等方面难以满足新形势下的需求.设计并实现了一个面向大数据分析、专为大规模集群应用的分布式文件系统Clover.该系统采用基于目录划分和一致性Hash映射的名字空间管理方法,解决了元数据扩展性问题;通过改进的两阶段提交协议,保证了多元数据服务器下分布式元数据操作的一致性;提出了基于共享存储池的高可用机制,通过热备和全局状态恢复机制提高了元数据的可靠性.评测结果表明,Clover的元数据处理能力随服务器的数量线性增长,增加单个服务器的元数据操作性能平均提升了5.13%~159.32%.由于名字空间管理和分布式事务的开销,多元数据服务器会导致复杂操作的性能下降,但是这种下降的幅度很小(小于10%).与HDFS相比,Clover的文件读写带宽与之接近,并能够保证在元数据服务器失效后文件系统快速恢复,适合于构建高可扩展和高可用的存储系统.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号