首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
Skyline查询能够计算大规模的数据集中满足多个标准的最优解,被广泛应用于多目标决策等领域.动态skyline查询作为skyline查询的一种重要变体,其结果随着查询点的不同而动态改变,为用户在指定查询要求方面提供了更大的灵活性.然而,随着数据量的不断增加,动态skyline查询会产生大量的查询结果,忽略了查询点的维度方向性和数据的全局整体性,给用户的选择带来极大困难.因此,需要进一步优化动态skyline查询的结果集,提高全局整体性,过滤冗余数据.针对上述问题,提出一种基于MapReduce的增广动态skyline查询处理方法.该方法将原始数据按照维度信息进行分区,在多个节点并行计算动态skyline,优化传统动态skyline结果集,同时提供全局更优的结果供用户选择.在此基础上,针对用户给出某些维度的容忍度的情况,提出一种引入用户容忍度的增广动态skyline查询处理方法.该方法可以根据用户容忍度缩减增广动态skyline查询的原始数据集,很大程度上减少中间结果的比较次数,并且提高了结果集的准确度.大量实验证明,基于MapReduce的增广动态skyline查询处理方法具有更好的有效性、准确性和可用性.  相似文献   

2.
针对分布式计算环境,利用移动Agent技术提出了一种基于移动Agent的分布式Skyline查询算法,并进行了深入的分析。通过分析可知,该算法可以实现在分布式环境下求解全局Skyline点。  相似文献   

3.
基于 MapReduce 的 XML 查询逐渐成为研究热点,如何提高 XML 文档查询的效率是关键问题之一.在保障查询结果正确和 XML 数据分块一致的前提下,采用 XPath 投影的方法对 XML 数据分块预处理,使得 XML 分块中仅包含与查询有关的数据.实验表明,该方法有效缩小了数据分块的规模、缩短了 XML 数据服务的查询处理时间.  相似文献   

4.
梁俊杰  李凤华  刘琼妮  尹利 《电子学报》2016,44(8):1873-1880
针对大规模高维数据近似查询效率低下的问题,利用MapReduce编程模型在大规模集群上的数据与任务的并行计算与处理优势,提出MapReduce框架下大规模高维数据索引及KNN查询方法(iPBM),重点突破MapReduce数据块(block)的优化划分与各数据块对计算的共同贡献两大难题,利用两阶段数据划分策略并依据相关性与并行性原则将数据均匀分配到各数据块中,设计分布式的双层空间索引结构与并行KNN查询算法,检索时利用全局索引、局部索引与二维位码索引实现三层数据过滤,大幅缩小搜索范围并降低高维向量计算代价,实验表明iPBM对大规模高维数据的近似查询具有准确性、高效性和扩展性.  相似文献   

5.
本文结合电台广播前后台信息数据处理的实际,利用Hadoop的MapReduce开源实现平台,研究基于MapReduce的BAM神经网络的双向联想模型,提出基于BAM双向记忆联想神经网络的MapReduce改进并行遗传算法,解决了BAM神经网络的权值矩阵训练过程大规模变量处理问题.实验证明该方法较串行BAM神经网络方法更高效.  相似文献   

6.
杜时英  邢长征 《信息技术》2005,29(12):83-84,135
时空道路网络里连续最近邻查询在时空数据库查询的领域是一个新的重要课题,本文提出一个有效的方法(IE)以处理道路网络里的移动对象的k个最近邻居(k-NN)查询问题。  相似文献   

7.
徐海渊  吴泉源  贾焰 《电子学报》2003,31(2):284-286
普遍认为,XML将会取代Html成为数据表示和数据交换的主流标准,由于在线信息变化频繁,XML文档变化检测成为Internet查询系统、搜索引擎以及连续查询系统的关键技术.先前的研究多着眼于有序模式的XML文档,而无需模式的通用比较已经被证明是NP问题,目前针对无需模式的最好算法复杂度为多项式时间.本文提出了基于Key的变化检测算法,能够高效地检测无序模式XML文档的变化,算法复杂度为O(nlogn),n为文档结点数.  相似文献   

8.
针对目前图像的格式和数量都在不断增加,传统的串行处理方法无法满足海量的图像数据处理的问题,提出一种基于MapReduce并行框架的海量图像数据处理模型.模型中取消了Reduce处理函数,在Map函数处理完成后直接输出处理结果,不仅避免了Reduce函数和Re-duce任务处理所需的时间,同时减少了Map与Reduce阶段之间操作所消耗的时间.实验基于Hadoop伪分布式云平台,实现了文中提出的并行处理模型.  相似文献   

9.
在对PageRank算法进行研究的基础上,利用MapReduce编程模型思想对PageRank算法进行改进,设计了在云平台Hadoop环境下运行的基于MapReduce的PageRank分布式并行算法,并在实验中对不同规模的Web图数据集进行了测试,分析不同的Blocksize参数对于算法计算性能的作用以及集群节点数目对于算法运行效率的影响.  相似文献   

10.
随着信息技术的猛烈发展,各行各业产生的数据呈指数型增长。如何利用,分析,整合这些"大数据"成为信息时代的一大挑战。文章针对信息时代下,大规模数据处理分析效率等一系列相关问题,利用Hadoop技术,设计并实现了一套基于Hadoop和MapReduce的大数据处理系统,该系统利用Hadoop分布式文件系统(HDFS)存储数据,利用Hadoop Map Reduce框架分布式处理数据分析任务。实验结果表明:该系统可以将单一数据处理任务分配到一个Hadoop集群上去,继而提高大数据文件处理效率。  相似文献   

11.
设计并实现了一个基于MapReduce的网络舆情分析系统。系统采用HDFS和HBase双存储机制存储数据。通过实验分析与效果比对,选用MMSeg4j为系统进行中文分词。改进了Canopy—Kmeans算法实现文本自动聚类,提高了系统的聚类准确度及效率。目前,该系统已应用于某部队舆情分析系统中,能够实时发现热点话题、准确把握舆情趋势,为应对舆论危机、制定舆论政策提供了科学系统的信息支持。  相似文献   

12.
概率数据流上Skyline查询处理算法   总被引:10,自引:0,他引:10       下载免费PDF全文
 概率数据流管理与分析逐步引起了研究者们的关注.Skyline查询技术是近年来数据库领域的研究热点.此前相关工作仅限于静态数据集或传统确定性数据流上的Skyline查询处理,尚无人考虑概率数据流上的Skyline计算问题,本文提出的SOPDS算法则较好地解决了该问题.在采用适应性更强的网格索引的基础上,提出了概率定界、逐步求精、提前淘汰与选择补偿等启发式规则对算法从时间和空间两方面进行了系统地优化.实验表明,算法在时间与空间上具有较高的整体性能.  相似文献   

13.
电信运营商的客户数据以万亿比特计,若充分利用这些数据,深入分析、挖掘隐含在这些数据中的有用信息,将有助于移动运营商更好地管理客户关系。为达到该目的,文章研究一种采用Hadoop技术对网分数据进行排序的方法,将网分位置排序算法用MapReduce技术改写,极大地提高了排序的效率,同时不影响排序的精度。  相似文献   

14.
孙敏 《信息通信》2015,(1):238-239
基于Hadoop的分布式系统架构能有效提升详单查询的吞吐量和可靠性,较传统的小型机+磁盘阵列方式,能显著地降低成本,保护投资。  相似文献   

15.
针对海量文本邮件的挖掘过滤需要更大的存储空间、以及更强的计算能力,提出一种基于Hadoop云计算平台的垃圾邮件过滤方法.其思想:把相对孤立的数据集合并成易于云平台处理的大文件集合;依据评估函数构建文本向量,将邮件转换为结构化的描述;基于MapReduce分布式编程模型改进SVM算法,利用集群整体的计算能力求解最优平面.实验表明:该方法能利用廉价的计算机集群代替昂贵的高性能机器实现海量邮件数据的挖掘过滤;并且,分类效率能随着集群规模的扩增而提升较快.  相似文献   

16.
夏畅  孙恒超 《电信快报》2014,(12):34-38
传统的关系型数据库架构在应对电信运营商海量的大数据处理时建设成本高昂,处理能力低下,已经无法满足在大数据场景模式下的新型业务需求。Hadoop云计算平台作为一种新型的大数据处理方案,充分利用其低价格和高性能的优势,可以满足海量数据存储及数据处理功能。文章在对Hadoop技术介绍的情况下,设计一套基于Hadoop架构的数据查询平台,实验证明,该平台能够有效提高数据处理效率,降低建设成本。  相似文献   

17.
在简述Hadoop namenode、datanode运行模式的基础上,重点介绍了Hadoop MapReduce的工作机制,并以作业提交、作业初始化、任务分配、任务执行和任务进度更新等流程介绍了Job Client、JobTracker、TaskTracker和HDFS在MapReduce过程中的分工与协作,最后,对云计算作出展望。  相似文献   

18.
多种快速发展的应用产生了海量的数据,使得数据结构多样化,导致在异构数据库系统中数据的存储和查询方式不统一。文章设计了基于分层思想的异构数据库的海量数据查询系统,提出查询分发策略并通过Map Reduce并行计算实现了海量查询子结果的汇聚,最后对该系统的有效性进行测试,结果表明:系统实现了统一数据格式的联机查询目标,性能表现良好,提升了查询的精度和效率。  相似文献   

19.
日志分析对于在用户搜索领域有着很重要的意义,目前的日志分析系统有着不少弊端,比如:海量数据无法处理、离线处理模式、处理时延长等。对日志数据采用分级归档,可以实现大数据的分级优化处理。本文通过提出在一种基于Hadoop的大数据日志分析模型,并对其业务处理流程以及功能架构进行深入分析,实验结果反映出该系统扩展性强、海量数据处理能力卓越、满足在线处理等,具有良好的可行性和有效性。  相似文献   

20.
文中提出以云计算为基础的交通状态识别方法,将经典的聚类算法通过MapReduce编程模式并行化以后,通过Hadoop平台强大的并行任务执行效果,实时监测道路的交通状态。并且改进了K-means聚类算法与模糊C均值聚类算法,用Canopy算法产生初始聚类中心,有效解决了K均值聚类和模糊C均值聚类两种算法会随机产生初始聚类中心的盲目性缺点。然后对比分析了两种改进后的聚类算法应用于交通状态识别中,选择具有更高准确率的识别方法作为最佳选择。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号