首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于Hive的海量搜索日志分析系统研究   总被引:2,自引:0,他引:2  
赵龙  江荣安 《计算机应用研究》2013,30(11):3343-3345
针对传统分布式模型在海量日志并行处理时的可扩展性和并行程序编写困难的问题, 提出了基于Hive的Web海量搜索日志分析机制。利用HQL语言以及Hadoop分布式文件系统(HDFS)和MapReduce编程模式对海量搜索日志进行分析处理, 对用户搜索行为进行了分析研究。对用户搜索行为中的查询热点主题、用户点击数和URL排名、查询会话的分析结果对于搜索引擎的排序算法和系统优化都有一定的指导意义。  相似文献   

2.
搜索日志中蕴含海量的信息,利用搜索日志进行挖掘以及分析热点查询内容,对于提高搜索服务的质量有很大的价值和意义。在融合K-means聚类中心迭代优点和查询词向量长度信息的基础上,提出SKHC(类K-means层次聚类)方法,并以该方法对搜索日志聚类。然后,分析聚类后的查询用户数、查询频次、查询累计时间、查询数、统计量特征与热点查询的关系,提出基于各类热度值进行热点查询内容抽取的方法,同时融合了日志热度值和倒排日志频率统计特征。通过对抽取出的结果进行统计分析,并和日志所在月份发生的热点事件进行相关性比较,发现四川地震和北京奥运月平均热度分别达到最高的0.89和0.81,证明了该方法的有效性。  相似文献   

3.
UniPay支付SDK是联通沃商店为了给开发者提供手机话费和第三方支付能力而推出的一站式应用内统一支付插件,支付SDK日志记录海量的用户终端信息、用户使用手机应用的行为记录等数据。针对传统数据仓库难于满足海量日志数据存储及处理等问题,设计一种基于Hive的支付SDK日志分析系统。测试结果表明,使用Hadoop框架及Hive数据仓库对海量支付SDK日志进行存储和处理,能很好地满足业务需求,对手机应用的设备激活量、日活跃用户数(DAU)、分时日志量以及用户支付转化率等指标的分析结果,对应用开发者升级优化其应用及运营人员的营销策略调整具有重要的参考价值。  相似文献   

4.
云计算等技术的发展,推动了海量数据存储和处理技术的发展,从海量数据中快速找到有价值的信息是进行数据挖掘的关键。Hive能够使用Hibernate查询语言(Hibernate Query Language,HQL)语句对数据进行查询和分析,帮助决策者从海量数据中挖掘出更高价值的信息。以网站流量统计分析为例,从Hive的环境搭建、数据仓库构建、数据查询等方面介绍了Hive的应用。  相似文献   

5.
基于数据仓库的JMS中数据管理方法的研究   总被引:1,自引:0,他引:1  
张小芳  古清月 《计算机工程与设计》2007,28(5):1189-1192,1201
在分析JMS数据管理的目标的基础上,重点研究了系统数据和用户数据的管理模型.对系统数据,重点研究了集群配置数据和日志数据的管理方法,提出使用OGSA的分布式消息结构来管理JMS中的分布式日志.对用户数据,研究了作业和作业网络及其实例的数据管理以及用户数据传输方法,提出了使用数据仓库来分析作业执行历史,设计了JMS的数据仓库模式,该模式能满足用户的多种查询和分析要求.有效地解决了JMS中的数据存储、查询、分析和共享等问题.  相似文献   

6.
互联网上很多资源蕴含人类群体智慧.分类网站目录人工地对网站按照主题进行组织.基于网站目录中具有主题标注的URL设计URL主题分类器,结合伪相关反馈技术以及搜索引擎查询日志,提出了自动、快速、有效的查询主题分类方法.具体地,方法为2种策略的结合.策略1通过计算搜索结果中URL的主题分布预测查询主题,策略2基于查询日志点击关系,利用具有主题标注的URL,对查询进行标注获取数据并训练统计分类器预测查询主题.实验表明,方法可获得比当前最好算法更好的准确率,更好的在线处理效率并且可基于查询日志自动获取训练数据,具有良好的可扩展性.  相似文献   

7.
随着计算机和网络技术的迅猛发展以及数据获取手段的不断丰富,海量数据的实时处理需求日益增多,传统的日志分析技术在处理海量数据时存在计算瓶颈。大数据时代下,随着开放式处理平台的发展,能够处理大规模且多样化数据的大数据处理系统应运而生。为了让原有的业务能够充分利用Hadoop的优势,本文首先研究了基于大数据技术的网络日志分析方法,构建了网络日志分析平台以实现万亿级日志采集、解析、存储和高效、灵活的查询与计算。对比分析了Hive、Impala和Spark SQL这3种具有代表性的SQL-on-Hadoop查询系统实例,并展示了这类系统的性能特点。采用TPC-H测试基准对它们的决策支持能力进行测试及评估,通过对实验数据的分析和解释得到了若干有益的结论。实现了海量日志数据计算与分析在证券领域的几种典型应用,为进一步的研究工作奠定了基础。  相似文献   

8.
航空票务系统OLAP数据仓库设计与实现   总被引:3,自引:0,他引:3  
如何对航空票务系统中累积的海量数据进行分析处理从而为决策提供支持,已经成为航空票务系统亟待解决的问题.通过对航空票务系统的研究,提出了利用联机分析处理和数据仓库技术建立决策支持系统的解决方案.详细论述了航空票务决策分析系统中数据仓库模型与多维数据集的建立,以及数据的抽取、转换、加载和分析结果的前端展现,并且对利用表分区技术解决决策系统中海量数据的存储问题进行了重点论述.  相似文献   

9.
在数据仓库的联机分析处理的查询处理中,经常会涉及到大量数据的复杂即席查询.用户通过提交联机分析处理查询对数据进行分析和决策支持,这通常需要较快的查询响应速度.因此,提高联机分析处理的查询性能就成为了数据仓库领域的关键问题.为了提高数据仓库的查询性能,结合维表层次结构的特点,提出一种将分段位图索引和位图连接索引有效结合的方法.实验证明,该方法节省了位图索引的储存空间,减少了I/O开销,有效地提高了数据仓库的查询效率.  相似文献   

10.
探讨了某海量数据系统中实现统计分析的策略和方法,并结合某大型人口信息系统中联机分析处理技术的具体应用,提出了在数据仓库模式下统计分析系统通用的功能架构。文章还针对实际情况,提出了合理的数据存储实现模式,并对在线分析系统的实现策略和指标库维度设计和优化过程进行了探讨。这种设计实现了对海量数据进行灵活、方便的查询和统计这一最终应用目标,将系统蕴含的基础数据转化为决策知识,也为大规模数据统计分析处理提供了一套完整的解决方案.  相似文献   

11.
在数据仓库、大量交易记录系统、移动计算、联机分析处理系统(OLAP)等许多领域中聚集数据的处理是一个非常重要的核心问题。该文首先分析了聚集数据查询的特点,引入了聚集查询语言和聚集查询重写;其次对于聚集查询环境下如何实现快速查询,给出了一个基于聚集数据的近似查询计算模型;最后将该计算模型应用于人口统计系统,从而实现对统计信息类数据进行快速的查询处理,获得有效的查询结果。  相似文献   

12.
Map/Reduce是海量离线数据分析中广泛应用的并行编程模型.Hive数据仓库基于Map/Reduce实现了查询处理引擎,然而Map/Reduce框架在处理偏斜数据时会出现工作负载分布不均的问题.均衡计算模型(computation balanced model,CBM),其核心思想是通过数据分布特征指导查询计划优化.相应研究贡献包括2部分,首先针对应用极广的GroupBy查询和Join查询建立了运行估价模型,确定了不同场景下查询计划的优化选择分支;其次基于Hive ETL机制设计了一种统计信息收集方法,解决了统计海量数据分布特征的问题.实验数据表明,通过CBM优化的GroupBy查询耗时节省了8%~45%,Join查询耗时节省了12%~46%;集群CPU负载均衡指标优化了60%~80%,I/O负载均衡指标优化了60%~90%.实验结果证实了基于CBM模型优化的查询计划生成器能显著均衡化Hive查询运行时的集群负载,并优化了查询处理效率.  相似文献   

13.
深度万维网蕴藏着海量的信息,现有的搜索引擎很难搜索到其中的内容.如何充分地获取深度万维网中的有价值的信息成为一个难题.论文提出了基于关键词的深度万维网的数据库的查询方法,该方法采用朴素贝叶斯算法对关键词进行分类,并采用日志挖掘对采样的数据库进行统计,最终生成查询的SQL,语句.该方法不仅解决了深度万维网多领域的数据库查询,而且能够与现有的搜索引擎进行整合,帮助用户快速有效的查询.  相似文献   

14.
点击流数据揭示了网上消费者在网上的冲浪行为,这些数据记录了用户的行为信息.如何从海量日志数据中自动、智能地抽取隐藏于其中的知识,这是本文要研究的问题.介绍一种利用SQL Server 2005构建Web日志数据仓库的方案,先对点击流数据进行收集、预处理,并加载到数据仓库,然后通过Analysis Services深入分析网站用户的消费行为、兴趣偏好,挖掘有趣模式,获取更多有指导意义的商业信息.  相似文献   

15.
CN顶级域名的DNS日志从分布式站点传输到数据处理中心时,对海量数据存储和传输带宽提出极大挑战。针对该问题,提出一种高效的DNS日志压缩算法,利用DNS查询类型的冗余性和DNS查询时间、IP地址和域名等的重复性进行DNS日志压缩。实验结果证明了DNS日志压缩算法在DNS实时监控和分析系统中部署的有效性和高效性。  相似文献   

16.
为了对日志统一管理, 引入了数据仓库技术,聚合了来自不同数据源的日志数据, 并对工作流日志进行一系列更新处理后使之变成有规律的信息,工作流挖掘便利用更新后的日志信息进行分析建模,极大地提高了工作效率.  相似文献   

17.
数据仓库查询处理中的一种多表连接算法   总被引:22,自引:2,他引:20  
蒋旭东  周立柱 《软件学报》2001,12(2):190-195
在进行数据仓库的OLAP(onlineanalyticalprocessing,联机分析处理)查询处理时,经常会涉及到多表连接操作,因此,提高多表连接的性能就成了数据仓库领域的关键性问题.基于数据仓库的星型模式,给出了一种新的多表连接算法(M-Join).与传统关系数据库管理系统的多表连接查询处理相比,该算法充分考虑了数据仓库中的数据本身和多表连接的特点,采用对多个表进行一次性连接的方法,使得查询的性能有明显的改善.同时,还给出了算法的实验结果和分析.  相似文献   

18.
随着物联网的快速发展,RFID作为物联网的核心技术已经广泛应用于物联网,由此带来海量的数据,而传统的关系数据库技术已经不能完全应对如此巨大的数据量以及基于海量数据的检索,由此提出了一种新的数据仓库结构RFID-Box.这种新的数据仓库结构RFID-Box主要利用大量物品的成批移动、数据泛化和部分路径的融合等特性来进行数据压缩和存储,极大地减少了存储空间,提高了查询效率.简单介绍海量数据压缩与存储算法的一种实现过程,并用C#语言实现算法结果.  相似文献   

19.
屈啸  王永利 《计算机科学》2012,39(6):170-174
随着物联网的发展,以RFID为代表的物联网传感器数据的存储、查询、处理等课题正成为研究的热点。结合数据仓库时空维度和列存储的思想,建立了一种列式RFID数据仓库,并根据RFID的时空特性,设计了一种支持连续聚集查询的多时空粒度数据结构和快速更新算法。它去除了传统聚集查询的部分冗余操作,适合处理大规模RFID数据仓库上的连续实时聚集查询。通过实验证明,该模型与算法在一些典型的物联网应用中取得了较高的效率,可广泛地适用于海量RFID数据仓库上的OLAP分析。  相似文献   

20.
通过深入研究日志的类型和特点,设计并实现了一套基于并行计算的海量日志文件分析系统.该系统采用集群方式并行地收集日志文件,采用分布式文件系统存储,最终利用并行计算对日志进行分析处理.该系统实现了日志采集、分析的完全自动化处理,在系统部署之后能够有效地进行系统安全的维护、系统性能的优化、系统故障的排查.该系统结合云计算提高了日志分析的效率,解决了海量日志处理过程中存在的问题,为海量日志分析提供了一个完整有效的解决方案.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号