共查询到20条相似文献,搜索用时 15 毫秒
1.
随着电商规模的逐渐扩大,传统的Hadoop资源利用率和计算速度都无法全面满足发展需求,因此提出将低延时、基于内存计算的Spark作为计算引擎。利用SparkCore、SparkSQL做离线分析、利用SparkStreaming做实时分析,将Hadoop分布式文件系统(HDFS)作为分布式文件存储,利用YARN做资源管理与程序调度,从而完成了一个电商的行为数据分析系统,通过Flume、Kafka等技术对数据进行采集及存储,利用Spark进行数据处理。经过测试,电商用户行为分析系统表现突出,具有良好的应用价值。 相似文献
2.
随着油田信息化建设的不断发展,越来越多的IT业务系统在油田各级单位普及应用.由于油田应用数量庞大、种类复杂,如何快速评估各类系统的运行情况和安全状况成为油田关注的重要问题.在使用这些应用系统的同时,一些访问信息会以日志的形式储存下来,因此通过分析日志数据可以挖掘出用户访问喜好,发觉业务系统潜在的安全问题,进而为油田应用评估提供决策依据.然而随着IT业务访问量剧增,应用日志的数量、容量也随之增加,仅依靠单机环境对海量数据进行分析已经无法满足油田业务需求.针对这个问题本文提出了基于Spark计算框架的应用日志行为分析方法,同时设计了可视化平台完成对整个分析系统的管理. 相似文献
3.
4.
5.
随着移动互联网的广泛普及,国内网络游戏市场日趋饱和,游戏公司获得新用户的成本不断增加,如何预防存量用户的流失已经成为市场营销的重心。提出了一种基于Spark平台的网络游戏用户流失预测方法,基于一个真实游戏日志数据对用户进行了流失预测。首先,从日志数据中抽取和计算了用户特征;随后,按权重选取了一组重要特征;最后,以特征为输入、流失与否为输出进行了二分类建模。综合比较了随机森林、支持向量机、多层感知机、梯度提升决策树和逻辑回归等6种常见分类算法。实验结果表明,随机森林算法表现最优,模型预测精度达到91%。 相似文献
6.
搜索引擎性能评估是信息检索界一个重要课题.长查询具有较为丰富的信息内容,能更加准确地描述用户的信息需求.在此基础上文中提出长查询用户满意度分析的整体框架,定义用户满意度的概念,并在用户日志中提取相关用户行为特征,应用决策树和SVM两种分类算法评测用户满意度.在大规模商业搜索引擎日志上完成的实验结果证明了这套评价体系的有效性.结果表明,用户对于查询满意和不满意的分类准确率分别达到86%和70%. 相似文献
7.
针对Web用户行为分析所面临的"无规范、智能性差"的问题,提出一种崭新的基于动态行为轮廓库的行为分析方法,且从数据净化、用户识别、事务识别,到用户行为模式匹配四个方面进行详细阐述,建立基于动态行为轮廓库的Web用户行为分析模型.并首次提出基于动态行为轮廓库的Web用户行为分析关键技术:网站黄页法和逆向搜索引擎方法来构建动态行为轮廓库,通过实验验证,此方法很好地解决了Web用户行为分类的问题,可以很好地应用到Web用户行为分析领域. 相似文献
8.
本文的研究目的是提高诈骗电话的识别率和识别准确性.基于大数据平台采集用户通话行为、上网行为等通信过程数据,结合用户基本属性、手机终端信息等进行综合分析,并采用合适的识别算法进行机器学习建立识别模型,能更好的发现诈骗电话与普通电话的内在差异,相比传统基于呼叫行为的分析,能有效提高骚扰诈骗电话识别的准确度和覆盖率,降低漏判... 相似文献
9.
10.
搜索引擎用户行为分析是网络信息检索技术的研究热点.通过分析用户点击行为,利用Web数据挖掘技术获取有用信息,提高搜索引擎的检索算法和检索服务的效率,把用户从大量无序的搜索结果中解放出来.本文针对传统并行计算模型在易扩展和易编程方面遇到的瓶颈,给出一种基于Ha-doop的海量日志数据处理模型,通过基于Hadoop的分布式... 相似文献
11.
从用户的浏览行为可以反映用户的兴趣出发,分析了用户的浏览行为与兴趣之间的关系,提出了五种用户最小浏览行为组合,并在此基础上对其中三种行为进行转化,得到影响用户兴趣的关键的两种行为,并给出这两种行为与用户兴趣度之间的定量关系。结合对网页内容的挖掘,获取用户的兴趣。通过实验对文中的研究结果进行验证,实验结果证明,所采用的方法是合理和有效的,分析出的用户兴趣基本上可以正确反映用户的实际兴趣。 相似文献
12.
本文讨论的用户权限管理系统的实现涉及到用户、角色、权限,资源四个部分,该系统运用了被广泛使用的开源安全访问控制框架Spring Security. 相似文献
13.
《计算机应用与软件》2013,(7)
基于大规模搜索日志进行用户行为分析有助提高搜索引擎的各种性能指标。从三个方面对百度开放日志进行详细分析。首先对查询串长度和频次进行统计,发现查询串中存在着长尾效应,前10%最常用查询串的查询次数占总查询次数的70.8%。其次对URL点击深度和频次进行分析,发现有73%的网页只被点击一次,表明互联网中存在着大量低频访问网页。最后对用户使用高级检索情况进行分析,发现有不足0.12%的用户使用高级检索,表明用户更喜爱简单方便的操作。 相似文献
14.
与拼音文字不同,用户在进行中文输入时需要借助输入法软件完成从拼音串到汉字串的转换过程,输入法因此成为中文用户进行人机交互的基础性工具,而输入法的相关技术研发也一直是学术界与产业界的关注热点。在中文输入法技术的研究中,用户的行为特点对输入法软件的词库建立、算法设计、交互方式设计与性能评价等多方面都有着至关重要的作用,但由于数据获取与分析的困难,这方面的相关研究尚不多见。该文利用某中文输入法在用户许可下收集的超过4.1亿条用户输入行为记录,进行了中文输入法用户行为的分析研究,针对不同类别应用程序的输入词频差异,不同用户在同类应用程序中的不同候选词条的选择等行为特点进行了挖掘分析,研究结果会对深入了解中文输入法用户行为,进而改进输入法软件性能具有一定的指导意义。 相似文献
15.
16.
用户搜索网页行为的分析是目前信息搜索的研究的热点,本文针对云计算中的并行计算搜索存在的检索速度慢,效率低等缺点提出了一种基于Hadoop海量用户搜索网页行为的方法,该方法主要是在网页PageRank算法的基础上,将用户影响因子,时间向量和网页相关性因素加入到算法中,使得改进后的PageRank算法得到了提高,进一步提高用户搜索网页行为的效率,实验中通过使用优酷实验室中的查询日志分析证明了本文的算法具有良好的效果,并对云计算中的用户行为分析具有一定的指导意义. 相似文献
17.
18.
19.
视频监控技术在交通管理、公共安全、智慧城市等方面有着广泛的应用前景,且向着智能识别、实时处理、大数据分析的方向发展. 本文针对大规模实时视频监控提出了新的解决方案. 基于Spark streaming流式计算、分布式存储及OLAP框架,使多路视频处理在可扩展性、容错性及数据多维聚合分析上具有明显的优势. 系统根据视频处理算法划分为单机处理与分布式处理. 并将视频图像处理与数据分析耦合,利用Kafka消息队列与Spark streaming完成对多路视频输出数据的进一步操作. 结合分布式存储方案,并利用OLAP框架实现对海量数据实时多维聚合分析与高效实时查询. 相似文献
20.
基于用户浏览行为分析的用户兴趣获取 总被引:1,自引:0,他引:1
从用户的浏览行为可以反映用户的兴趣出发,分析了用户的浏览行为与兴趣之间的关系,提出了五种用户最小浏览行为组合,并在此基础上对其中三种行为进行转化,得到影响用户兴趣的关键的两种行为,并给出这两种行为与用户兴趣度之间的定量关系.结合对网页内容的挖掘,获取用户的兴趣.通过实验对文中的研究结果进行验证,实验结果证明,所采用的方法是合理和有效的,分析出的用户兴趣基本上可以正确反映用户的实际兴趣. 相似文献