首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随着电商规模的逐渐扩大,传统的Hadoop资源利用率和计算速度都无法全面满足发展需求,因此提出将低延时、基于内存计算的Spark作为计算引擎。利用SparkCore、SparkSQL做离线分析、利用SparkStreaming做实时分析,将Hadoop分布式文件系统(HDFS)作为分布式文件存储,利用YARN做资源管理与程序调度,从而完成了一个电商的行为数据分析系统,通过Flume、Kafka等技术对数据进行采集及存储,利用Spark进行数据处理。经过测试,电商用户行为分析系统表现突出,具有良好的应用价值。  相似文献   

2.
随着油田信息化建设的不断发展,越来越多的IT业务系统在油田各级单位普及应用.由于油田应用数量庞大、种类复杂,如何快速评估各类系统的运行情况和安全状况成为油田关注的重要问题.在使用这些应用系统的同时,一些访问信息会以日志的形式储存下来,因此通过分析日志数据可以挖掘出用户访问喜好,发觉业务系统潜在的安全问题,进而为油田应用评估提供决策依据.然而随着IT业务访问量剧增,应用日志的数量、容量也随之增加,仅依靠单机环境对海量数据进行分析已经无法满足油田业务需求.针对这个问题本文提出了基于Spark计算框架的应用日志行为分析方法,同时设计了可视化平台完成对整个分析系统的管理.  相似文献   

3.
利用社交网络大数据进行用户影响力分析,有助于识别网络环境中影响力强的用户以实现其社会和商业价值。传统方法无法高效处理海量社交网络数据,定量准确地分析用户影响力。为解决该问题,本文提出一种基于PageRank算法的改进的用户影响力评价模型,综合考虑了用户连接程度和活跃程度,并以支持大规模并行图计算的Spark GraphX为工具,快速高效地实现了微博用户影响力的定量分析与评价。实验结果表明,本文所提方法效率更高,得到的用户影响力结果更接近真实情况。  相似文献   

4.
《软件工程师》2016,(10):9-14
使用朴素贝叶斯分类算法,结合Spark内存计算框架,对用户观看视频及次数信息进行分析,建立用户性别和年龄区间的分类模型;然后利用特征项的权重优化模型,考虑到每个特征项在各个类别中的权重对分类结果的影响,提出了一种基于特征项与类别间相关性的TFC-IDFC权重计算方法,并与传统的TF-IDF权重计算方法进行比较,通过正确率和F1值两个指标,证明考虑到特征项与类别的相关性所提出的TFC-IDFC权重使得分类模型的分类能力更好。  相似文献   

5.
随着移动互联网的广泛普及,国内网络游戏市场日趋饱和,游戏公司获得新用户的成本不断增加,如何预防存量用户的流失已经成为市场营销的重心。提出了一种基于Spark平台的网络游戏用户流失预测方法,基于一个真实游戏日志数据对用户进行了流失预测。首先,从日志数据中抽取和计算了用户特征;随后,按权重选取了一组重要特征;最后,以特征为输入、流失与否为输出进行了二分类建模。综合比较了随机森林、支持向量机、多层感知机、梯度提升决策树和逻辑回归等6种常见分类算法。实验结果表明,随机森林算法表现最优,模型预测精度达到91%。  相似文献   

6.
搜索引擎性能评估是信息检索界一个重要课题.长查询具有较为丰富的信息内容,能更加准确地描述用户的信息需求.在此基础上文中提出长查询用户满意度分析的整体框架,定义用户满意度的概念,并在用户日志中提取相关用户行为特征,应用决策树和SVM两种分类算法评测用户满意度.在大规模商业搜索引擎日志上完成的实验结果证明了这套评价体系的有效性.结果表明,用户对于查询满意和不满意的分类准确率分别达到86%和70%.  相似文献   

7.
针对Web用户行为分析所面临的"无规范、智能性差"的问题,提出一种崭新的基于动态行为轮廓库的行为分析方法,且从数据净化、用户识别、事务识别,到用户行为模式匹配四个方面进行详细阐述,建立基于动态行为轮廓库的Web用户行为分析模型.并首次提出基于动态行为轮廓库的Web用户行为分析关键技术:网站黄页法和逆向搜索引擎方法来构建动态行为轮廓库,通过实验验证,此方法很好地解决了Web用户行为分类的问题,可以很好地应用到Web用户行为分析领域.  相似文献   

8.
本文的研究目的是提高诈骗电话的识别率和识别准确性.基于大数据平台采集用户通话行为、上网行为等通信过程数据,结合用户基本属性、手机终端信息等进行综合分析,并采用合适的识别算法进行机器学习建立识别模型,能更好的发现诈骗电话与普通电话的内在差异,相比传统基于呼叫行为的分析,能有效提高骚扰诈骗电话识别的准确度和覆盖率,降低漏判...  相似文献   

9.
基于用户行为分析的搜索引擎研究   总被引:1,自引:0,他引:1  
如何提高搜索引擎的效率,把用户从无序的搜索结果中解放出来,是当前研究的一个热门方向。本文通过对现有自动分类搜索引擎的分析,提出了通过使用加权贝叶斯算法来分析用户行为,达到提高搜索效率的目的,并通过实例介绍了它的实现方法。  相似文献   

10.
搜索引擎用户行为分析是网络信息检索技术的研究热点.通过分析用户点击行为,利用Web数据挖掘技术获取有用信息,提高搜索引擎的检索算法和检索服务的效率,把用户从大量无序的搜索结果中解放出来.本文针对传统并行计算模型在易扩展和易编程方面遇到的瓶颈,给出一种基于Ha-doop的海量日志数据处理模型,通过基于Hadoop的分布式...  相似文献   

11.
尹春晖  邓伟 《微机发展》2008,18(5):37-39
从用户的浏览行为可以反映用户的兴趣出发,分析了用户的浏览行为与兴趣之间的关系,提出了五种用户最小浏览行为组合,并在此基础上对其中三种行为进行转化,得到影响用户兴趣的关键的两种行为,并给出这两种行为与用户兴趣度之间的定量关系。结合对网页内容的挖掘,获取用户的兴趣。通过实验对文中的研究结果进行验证,实验结果证明,所采用的方法是合理和有效的,分析出的用户兴趣基本上可以正确反映用户的实际兴趣。  相似文献   

12.
陈启航  崔鑫 《福建电脑》2010,26(12):137-138
本文讨论的用户权限管理系统的实现涉及到用户、角色、权限,资源四个部分,该系统运用了被广泛使用的开源安全访问控制框架Spring Security.  相似文献   

13.
基于大规模搜索日志进行用户行为分析有助提高搜索引擎的各种性能指标。从三个方面对百度开放日志进行详细分析。首先对查询串长度和频次进行统计,发现查询串中存在着长尾效应,前10%最常用查询串的查询次数占总查询次数的70.8%。其次对URL点击深度和频次进行分析,发现有73%的网页只被点击一次,表明互联网中存在着大量低频访问网页。最后对用户使用高级检索情况进行分析,发现有不足0.12%的用户使用高级检索,表明用户更喜爱简单方便的操作。  相似文献   

14.
与拼音文字不同,用户在进行中文输入时需要借助输入法软件完成从拼音串到汉字串的转换过程,输入法因此成为中文用户进行人机交互的基础性工具,而输入法的相关技术研发也一直是学术界与产业界的关注热点。在中文输入法技术的研究中,用户的行为特点对输入法软件的词库建立、算法设计、交互方式设计与性能评价等多方面都有着至关重要的作用,但由于数据获取与分析的困难,这方面的相关研究尚不多见。该文利用某中文输入法在用户许可下收集的超过4.1亿条用户输入行为记录,进行了中文输入法用户行为的分析研究,针对不同类别应用程序的输入词频差异,不同用户在同类应用程序中的不同候选词条的选择等行为特点进行了挖掘分析,研究结果会对深入了解中文输入法用户行为,进而改进输入法软件性能具有一定的指导意义。  相似文献   

15.
基于用户行为分析的搜索引擎自动性能评价   总被引:4,自引:2,他引:4  
刘奕群  岑荣伟  张敏  茹立云  马少平 《软件学报》2008,19(11):3023-3032
基于用户行为分析的思路,提出了一种自动进行搜索引擎性能评价的方法.此方法能够基于对用户的查询和点击行为的分析自动生成导航类查询测试集合,并对查询对应的标准答案实现自动标注.基于中文商业搜索引擎日志的实验结果表明,此方法能够与人工标注的评价取得基本一致的评价效果,同时大大减少了评价所需的人力资源,并加快了评价反馈周期.  相似文献   

16.
用户搜索网页行为的分析是目前信息搜索的研究的热点,本文针对云计算中的并行计算搜索存在的检索速度慢,效率低等缺点提出了一种基于Hadoop海量用户搜索网页行为的方法,该方法主要是在网页PageRank算法的基础上,将用户影响因子,时间向量和网页相关性因素加入到算法中,使得改进后的PageRank算法得到了提高,进一步提高用户搜索网页行为的效率,实验中通过使用优酷实验室中的查询日志分析证明了本文的算法具有良好的效果,并对云计算中的用户行为分析具有一定的指导意义.  相似文献   

17.
社会影响力分析是当前在线社会网络研究中的热点方向.随着微博成为了一种至关重要的大众媒体,更好的分析和衡量微博用户的社会影响力引起越来越广泛的关注.基于从新浪微博收集的大规模数据集,作者结合社会影响力在微博环境中的传播情况,分析了用户行为因素之间的关系.然后提出了一个通过预测用户传播信息能力大小来分析和度量用户社会影响力的方法.该方法结合了来自社会网络结构和用户行为因素两方面的信息,获得了更好的影响力估计结果.基于大规模数据的实验结果表明,作者提出的方法是较为有效的.  相似文献   

18.
搜索引擎已经成为人们生活和工作中不可或缺的信息获取工具,对于互联网信息的合理、充分利用发挥着至关重要的作用。用户行为分析一直是搜索引擎提升性能的重要途径,但当前的搜索用户行为分析技术多局限在较短时间段,缺乏对长期时间内用户行为的演化分析研究。基于商业搜索引擎提供的海量规模日志数据,对2006年到2011年间中文搜索引擎用户行为的演化规律进行了分析挖掘,从中得到的结论对于进行搜索技术未来发展方向的讨论具有一定的参考价值。  相似文献   

19.
视频监控技术在交通管理、公共安全、智慧城市等方面有着广泛的应用前景,且向着智能识别、实时处理、大数据分析的方向发展. 本文针对大规模实时视频监控提出了新的解决方案. 基于Spark streaming流式计算、分布式存储及OLAP框架,使多路视频处理在可扩展性、容错性及数据多维聚合分析上具有明显的优势. 系统根据视频处理算法划分为单机处理与分布式处理. 并将视频图像处理与数据分析耦合,利用Kafka消息队列与Spark streaming完成对多路视频输出数据的进一步操作. 结合分布式存储方案,并利用OLAP框架实现对海量数据实时多维聚合分析与高效实时查询.  相似文献   

20.
基于用户浏览行为分析的用户兴趣获取   总被引:1,自引:0,他引:1  
从用户的浏览行为可以反映用户的兴趣出发,分析了用户的浏览行为与兴趣之间的关系,提出了五种用户最小浏览行为组合,并在此基础上对其中三种行为进行转化,得到影响用户兴趣的关键的两种行为,并给出这两种行为与用户兴趣度之间的定量关系.结合对网页内容的挖掘,获取用户的兴趣.通过实验对文中的研究结果进行验证,实验结果证明,所采用的方法是合理和有效的,分析出的用户兴趣基本上可以正确反映用户的实际兴趣.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号