首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 968 毫秒
1.
随着互联网的快速发展,Web日志的用户行为分析已经成为互联网技术领域的研究热点之一.会话识别是Web日志用户行为分析的关键步骤,精准的会话识别是有效进行用户行为分析的基础.本文在IIS Web日志分析的基础上,提出了一种基于URL相似度的会话识别方法.实验结果表明,此方法可以有效的识别出用户的真实会话.  相似文献   

2.
随着互联网用户人数的日益增长,用户行为分析已经成为互联网技术领域重要的研究方法之一。在日志中去除异常点击,对于准确挖掘用户行为的意图和习惯十分重要。该文采用某公司提供的真实用户互联网访问日志,对日志中的连续点击,单IP多用户以及单用户多IP等可能的异常点击,从访问集中度,用户平均访问量等方面进行了分析。我们认为对于连续点击,用户行为分析研究人员可以分情况滤去多余点击或该用户所有点击,而对于单IP多用户和单用户多 IP的点击,我们建议不做处理。  相似文献   

3.
《软件工程师》2020,(1):35-39
在互联网大规模应用的环境下,如何有效分析用户喜欢访问什么网站、在互联网上喜欢做什么、浏览什么是针对用户行为分析的重要内容。DNS作为一种域名解析服务,是互联网业务通信的重要保障,几乎所有互联网业务访问运行均离不开DNS的支持,所以本文通过对DNS海量日志进行收集、清洗、存储全流程处理过程,并结合以ELK为平台、以业务分析模型为基础,从而使DNS日志分析结果可视化清晰呈现,让用户了解互联网业务访问运行趋势,也直观表现出用户实际的访问情况,最终实现用户行为的态势感知。  相似文献   

4.
以色情网站为代表的万维网非法资源已经成为互联网应用普及过程中的重大挑战.由于色情网站与普通网站的内容特征、结构形式和访问者群体都有显著的差异,这造成了用户对色情网站和普通网站的访问行为的差异.在某商业搜索引擎的协助下,收集了海量规模互联网用户访问日志,基于对日志中所记载用户行为的挖掘,验证了用户访问色情网站与普通网站时的行为确实具有明显的差异.基于此类差异设计了一系列用户行为特征,并结合机器学习方法,设计了基于用户行为的色情网站识别方法.实验表明,该方法可以较准确、高效地从网站中识别色情网站.  相似文献   

5.
随着移动互联网的迅速发展,移动搜索用户大规模增加,移动搜索引擎用户行为分析对改进搜索引擎性能,提高用户体验具有重要意义。该文选取某移动搜索引擎2011年6月第一周的日志,对移动互联网用户搜索行为进行分析和研究。我们从查询词分析、会话分析以及用户点击分析3个角度出发,对查询词长度和频度、问题式查询和网址查询比例、会话内查询个数、查询词修改方式以及用户点击位置进行研究,并与互联网搜索引擎相应指标进行对比。相关分析结论对于移动搜索引擎算法改进与系统优化具有一定参考意义。  相似文献   

6.
搜索引擎已经成为人们生活和工作中不可或缺的信息获取工具,对于互联网信息的合理、充分利用发挥着至关重要的作用。用户行为分析一直是搜索引擎提升性能的重要途径,但当前的搜索用户行为分析技术多局限在较短时间段,缺乏对长期时间内用户行为的演化分析研究。基于商业搜索引擎提供的海量规模日志数据,对2006年到2011年间中文搜索引擎用户行为的演化规律进行了分析挖掘,从中得到的结论对于进行搜索技术未来发展方向的讨论具有一定的参考价值。  相似文献   

7.
基于大规模搜索日志进行用户行为分析有助提高搜索引擎的各种性能指标。从三个方面对百度开放日志进行详细分析。首先对查询串长度和频次进行统计,发现查询串中存在着长尾效应,前10%最常用查询串的查询次数占总查询次数的70.8%。其次对URL点击深度和频次进行分析,发现有73%的网页只被点击一次,表明互联网中存在着大量低频访问网页。最后对用户使用高级检索情况进行分析,发现有不足0.12%的用户使用高级检索,表明用户更喜爱简单方便的操作。  相似文献   

8.
吴茜媛  郑庆华  王萍 《软件》2014,(10):21-25
用户网站行为日志获取是个性化服务研究的重要问题之一。论文针对当前行为日志获取中可扩展性和可移植性不高的问题,研究和设计了一种可扩展的行为日志获取方法,基于中间"代理服务器"策略,不需要修改日志采集代码本身,只须设置日志采集的配置文件,即可实现对各种系统的日志采集,能解决网站用户行为日志获取的可扩展和可移植性问题。  相似文献   

9.
基于Hive的海量搜索日志分析系统研究   总被引:2,自引:0,他引:2  
赵龙  江荣安 《计算机应用研究》2013,30(11):3343-3345
针对传统分布式模型在海量日志并行处理时的可扩展性和并行程序编写困难的问题, 提出了基于Hive的Web海量搜索日志分析机制。利用HQL语言以及Hadoop分布式文件系统(HDFS)和MapReduce编程模式对海量搜索日志进行分析处理, 对用户搜索行为进行了分析研究。对用户搜索行为中的查询热点主题、用户点击数和URL排名、查询会话的分析结果对于搜索引擎的排序算法和系统优化都有一定的指导意义。  相似文献   

10.
基于粗糙集理论的WEB日志中关联规则提取   总被引:2,自引:0,他引:2  
随着互联网的飞速发展,WEB日志挖掘,也就是从WEB日志中发现和分析出用户的有用信息已成为研究热点.基于关联规则的方法是WEB挖掘的重要方法.本文应用粗糙集理论提取WEB日志中的关联规则,并将关联规则集用于用户行为的预测上,实验证明,该方法的预测精度要好于现有的方法.  相似文献   

11.
Users of a Web site usually perform their interest-oriented actions by clicking or visiting Web pages, which are traced in access log files. Clustering Web user access patterns may capture common user interests to a Web site, and in turn, build user profiles for advanced Web applications, such as Web caching and prefetching. The conventional Web usage mining techniques for clustering Web user sessions can discover usage patterns directly, but cannot identify the latent factors or hidden relationships among users?? navigational behaviour. In this paper, we propose an approach based on a vector space model, called Random Indexing, to discover such intrinsic characteristics of Web users?? activities. The underlying factors are then utilised for clustering individual user navigational patterns and creating common user profiles. The clustering results will be used to predict and prefetch Web requests for grouped users. We demonstrate the usability and superiority of the proposed Web user clustering approach through experiments on a real Web log file. The clustering and prefetching tasks are evaluated by comparison with previous studies demonstrating better clustering performance and higher prefetching accuracy.  相似文献   

12.
引入权限量值和量化角色的概念,建立一个细粒度的Web服务访问控制模型。通过定义Web服务和服务属性资源以及访问模式集,扩展权限集的定义;研究Web服务权限量值的定义和分配,以及量化角色的验证和表示形式;提出Web服务主体的行为量值的概念,建立与主体的角色量值的关联,实现根据Web服务主体的行为和上下文环境动态计算行为量值并调整主体权限的方法。  相似文献   

13.
基于归纳化会话的网络用户的聚类   总被引:7,自引:0,他引:7  
为了发掘具有相似的访问兴趣的网络用户,探讨了网络用户聚类的问题。网络用户的访问信息从服务器日志文件中抽取出来,组织成会话向量的形式,会话描述为一段时间内用户向服务器发出一系列访问请求。为了减少会话向量的维度,根据网页的层次性,采用面向属性的推理方法,对这些会话进行了归纳,并且定义了一个新的距离测度来描述两个会话之间的相似度,最后采用某种非欧几里德的关系聚类算法聚类这些归纳化的会话。实验表明,这种方法对在大型的日志文件集中挖掘出有意义的网络用户的分类是高效可行的。  相似文献   

14.
OLAP和数据挖掘技术在Web日志上的应用   总被引:15,自引:0,他引:15  
李绍华 《现代计算机》1999,(3):16-18,32
随着WWW网络用户的日益增多,为了改善信息服务的质量,以及从中发掘电子商务方面的商业机会,有必要有网络用户的行为规律加以分析。本文以Web日志上的信息,就数据的通滤和转化,、多维Web日志数据库的建立,OLAP和DM技术的应用等方面问题作了初步的探讨。  相似文献   

15.
如何有效地分析用户的需求,帮助用户从因特网的信息海洋中发现他们感兴趣的信息和资源,已经成为一项迫切而重要的课题。解决这些问题的一个途径,就是将传统的数据挖掘技术与Web结合起来,进行Web数据挖掘。其中的Web日志挖掘可以掌握用户在浏览站点时的行为,并且将挖掘出的用户访问模式应用于网站上,在改善Web站点的结构以及页面间的超链接结构,提高站点的服务质量等方面有重要的意义。  相似文献   

16.
在传统的Web网站中,网页的布局往往由网页制作人员安排并很少变化.为了更好的为网络用户提供服务,提出通过对Web日志的数据清洗,识别出每个用户在一个会话期内访问的页面,依据网页内客在逻辑上的关系和用户经常访问的页面,得到用户对网页内容的兴趣度矩阵及各子项目的兴趣度矩阵.对网络用户根据兴趣度短阵进行层次化的分类,得到每个...  相似文献   

17.
Interest in the analysis of user behaviour on the Internet has been increasing rapidly, especially since the advent of electronic commerce. In this context, we argue here for the usefulness of constructing communities of users with common behaviour, making use of machine learning techniques. In particular, we assume that the users of any service on the Internet constitute a large community and we aim to construct smaller communities of users with common characteristics. The paper presents the results of three case studies for three different types of Internet service: a digital library, an information broker and a Web site. Particular attention is paid on the different types of information access involved in the three case studies: query-based information retrieval, profile-based information filtering and Web-site navigation. Each type of access imposes different constraints on the representation of the learning task. Two different unsupervised learning methods are evaluated: conceptual clustering and cluster mining. One of our main concerns is the construction of meaningful communities that can be used for improving information access on the Internet. Analysis of the results in the three case studies brings to surface some of the important properties of the task, suggesting the feasibility of a common methodology for the three different types of information access on the Internet.  相似文献   

18.
提出一种基于数据挖掘的网络主题用户数量计算模型。从网络服务器访问日志中挖掘网络用户使用记录,应用窗口函数识别多个IP相同的用户,通过分析用户行为的时间特征实现对虚假点击的过滤,构建能够表达用户主观兴趣取向的用户向量,从而自动计算各个网络主题在给定时间片内的用户数量。实验结果证明,该模型具有较高的计算准确性,能为管理人员决策提供技术支持。  相似文献   

19.
企业收集和获取用户个人信息是其对用户行为进行分析以制定合理营销决策的前提。注意到当前,由于互联网的高度发展和普及,消费用户往往在Web上以评论文本的形式分享其消费习惯、消费偏好和消费体验,这些海量的评论文本中蕴含着极具价值的信息,为用户个人信息的收集提供良好的资源。针对传统企业收集用户个人信息的方法主要以人工为主导,自动化水平较低的问题,提出一种基于Web挖掘技术以网上评论文本为挖掘对象,对用户个人信息进行自动提取以自动分析用户行为的改进方法。企业可以通过此改进的用户个人信息提取方法对用户行为进行分析以自动获取消费用户对产品的反馈意见并制定有针对性的营销策略。  相似文献   

20.
基于用户任务级的Web日志聚类   总被引:2,自引:0,他引:2  
利用改进的用户描述计算公式和启发式聚类方法 ,进行基于用户任务级的 Web日志聚类 ,产生簇用户访问模式 ,进行有效的推荐和个性化服务 .结果表明 ,算法具有较好的聚类质量和较高的性能 .它可以成功地应用到 Web日志挖掘中 .  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号