首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
具有访问时间完整性的Web日志方法   总被引:4,自引:0,他引:4  
Web服务器日志记录了外部用户对本服务器的访问信息,是分析网站的重要数据。但是根据当前流行的几种Web日志格式来看,它们所记录的时间数据并不完整;当用户访问一个网页时,只记录了访问该网页的开始时间,而没有记录访问结束时间。这将造成访问信息的丢失,给今后的分析工作(如访问时间统计、用户会话识别等)带来困难。本文提出了一种Web日志方法,它能克服目前Web服务器日志的这一缺点,记录完整的时间信息.  相似文献   

2.
通过对网络Web服务器日志中记录的大量用户信息进行Web日志分析,研究在Web服务器中及其系统中引入和实现Qos控制的机制和策略,了解用户习惯,提高服务质量和效率。  相似文献   

3.
基于Web日志分析的Web QoS研究   总被引:4,自引:0,他引:4  
Internet的服务模式正由传统的数据通信与信息浏览向电子交易与服务转变,需要对不同的用户或HTTP请求提供区分服务和性能保证.本文通过对网络Web服务器日志中记录的大量用户信息进行Web日志分析,研究在Web服务器中及其系统中引入和实现Qos控制的机制和策略,了解用户习惯,提供个性服务,提高服务质量和效率.  相似文献   

4.
通过对网络Web服务器日志中记录的大量用户信息进行Web日志分析,研究在Web服务器中及其系统中引入和实现Qos控制的机制和策略,了解用户习惯,提高服务质量和效率.  相似文献   

5.
从Web日志挖掘存在的困难和不足出发,结合电子商务个性化服务的特点,引入用户访问记录进行Web挖掘,提出了一种Web挖掘中数据采集与预处理的新思路,指出了该思路的实现方法和特点。提出了引入用户访问记录后的Web挖掘体系结构。  相似文献   

6.
Web日志挖掘探析   总被引:1,自引:0,他引:1  
Web日志挖掘是数据挖掘领域中一个重要研究方向。文章对Web日志挖掘相关问题进行了探讨,分析了Web日志挖掘模式发现及其相关算法的不足,阐述了Web日志挖掘模式发现阶段增量更新的重要性。  相似文献   

7.
Web日志挖掘在网络远程教学中的应用   总被引:3,自引:0,他引:3  
随着现代信息技术在远程教育中越来越广泛的应用,网络远程教育模式正逐步成为远程教育的主流。本文对Web日志挖掘在远程教育强中应用流程进行了研究探讨,从而更好地指导了远程教育实践。  相似文献   

8.
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题.在经典Apriori算法基础上给出了基于SQL的Apriori算法.对Web日志挖掘进行数据预处理的基础上,利用算法挖掘最大频繁访问页面集.实验结果表明算法的效率较好,并有助于促进网站的建设.  相似文献   

9.
文章介绍了Web挖掘技术的概念、意义、研究现状以及分类,Web日志挖掘是Web数据挖掘的重要分支,已成为研究人员关注的焦点。本文对日志挖掘过程中的数据预处理和模式发现进行了深入的讨论,并总结了Web日志挖掘的关键技术。  相似文献   

10.
Web日志数据挖掘的数据预处理方法研究   总被引:18,自引:1,他引:17  
主要介绍了Web用户访问日志数据挖掘数据预处理过程,综述了国际上的研究现状。流行的预处理方法。在对用户访问行为的合理假定基础上,最后提出了基于综合最大前向参引模型和时间窗口模型的新方法。  相似文献   

11.
关于提取Web用户浏览行为特征的研究   总被引:5,自引:0,他引:5  
当前,Web日志挖掘技术已成为实现网站个性化服务的研究热点.运用Markov模型来预测用户的浏览模式,从而提高站点访问率、为站点重组提供有利信息是该领域广泛采用的方法之一.但传统方法建立的Markov模型,存在着数据冗余复杂、模型庞大繁琐等问题.针对这些问题,介绍了一种改进的Markov模型.其方法主要是在原有模型的基础之上,在数据清洗、用户会话识别过程中删除一些不予考虑的因素,大大简化了建立的Markov模型,提高了Web日志挖掘的效率.  相似文献   

12.
Web日志挖掘是目前Web挖掘研究的一个重点.针对Web日志挖掘中存在的问题,给出了基于数据仓库技术的Web日志挖掘方案,就数据预处理、数据立方体设计及数据挖掘技术的应用进行了较为深入的探讨.并以一个Web站点日志为例,详细阐述了Web日志数据预处理、Web日志立方体设计以及数据挖掘算法的实现过程,并实现了一个Web日志多维数据集,能够有效解决Web日志分析中的难题.  相似文献   

13.
一种基于Web用户不完备信息的规则获取方法研究   总被引:1,自引:0,他引:1  
Web日志是一个很不完全且存在多样性特点的数据集,在获取决策规则的过程中经常会出现不一致、不完全规则的情况.提到了粗糙集理论,利用粗糙集理论在处理不完全知识上的特有优势来解决此种问题.首先把重要的用户行为特征值离散化作为属性值和值的约简,然后通过粗糙集缺省规则获取算法获得决策规则.其中条件属性的提取主要是一个对用户行为观察和分析的结果,而离散化处理方法就是应用粗糙集理论中的典型方法.这种处理方法有利于最后规则提取的进行,经过实例分析效果良好.  相似文献   

14.
为了有效地吸引和留住用户,提高网站服务的质量,在原有个性化实现技术基础上,提出了一种前后端日志相结合的方式存取用户浏览信息,对用户浏览站点的行为进行跟踪,为Web日志挖掘提供更精确有效的信息.结合前后端日志记录相结合的策略,提出了一个可伸缩的,独立于具体Web站点的页面推荐系统架构.实验分析结果表明,该方式能更准确全面的收集用户数据,同时个性化模块以一种非侵入的方式与系统集成,提高了系统的灵活性,方便系统重用.  相似文献   

15.
Web日志挖掘中数据预处理技术的研究   总被引:2,自引:0,他引:2  
在Web日志挖掘中数据预处理是整个挖掘过程的基础,由于客户端缓存的存在,在已往的预处理过程中都是通过路径补充技术得到用户完整的访问路径之后,才能进行事务识别.提出了一种只需根据网站的拓扑结构,不需要使用路径补充技术,由用户访问序列直接生成事务的算法.  相似文献   

16.
Although efficient identification of user access sessions from very large web logs is an unavoidable data preparation task for the success of higher level web log mining, little attention has been paid to algorithmic study of this problem. In this paper we consider two types of user access sessions, interval sessions and gap sessions. We design two efficient algorithms for finding respectively those two types of sessions with the help of some proposed structures. We present theoretical analysis of the algorithms and prove that both algorithms have optimal time complexity and certain error-tolerant properties as well. We conduct empirical performance analysis of the algorithms with web logs ranging from 100 megabytes to 500 megabytes. The empirical analysis shows that the algorithms just take several seconds more than the baseline time, i.e., the time needed for reading the web log once sequentially from disk to RAM, testing whether each user access record is valid or not, and writing each valid user access record back to disk. The empirical analysis also shows that our algorithms are substantially faster than the sorting based session finding algorithms. Finally, optimal algorithms for finding user access sessions from distributed web logs are also presented.  相似文献   

17.
The recent increase in HyperText Transfer Protocol (HTTP) traffic on the World Wide Web (WWW) has generated an enormous amount of log records on Web server databases. Applying Web mining techniques on these server log records can discover potentially useful patterns and reveal user access behaviors on the Web site. In this paper, we propose a new approach for mining user access patterns for predicting Web page requests, which consists of two steps. First, the Minimum Reaching Distance (MRD) algorithm is applied to find the distances between the Web pages. Second, the association rule mining technique is applied to form a set of predictive rules, and the MRD information is used to prune the results from the association rule mining process. Experimental results from a real Web data set show that our approach improved the performance over the existing Markov-model approach in precision, recall, and the reduction of user browsing time. Mei-Ling Shyu received her Ph.D. degree from the School of Electrical and Computer Engineering, Purdue University, West Lafayette, IN in 1999, and three Master's degrees from Computer Science, Electrical Engineering, and Restaurant, Hotel, Institutional, and Tourism Management from Purdue University. She has been an Associate Professor in the Department of Electrical and Computer Engineering (ECE) at the University of Miami (UM), Coral Gables, FL, since June 2005, Prior to that, she was an Assistant Professor in ECE at UM dating from January 2000. Her research interests include data mining, multimedia database systems, multimedia networking, database systems, and security. She has authored and co-authored more than 120 technical papers published in various prestigious journals, refereed conference/symposium/workshop proceedings, and book chapters. She is/was the guest editor of several journal special issues. Choochart Haruechaiyasak received his Ph.D. degree from the Department of Electrical and Computer Engineering, University of Miami, in 2003 with the Outstanding Departmental Graduating Student award from the College of Engineering. After receiving his degree, he has joined the National Electronics and Computer Technology Center (NECTEC), located in Thailand Science Park, as a researcher in Information Research and Development Division (RDI). His current research interests include data/ text/ Web mining, Natural Language Processing, Information Retrieval, Search Engines, and Recommender Systems. He is currently leading a small group of researchers and programmer to develop an open-source search engine for Thai language. One of his objectives is to promote the use of data mining technology and other advanced applications in Information Technology in Thailand. He is also a visiting lecturer for Data Mining, Artificial Intelligence and Decision Support Systems courses in many universities in Thailand. Shu-Ching Chen received his Ph.D. from the School of Electrical and Computer Engineering at Purdue University, West Lafayette, IN, USA in December, 1998. He also received Master's degrees in Computer Science, Electrical Engineering, and Civil Engineering from Purdue University. He has been an Associate Professor in the School of Computing and Information Sciences (SCIS), Florida International University (FIU) since August, 2004. Prior to that, he was an Assistant Professor in SCIS at FIU dating from August, 1999. His main research interests include distributed multimedia database systems and multimedia data mining. Dr. Chen has authored and co-authored more than 140 research papers in journals, refereed conference/symposium/workshop proceedings, and book chapters. In 2005, he was awarded the IEEE Systems, Man, and Cybernetics Society's Outstanding Contribution Award. He was also awarded a University Outstanding Faculty Research Award from FIU in 2004, Outstanding Faculty Service Award from SCIS in 2004 and Outstanding Faculty Research Award from SCIS in 2002.  相似文献   

18.
Web日志挖掘中的数据预处理技术研究   总被引:30,自引:0,他引:30  
赵伟  何丕廉  陈霞  谢振亮 《计算机应用》2003,23(5):62-64,67
在Web数据挖掘研究领域中,Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用。文中深入探讨了数据预处理环节的主要任务,并介绍这个过程中一些特殊情况的处理方法。  相似文献   

19.
王勇  张伟  陈军 《计算机工程与设计》2007,28(6):1484-1485,F0003
在Web挖掘研究中,传统硬聚类技术常被用来分析网站浏览者对网页的浏览偏好.然而该方法只能将每一用户浏览路径归类到单一群组中,即事先假设每一浏览路径只包含单一种用户偏好,却忽略了同一用户浏览路径可能包含多个网页偏好.针对这种情况,提出用模糊聚类技术取代传统的硬聚类技术以弥补不足,使聚类结果更符合实际浏览情况.  相似文献   

20.
工作流挖掘技术能够从系统的执行日志中构建出过程,大部分过程挖掘方法都使用了一种图形化的方式来表示模型,也就是控制流图.讨论了工作流模式图挖掘,它实际上是工作流挖掘的一种扩展;对其中所涉及的问题进行了剖析,并介绍了一种模式图挖掘算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号