首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
本文介绍了Web使用模式的数据挖掘,分析作为源数据的Web服务器日志的局限性,提出基于应用服务器信息的Web使用模式挖掘,并在此基础上对传统的Web使用模式挖掘模型进行了改进。  相似文献   

2.
Web使用挖掘研究   总被引:5,自引:1,他引:5  
Web数据挖掘是数据挖掘技术在Web信息仓库中的应用与研究。Web数据挖掘包括Web内容挖掘、Web结构挖掘和Web使用挖掘三个研究方向,文中研究的重点是Web使用挖掘。Web使用挖掘研究的主要对象是用户的使用记录,研究的主要过程包括数据预处理、模式发现和模式分析。文中详细介绍了Web使用挖掘的最新研究成果,并对将来技术的研究方向和发展趋势进行了探讨性的预测与分析,为进一步的理论研究和实际应用工作提供了指导性的建议。  相似文献   

3.
Web Usage Mining as a Tool for Personalization: A Survey   总被引:15,自引:3,他引:15  
This paper is a survey of recent work in the field of web usage mining for the benefitof research on the personalization of Web-based information services. The essence of personalization is the adaptability of information systems to the needs of their users. This issue is becoming increasingly important on the Web, as non-expert users are overwhelmed by the quantity of information available online, while commercial Web sites strive to add value to their services in order to create loyal relationships with their visitors-customers. This article views Web personalization through the prism of personalization policies adopted by Web sites and implementing a variety of functions. In this context, the area of Web usage mining is a valuable source of ideas and methods for the implementation of personalization functionality. We therefore present a survey of the most recent work in the field of Web usage mining, focusing on the problemsthat have been identified and the solutions that have been proposed.  相似文献   

4.
一种改进的Web日志挖掘数据预处理方法   总被引:3,自引:0,他引:3  
数据预处理在Web日志挖掘中具有非常关键的作用,只有经过预处理,才能获得准确的数据,才能正确地反映使用者的意图,从而保证分析沿着正确的方向进行。论文在对Web日志挖掘数据预处理的难点进行研究后,提出了用于用户访问页面路径补充的UBPS启发式规则,以便于更好地进行事务识别和后续的用户浏览模式识别。  相似文献   

5.
SPADE: An Efficient Algorithm for Mining Frequent Sequences   总被引:63,自引:0,他引:63  
Zaki  Mohammed J. 《Machine Learning》2001,42(1-2):31-60
In this paper we present SPADE, a new algorithm for fast discovery of Sequential Patterns. The existing solutions to this problem make repeated database scans, and use complex hash structures which have poor locality. SPADE utilizes combinatorial properties to decompose the original problem into smaller sub-problems, that can be independently solved in main-memory using efficient lattice search techniques, and using simple join operations. All sequences are discovered in only three database scans. Experiments show that SPADE outperforms the best previous algorithm by a factor of two, and by an order of magnitude with some pre-processed data. It also has linear scalability with respect to the number of input-sequences, and a number of other database parameters. Finally, we discuss how the results of sequence mining can be applied in a real application domain.  相似文献   

6.
通过分析Web日志数据源的不准确性,提出了对Web日志数据源进行数据预处理的技术。结合实例详细介绍了数据净化、用户识别、会话识别、路径补充和事务识别等数据预处理技术。  相似文献   

7.
最大频繁序列发现是数据挖掘中的一个重要分支.本文提出一种发现最大频繁序列集的算法MAXSeq,该算法通过对潜在的最大频繁序列进行选择性的扩展,直接判断其是否为最大序列,无须对候选最大序列进行维护,从而显著减小了存储开销.同时,优化策略的恰当运用对降低CPU时间起着至关重要的作用.  相似文献   

8.
序列模式挖掘就是在时序数据库中挖掘相对时间或其他模式出现频率高的模式.序列模式发现是最重要的数据挖掘任务之一,并有着广阔的应用前景.针对静态数据库,序列模式挖掘已经被深入的研究.近年来,出现了一种新的数据形式:数据流.针对基于数据流的序列模式挖掘的研究还不是十分深入.提出一个有效的基于数据流的挖掘频繁序列模式的算法SSPM,利用到2个数据结构(F-list和Tatree)来处理基于数据流的序列模式挖掘的复杂性问题.SSPM的优点是可以最大限度地降低负正例的产生,实验表明SSPM具有较高的准确率.  相似文献   

9.
一种基于已存信息的序列模式挖掘更新方法   总被引:2,自引:0,他引:2  
在挖掘序列模式过程中,用户需要多次调整(增加或减少)最小支持度,才能从事务数据库中获得有趣序列模式。文章给出了一个利用已存信息有效产生大序列的PSI-seq算法,它能显著地减少每次扫描数据库时候选序列的计算,从而,提高挖掘的效率。  相似文献   

10.
文章通过一个协作式客户机/服务器软件系统的实例阐明了设计不同系统体系可复用扩展软件构架的一种方法。笔者提出的构架,将使用构架描述语言进行定义,通过软件复用的三个层次(独立于应用域的,领域特有的和应用特有的),有机地组织起来。构架由可复用领域的特定黑盒构架模式和可扩展领域的特定白盒构架模式组成。文章重点阐述了软件构架中复用的不同层次以及构架如何实现扩展。  相似文献   

11.
一种基于Web服务的分布式数据挖掘体系结构   总被引:4,自引:0,他引:4  
分布式数据挖掘是数据挖掘领域的一个新兴研究课题,而其主要问题是知识共享和软组件重用。结合Web服务技术的跨平台、统一数据表示格式以及可实现软组件重用和数据重用等优点,文中提出了一种基于Web服务的分布式数据挖掘体系,可实现分布式异构环境下的大容量数据的数据挖掘.旨在对异构数据库的数据挖掘进行一些有意义的探讨。  相似文献   

12.
如何准确、及时、全面地采集用户使用数据是Web使用挖掘的重要前提和基础。基于Web的基本结构,Web使用挖掘的数据源可以从web服务器端、应用服务器端、代理服务器端和客户端进行采集。文中分析了传统的基于Web日志进行Web使用挖掘所面临的问题,讨论了建立在用户浏览行为基础上的客户端数据采集技术,重点讨论了其中的JavaApplet技术。通过JavaApplet技术可以获取客户端IP,可以自动完成用户浏览信息的准确采集,可以广泛用于各类网站的个性化和智能化服务、站点结构改进、商业智能等。  相似文献   

13.
基于用户行为的Web使用挖掘数据采集技术研究   总被引:2,自引:0,他引:2  
如何准确、及时、全面地采集用户使用数据是Web使用挖掘研究重要的前提和基础.本文从用户行为视角,讨论了传统的基于Web日志进行Web使用挖掘研究所面临的问题,对基于用户行为的Web使用挖掘的数据采集技术进行了深入分析,重点研究了主动式服务器端数据采集方法和客户端数据采集方法.  相似文献   

14.
The recent technological advances in the field of computer and communication lead to distributed data base (DDB) architectures based on the Client/Server paradigm. Available DDB performance prediction methodologies are not sufficiently adequate being too expensive both in the model definition and in the model analysis because of the structural complexity and the large system dimension.

This paper concentrates on a new approach to performance modeling of DDB systems called “independent modelling approach”. This approach separates the DDB software model from the DDB machinery model, and models from solution techniques. This way the aspects related to data contention can be analysed as a pure software characteristic and separated from resource contention, considered as a machinery characteristic. Furthermore, it is possible to analytically model some system aspects (e.g., the software only, or part of it, without involving the machinery model), and apply combined analytical/simulation methods for the remaining system aspects. This results in higher flexibility at lower computational cost in the performance analysis of complex DDB architectures.

A case study is developed and experimental results are discussed to show the effectiveness of the approach.  相似文献   


15.
会话识别是Web日志挖掘中的数据预处理中的一个重要步骤。文中提出了一种改进的会话识别方法。首先,在用户识别后,进行框架页面的过滤,从而大大地减少了实验产生的有效页面,然后为页面设置访问时间阙值,并根据页面内容及站点结构确定的页面重要程度对该阈值进行调整。通过实验证明,相对于传统的对所有页面使用单一的先验阈值进行会话识别的方法,该方法所得到的会话集更具有真实性。  相似文献   

16.
WBTool:一个基于多层Client/Server结构的白板工具   总被引:1,自引:0,他引:1  
通过对白板工具所提供功能的分析,提出一个多层Client/Server结构模型,用于支持实时、异步和临时3种讨论方式;同时就该工具所采用的通信协议表、发言权控制机制以及动态组合语义光标技术等问题进行论述。  相似文献   

17.
挖掘最大频繁模式的新方法   总被引:11,自引:0,他引:11  
刘君强  孙晓莹  王勋  潘云鹤 《计算机学报》2004,27(10):1328-1334
由于其内在的计算复杂性,挖掘密集型数据集的频繁模式完全集非常困难,解决方案之一是挖掘最大频繁模式集.该文在频繁模式完全集挖掘算法Opportune Project基础上,提出了挖掘最大频繁模式的新算法MOP.它采用宽度与深度优先相结合的混合搜索策略,能恰当地选择不同的支持集表示和投影方法,将闭合性剪裁和一般性剪裁相结合,并适时前窥,实现搜索与剪裁效率最优化.实验表明,MOP效率是MaxMiner的2~8倍,比MAFIA高2个数量级以上.  相似文献   

18.
In the last decade there has been an explosion of interest in mining time series data. Literally hundreds of papers have introduced new algorithms to index, classify, cluster and segment time series. In this work we make the following claim. Much of this work has very little utility because the contribution made (speed in the case of indexing, accuracy in the case of classification and clustering, model accuracy in the case of segmentation) offer an amount of improvement that would have been completely dwarfed by the variance that would have been observed by testing on many real world datasets, or the variance that would have been observed by changing minor (unstated) implementation details.To illustrate our point, we have undertaken the most exhaustive set of time series experiments ever attempted, re-implementing the contribution of more than two dozen papers, and testing them on 50 real world, highly diverse datasets. Our empirical results strongly support our assertion, and suggest the need for a set of time series benchmarks and more careful empirical evaluation in the data mining community.  相似文献   

19.
Inherit/Feedback:一种新的Web主题挖掘方法   总被引:4,自引:0,他引:4  
经典链接分析方法(如PageRank和HITS)更多地关注的是网页的权威度,而不是其主题相关度,所以在引导主题搜索的过程中,很快就发生主题漂移.为此,在构建主题关联拓扑模型的基础上,提出了Inherit/Feedback方法,以用于Web主题挖掘.基本思想是:在搜索路径上,一个结点继承其父辈结点的主题相关度,并且将其主题相关度反馈给父辈结点.同时,提出了基于Inhefit/feedback的主题搜索算法(IFC).实验结果表明,这种方法能有效地引导主题搜索,适用于对领域型网站做深层次的搜索和挖掘.  相似文献   

20.
基于压缩FP-树和数组技术的频繁模式挖掘算法   总被引:2,自引:0,他引:2  
FP-growth算法是目前较高效的频繁模式挖掘算法之一.它只需扫描数据库两次,而且不需要产生和测试候选集,避免了这些费时的工作,因此该算法具有较高的效率.然而,FP-growth算法需要递归地生成大量的条件FP-树,这耗费了大量的存储空间和时间.综合已有的几项优势技术,提出了一种频繁模式挖掘算法CFPmine. 一是采用了基于压缩FP-树的约束子树的挖掘方法,避免在挖掘过程中生成条件FP-树,减少内存占用;二是采用基于数组的技术,减少FP-树的遍历时间,提高算法的效率.另外,在算法中还实现了统一的内存管理.实验结果表明,CFPmine是一个高效的频繁模式挖掘算法,其性能优于Apriori,Eclat和FP-growth算法,而需要的内存却少于FP-growth算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号