首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 104 毫秒
1.
一种Web访问序列挖掘算法在网站设计中的应用研究   总被引:1,自引:0,他引:1  
对Web访问序列的数据挖掘有助于提高Web的访问质量,但序列是数据挖掘中一个比较困难的问题,经典序列算法普遍存在时间和存储空间开销过大的缺憾。本文提出了一种基于马尔可夫链的Web访问序列挖掘算法,可以通过较少的计算量发现请求网页的相关性。我们已将其用于某培训中心网站的设计,取得了良好的效果。  相似文献   

2.
杨长春  孙婧 《计算机工程》2010,36(24):45-47
对Web用户的访问序列进行分析,可以发现用户的爱好、兴趣、习惯等因素,为Web网站的升级修正提供必要的信息支持,提出一种通过对用户访问序列进行分析的数据挖掘方法,该方法采用网页驻留时间为参数来约减会话序列中的网页数,压缩频繁访问序列的规模。实验结果表明,该算法可以降低挖掘成本,为Web用户的商业数据挖掘提供有益的借鉴。  相似文献   

3.
挖掘商务网站客户的频繁访问模式,可以为提高商务网站的个性化服务水平和服务质量提供辅助决策支持。研究使用Web服务器日志数据挖掘客户频繁访问模式的方法,并依据客户访问网站序列的有序性和连续性,对Apriori算法提出四点改进。应用改进后的Apriori于Web使用挖掘中,明显提升算法的效率。  相似文献   

4.
WebLog访问序列模式挖掘将数据挖掘中的序列模式技术应用于Web服务器上的日志文件,以此来改善Web的信息服务,而在对海量的数据挖掘时,系统资源开销很大。该文结合SPAM、PrefixSpan的思想,提出一个新的算法——SPAM-FPT,该算法通过建立First_Positon_Table,避免了SPAM中的“与操作”、“连接操作”以及PrefixSpan中大量的“投影数据库”的建立,可以快捷地挖掘数据库中所有“频繁子序列”。  相似文献   

5.
广泛地从Web获取信息是信息时代的一个重要特征,借助数据挖掘的知识,从Web日志中发现用户的访问模式,可以帮助管理站点,更好地满足用户的要求,本文介绍了从原始的日志数据中发现用户访问模式的方法,提出了数据预处理的方法和一种新的用于挖掘的数据结构-序列访问树SAT,以及基于此结构的挖掘算法。  相似文献   

6.
缓存和预取在提高无线环境下的Web访问性能方面发挥着重要作用。文章研究针对无线局域网的Web缓存和预取机制,分别基于数据挖掘和信息论提出了采用序列挖掘和延迟更新的预测算法,设计了上下文感知的预取算法和获益驱动的缓存替换机制,上述算法已在Web缓存系统OnceEasyCache中实现。性能评估实验结果表明,上述算法的集成能有效地提高缓存命中率和延迟节省率。  相似文献   

7.
基于Web日志的用户访问模式挖掘   总被引:1,自引:0,他引:1  
Web日志挖掘是数据挖掘技术在Web日志数据存储中的应用。论文介绍了Web日志挖掘,在分析发现用户访问模式方法——类Apriori算法的基础上,给出一种基于粗糙集的用户访问模式聚类方法。  相似文献   

8.
基于Web的时间序列模式挖掘   总被引:5,自引:0,他引:5  
序列模式挖掘是数据挖掘的重要研究课题之一。将其应用于Web环境具有重要意义,论述了Web时间序列模式挖掘问题,并给出了一种Web时间序列模工挖掘的有效算法。  相似文献   

9.
企业的Web日志中蕴藏着丰富的信息.首先从企业绩效的角度出发,提出以企业营运能力的绩效评价为目标的Web被访信息的空间存储模型,模型中存储了访问时间序列、访问轨迹和评价指标等信息;然后将绩效评价体系的理论、基于Web的信息技术、数据挖掘技术集成,利用关联规则挖掘算法实现对因特网内的大范围Web日志的内容分析和主题挖掘,建立了基于Web挖掘的企业绩效方法.该模型为企业进行绩效评价提供了一种新思路.  相似文献   

10.
一种新的Web频繁访问模式挖掘算法   总被引:1,自引:0,他引:1  
提出了一种基于有向图的从Web日志中挖掘用户频繁访问模式的新算法,与传统使用基于关联规则挖掘的序列模式挖掘技术相比,本算法采用有向图来记录Web访问序列和它的计数,在挖掘过程中只需要扫描数据库一次,不产生数量庞大的候选模式,即可直接挖掘出所有的Web频繁访问路径,大大提高了Web访问模式的发现效率。  相似文献   

11.
Sequential mining is the process of applying data mining techniques to a sequential database for the purposes of discovering the correlation relationships that exist among an ordered list of events. An important application of sequential mining techniques is web usage mining, for mining web log accesses, where the sequences of web page accesses made by different web users over a period of time, through a server, are recorded. Web access pattern tree (WAP-tree) mining is a sequential pattern mining technique for web log access sequences, which first stores the original web access sequence database on a prefix tree, similar to the frequent pattern tree (FP-tree) for storing non-sequential data. WAP-tree algorithm then, mines the frequent sequences from the WAP-tree by recursively re-constructing intermediate trees, starting with suffix sequences and ending with prefix sequences.This paper proposes a more efficient approach for using the WAP-tree to mine frequent sequences, which totally eliminates the need to engage in numerous re-construction of intermediate WAP-trees during mining. The proposed algorithm builds the frequent header node links of the original WAP-tree in a pre-order fashion and uses the position code of each node to identify the ancestor/descendant relationships between nodes of the tree. It then, finds each frequent sequential pattern, through progressive prefix sequence search, starting with its first prefix subsequence event. Experiments show huge performance gain over the WAP-tree technique.  相似文献   

12.
《Knowledge》2006,19(4):272-286
Web usage mining is widely applied in various areas, and dynamic recommendation is one web usage mining application. However, most of the current recommendation mechanisms need to generate all association rules before recommendations. This takes lots of time in offline computation, and cannot provide real-time recommendations for online users. This study proposes a Navigational Pattern Tree structure for storing the web accessing information. Besides, the Navigational Pattern Tree supports incremental growth for immediately modeling web usage behavior. To provide real-time recommendations efficiently, we develop a Navigational Pattern mining (NP-miner) algorithm for discovering frequent sequential patterns on the proposed Navigational Pattern Tree. According to historical patterns, the NP-miner scans relevant sub-trees of the Navigational Pattern Tree repeatedly for generating candidate recommendations. The experiments study the performance of the NP-miner algorithm through synthetic datasets from real applications. The results show that the NP-miner algorithm can efficiently perform online dynamic recommendation in a stable manner.  相似文献   

13.
针对互联网站点信息海量和结构复杂的趋势,推荐系统被用来协助互联网用户方便快捷地找到所需信息,培养用户忠诚度。Web挖掘技术在处理海量数据和稀疏数据上有着先天的优势,所以Web挖掘技术在推荐系统中得到了越来越广泛的研究和应用。基于Web挖掘的推荐系统所使用的主要技术有聚类、关联规则、序列模式等等。然而,这些技术往往不能在推荐的准确性和覆盖范围方面做到两全。综合这几种技术,取其优点去其缺点,提出了一种新的算法(AIR算法)。通过基于实际使用数据的详尽的实验评估,可以证明该算法能够在准确性和覆盖范围方面明显提高推荐系统的整体性能。  相似文献   

14.
用户对Web网站访问兴趣可以通过页面的浏览顺序表现出来,Web站点的访问日志记录了用户访问页面的详细信息.介绍Web站点访问日志挖掘的相关知识,并定义新的兴趣度,相似度和聚类中心,提出了一种基于用户访问兴趣的路径聚类算法,最后通过实验来验证这种算法的有效性.  相似文献   

15.
从云计算三个层次的服务模式出发,提出了一种基于云计算平台的分布式并行信息系统数据采集分析系统.首先,通过Hadoop云计算平台提供的分布式文件系统提升数据的存取速度,增强系统的容错性.在此基础上,利用MapReduce编程模型并行化数据流系综分类算法,提高数据的分类挖掘效率.最后,采用Web Service技术构建了SOA服务体系架构,从而整合了技术平台.测试结果表明,检测系统运行高效,并且检测精度高,具有一定的实用性和推广价值.  相似文献   

16.
企业智能化Web商务数据挖掘引擎算法设计与实现   总被引:4,自引:0,他引:4  
针对现有的数据挖掘引擎难以满足企业不断增长的需求的问题,在传统搜索引擎的基础上提出了一种企业专用的智能化Web商务数据挖掘引擎.从总体上给出了模型框架,得出企业智能化Web商务数据挖掘引擎是一个基于多模型的系统的结论.接着分别详细研究了该引擎的:Web内容挖掘、Web信息获取、客户行为挖掘3个核心模块.并给出了3个模块的详细算法设计和实现过程  相似文献   

17.
关于Web Page语义挖掘的目的主要是在现有网络挖掘的基础上对挖掘内容加上语义的表述从而达到提高挖掘的效果.主要先处理挖掘的数据源,然后对数据进行语义标注,建立本体,将本体实例化,形成语义数据库,利用现有的挖掘算法实现挖掘结果.最终得到相对于现有挖掘效果得到提高的结论.  相似文献   

18.
Interval Set Clustering of Web Users with Rough K-Means   总被引:1,自引:0,他引:1  
Data collection and analysis in web mining faces certain unique challenges. Due to a variety of reasons inherent in web browsing and web logging, the likelihood of bad or incomplete data is higher than conventional applications. The analytical techniques in web mining need to accommodate such data. Fuzzy and rough sets provide the ability to deal with incomplete and approximate information. Fuzzy set theory has been shown to be useful in three important aspects of web and data mining, namely clustering, association, and sequential analysis. There is increasing interest in research on clustering based on rough set theory. Clustering is an important part of web mining that involves finding natural groupings of web resources or web users. Researchers have pointed out some important differences between clustering in conventional applications and clustering in web mining. For example, the clusters and associations in web mining do not necessarily have crisp boundaries. As a result, researchers have studied the possibility of using fuzzy sets in web mining clustering applications. Recent attempts have used genetic algorithms based on rough set theory for clustering. However, the genetic algorithms based clustering may not be able to handle the large amount of data typical in a web mining application. This paper proposes a variation of the K-means clustering algorithm based on properties of rough sets. The proposed algorithm represents clusters as interval or rough sets. The paper also describes the design of an experiment including data collection and the clustering process. The experiment is used to create interval set representations of clusters of web visitors.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号