首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 55 毫秒
1.
有序概念格与WWW用户访问模式的增量控掘   总被引:4,自引:0,他引:4  
访问模式是用户沿URL超链寻找和浏览网页规律的总结,发现用户访问模式对于帮助用户快速到达目标页面,进而实现搜索引擎的个性化导航具有重要意义.目前虽有一些挖掘用户访问模式的工作,但尚未发现能够处理增量数据的系统化挖掘算法.用户访问模式挖掘可由如下3个步骤完成:①由日志库提取最大向前关联路径,②由最大向前关联路径发现频繁关联路径序列,③由频繁关联路径序列得到最大频繁关联路径序列,其中②是问题的核心.为得到系统化算法,对概念格模型加以顺序约束,提出了有序概念格,并将其用于Web访问模式的增量发掘.给出了增量式高效挖掘算法,并与相关工作进行了比较,对合成数据和实际数据的实验结果验证了算法的有效性.  相似文献   

2.
单个用户访问网站能够留下大量的访问信息,合理地挖掘这些信息便能够得到用户个人的访问模式.文中将序列模式挖掘运用到单一用户Web日志上,最终可以得到单一用户的访问序列模式.在序列模式挖掘过程中,将传统的序列模式挖掘概念进行了扩充,对应到单一用户的序列模式上;运用Session来划分时间段,增强了时间的概念;运用概念格的理论,很好地实现了增量序列模式挖掘.并使用一个新的算法,解决MFP(最大前向路径)在Web日志中获取存在的一些问题.  相似文献   

3.
用户Web日志序列模式挖掘研究   总被引:2,自引:0,他引:2  
李林  崔志明 《微机发展》2005,15(5):119-121,157
单个用户访问网站能够留下大量的访问信息,合理地挖掘这些信息便能够得到用户个人的访问模式。文中将序列模式挖掘运用到单一用户Web日志上.最终可以得到单一用户的访问序列模式。在序列模式挖掘过程中,将传统的序列模式挖掘概念进行了扩充,对应到单一用户的序列模式上;运用Session来划分时间段,增强了时间的概念;运用概念格的理论,很好地实现了增量序列模式挖掘。并使用一个新的算法,解决MFP(最大前向路径)在Web日志中获取存在的一些问题。  相似文献   

4.
一种新的Web频繁访问模式挖掘算法   总被引:1,自引:0,他引:1  
提出了一种基于有向图的从Web日志中挖掘用户频繁访问模式的新算法,与传统使用基于关联规则挖掘的序列模式挖掘技术相比,本算法采用有向图来记录Web访问序列和它的计数,在挖掘过程中只需要扫描数据库一次,不产生数量庞大的候选模式,即可直接挖掘出所有的Web频繁访问路径,大大提高了Web访问模式的发现效率。  相似文献   

5.
本文旨在研究基于Web环境下利用关联规则对Web日志挖掘的数据分析系统。把关联规则的概念引入到web日志挖掘中,将用户的访问路径以关联规则的形式表现出来,其目的在于从用户访问超文本系统的行为中发现用户的访问模式。然后在砷riori挖掘算法思想的基础上,对其改造,给出了适合挖掘用户访问频繁路径的类Apriori算法。最后设计开发了一个Web日志数据分析系统。此系统主要包含三个功能模块:数据预处理模块、智能分析模块和基本分析模块  相似文献   

6.
本文旨在研究基于Web环境下利用关联规则对Web日志挖掘的数据分析系统。把关联规则的概念引入到Web日志挖掘中,将用户的访问路径以关联规则的形式表现出来,其目的在于从用户访问超文本系统的行为中发现用户的访问模式。然后在Apriori挖掘算法思想的基础上,对其改造,给出了适合挖掘用户访问频繁路径的类Apriori算法。最后设计开发了一个Web日志数据分析系统。此系统主要包含三个功能模块:数据预处理模块、智能分析模块和基本分析模块  相似文献   

7.
概念格作为一种用于数据组织和数据分析的形式化工具,有着广阔的应用领域,如信息检索、数字图书馆、软件工程、数据挖掘等方面。先对概念格进行了简单的介绍,然后讨论了Web日志挖掘过程的两个重要阶段:数据预处理和模式发现,并将概念格应用于模式发现以进行频繁页面之间的关联规则挖掘和频繁访问路径挖掘,减少了候选项集的产生,可有效提高挖掘效率。  相似文献   

8.
本文提出了基于关联规则的挖掘最大频繁访问的新算法——s-Tree算法,并以此去分析用户的访问模式,挖掘出特定用户访问模式和浏览偏爱路径信息,进而优化站点结构,为用户提供“一对一”个性化的Web页面访问预测及内容推荐。  相似文献   

9.
汤亚玲  秦峰 《微机发展》2007,17(8):40-42
Web关联规则挖掘研究用户对Web站点上不同页面之间的访问规律,为智能Web站点的个性化服务提供知识依据。文中讨论在Web使用挖掘中如何实现关联规则挖掘与访问序列相结合,挖掘切实有效的关联规则;具体阐述如何构造最大向前路径,并将关联规则与最大向前路径匹配、过虑的过程。试验证明得到的关联规则可作为智能Web站点的有效知识依据。  相似文献   

10.
一种基于后缀树的Web访问模式挖掘算法   总被引:4,自引:0,他引:4  
何丽  韩文秀 《计算机应用》2004,24(11):68-70
在Web使用挖掘中,分析用户的行为模式是一个关键的问题。文中提出了一种基于后缀树的最大频繁序列MFS(Maximal Frequent Sequences)的有效挖掘算法,该算法能够从增量数据中动态发现和输出MFS。  相似文献   

11.
web数据挖掘探讨   总被引:1,自引:0,他引:1  
web数据挖掘是目前信息技术中的研究热点,它是现代科学技术相互渗透与融合的必然结果。本文介绍了web数据挖掘的含义,重点讨论了web数据挖掘的类型以各种类型的web数据挖掘的基本过程以及它们所使用的一些相关技术,最后指出了网络信息挖掘的应用前景。  相似文献   

12.
web数据挖掘是目前信息技术中的研究热点,它是现代科学技术相互渗透与融合的必然结果。本文介绍了web数据挖掘的含义,重点讨论了web数据挖掘的类型以各种类型的web数据挖掘的基本过程以及它们所使用的一些相关技术.最后指出了网络信息挖掘的应用前景。  相似文献   

13.
面向电子商务的Web挖掘技术及其应用研究   总被引:3,自引:0,他引:3  
电子商务过程中企业和组织面临一系列网络信息的获取问题,对解决这些问题的Web内容挖掘、Web结构挖掘、Web使用挖掘技术进行了综述,并介绍了Web挖掘技术在智能搜索引擎、企业危机管理、客户关系管理及个性化服务系统中的应用。  相似文献   

14.
数据挖掘在Web智能化中应用研究   总被引:12,自引:9,他引:3  
分析了Web信息的特点和目前开发利用的局限,提出在Web上采用数据挖掘技术即Web挖掘,促进web智能化的观点。全面阐述了Web挖掘在Web智能化中的几个重要应用。指出Web挖掘是Web技术中一个重要的研究领域,是发现蕴藏在web上知识、区分权威链接、理解用户访问模式和网页语义结构的关键,它使充分利用Web大量的真正有价值的信息成为可能,为智能化Web奠定了基础。  相似文献   

15.
结合使用挖掘和内容挖掘的web推荐服务   总被引:10,自引:1,他引:9  
随着Internet的基础结构不断扩大和其所含信息的持续增长,Internet用户越来越感觉容易在WWW服务中“资源迷向”。提高用户访问效率的方法有页面预取技术,站点动态重构技术和web个性化推荐技术等。现有的大多数web个性化推荐技术主要是基于用户使用记录的数据挖掘方法,没有或很少考虑结合页面内容—这才是用户真正感兴趣的。该文提出一种结合用户使用挖掘和内容挖掘的web推荐服务,该推荐服务根据频繁最大前向访问路径,提出含有导航页和内容页的频繁访问路径图概念,根据滑动窗口内的最近用户访问页面内容和候选推荐集中页面内容相关性,来向用户提供个性化推荐服务。经推荐质量分析,这种方法具有较好的推荐优化能力。  相似文献   

16.
关于Web Page语义挖掘的目的主要是在现有网络挖掘的基础上对挖掘内容加上语义的表述从而达到提高挖掘的效果.主要先处理挖掘的数据源,然后对数据进行语义标注,建立本体,将本体实例化,形成语义数据库,利用现有的挖掘算法实现挖掘结果.最终得到相对于现有挖掘效果得到提高的结论.  相似文献   

17.
This paper addresses the issue of search of definitions. Specifically, for a given term, we are to find out its definition candidates and rank the candidates according to their likelihood of being good definitions. This is in contrast to the traditional methods of either generating a single combined definition or outputting all retrieved definitions. Definition ranking is essential for tasks. A specification for judging the goodness of a definition is given. In the specification, a definition is categorized into one of the three levels: good definition, indifferent definition, or bad definition. Methods of performing definition ranking are also proposed in this paper, which formalize the problem as either classification or ordinal regression. We employ SVM (Support Vector Machines) as the classification model and Ranking SVM as the ordinal regression model respectively, and thus they rank definition candidates according to their likelihood of being good definitions. Features for constructing the SVM and Ranking SVM models are defined, which represent the characteristics of terms, definition candidate, and their relationship. Experimental results indicate that the use of SVM and Ranking SVM can significantly outperform the baseline methods such as heuristic rules, the conventional information retrieval--Okapi, or SVM regression. This is true when both the answers are paragraphs and they are sentences. Experimental results also show that SVM or Ranking SVM models trained in one domain can be adapted to another domain, indicating that generic models for definition ranking can be constructed.  相似文献   

18.
Discovery of Web Robot Sessions Based on their Navigational Patterns   总被引:11,自引:0,他引:11  
Web robots are software programs that automatically traverse the hyperlink structure of the World Wide Web in order to locate and retrieve information. There are many reasons why it is important to identify visits by Web robots and distinguish them from other users. First of all, e-commerce retailers are particularly concerned about the unauthorized deployment of robots for gathering business intelligence at their Web sites. In addition, Web robots tend to consume considerable network bandwidth at the expense of other users. Sessions due to Web robots also make it more difficult to perform clickstream analysis effectively on the Web data. Conventional techniques for detecting Web robots are often based on identifying the IP address and user agent of the Web clients. While these techniques are applicable to many well-known robots, they may not be sufficient to detect camouflaged and previously unknown robots. In this paper, we propose an alternative approach that uses the navigational patterns in the click-stream data to determine if it is due to a robot. Experimental results on our Computer Science department Web server logs show that highly accurate classification models can be built using this approach. We also show that these models are able to discover many camouflaged and previously unidentified robots.  相似文献   

19.
Web结构挖掘中HITS算法改进的研究   总被引:2,自引:0,他引:2  
随着Internet技术的发展,Web网页成为人们获取信息的有效途径,Web数据挖掘逐渐成为国内外研究的热点。基于Web结构挖掘中HITS算法只考虑页面之间的链接关系而忽视了页面的具体内容,在这种情况下容易出现主题偏离[1]现象,影响了搜索结果,为了抑制主题偏离现象,本文把超链接信息检索方法与页面内容相结合,提出了一种改进的算法。实验结果证明改进的算法较原算法具有较好的效果,有效的抑制了主题偏离现象,具有一定的实用价值。  相似文献   

20.
本文从娱乐门户网站的访问日志中挖掘出用户喜好的访问模式,分析得出用户偏爱度反相关于日志中时间距离,正相关于使用频度,并推导出用户偏爱度函数,从而以用户偏爱度来指导系统自动调整用户的显示界面和内容,并以管理子系统为例介绍实现智能的个性化推荐系统。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号