首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
现今Web站点是越来越复杂而且不智能化。用户在访问Web站点时经常会碰到很多问题,主要原因是Web站点对用户的需求缺乏适应性。文中研究了自适应Web站点,提出一个理论框架,并针对此框架给出一个构建自适应Web站点的系统架构,介绍了使用文本挖掘方法和Web用法挖掘方法,改善Web站点的结构和组织形式以使站点达到更好的效果。主要通过挖掘Web服务器日志数据使站点更容易访问。  相似文献   

2.
基于Weblog的模式发现及应用的研究   总被引:6,自引:0,他引:6  
近年来 ,由于电子商务 ,电子图书馆 ,远程教育等的应用 ,对 web站点设计和功能提出了更高的要求 ,要求 web站点具有智能性 .本文通过对 Weblog日志的挖掘 ,找出用户浏览页面的关联规则、聚类信息、访问路径等 ,并把它们应用到 web站点的智能化设计中 .主要讨论了站点的在线推荐 ,自适应设计问题 ,在此基础上简单介绍了一个 Weblog挖掘系统原型 Adaptive Web.Adaptive Web可创建自适应 web站点 ,使其具有部分智能 .  相似文献   

3.
戴东波  印鉴 《计算机科学》2006,33(4):126-129
现有的静态Web站点结构不能满足人们准确地找到所需信息和享用个性化服务的要求。本文不但通过Web日志文件的挖掘,找出用户的频繁访问路径来改进Web站点结构,而且分析当前访问页面与后续候选推荐页面的内容相关性,形成经过内容裁剪的个性化页面来压缩Web页面内容。这样,用户可快速定位到频繁访问的后续页面位置,且页面内容大多是用户感兴趣的主题信息。在此基础上,提出了一个自适应站点模型AdaptiveSite,经过推荐质量分析,该模型具有较好的优化性能。  相似文献   

4.
在对Web应用挖掘的基本步骤作系统性研究的基础上,设计了一个Web应用挖掘可视化系统.该系统能够对用户访问Web时服务器方留下的访问记录进行挖掘,从中得出用户的访问模式和访问兴趣,并对所得出的结果进行可视化的处理.为了识别用户浏览模式利用Apriori算法对Web应用挖掘过程中预处理阶段所产生的用户会话文件进行了挖掘.采用Web图可视化了Web站点的拓扑结构以及各节点访问计数和登录计数信息.Web图的新颖之处在于两点:首先,为了将Web拓扑结构映射到Web图上,利用了站点拓扑结构数据和站点应用数据;其次,在绘制表示用户登录计数的信息层时允许通过使用动态布局的方法,以及为每一层的节点重新分配360度周长的方法来解决节点之间的冲突问题.文中较详细地阐述了该系统对Web应用数据挖掘可视化界面布局的具体措施.  相似文献   

5.
Web日志挖掘技术的研究与应用   总被引:15,自引:0,他引:15  
肖立英  李建华  谭立球 《计算机工程》2002,28(7):276-277,284
介绍目前世界上两种主要的Web日志挖掘技术(基于Web事务和基于数据立方体)。同时,提出了一个基于Web日志挖掘技术的应用,即用户自适应的Web站点,介绍了这一系统的实现方法和主要特色。  相似文献   

6.
Web用户访问多是匿名访问,Web日志挖掘的主要目标是从Web访问记录中抽取用户行为模式,通过分析挖掘结果理解用户的行为,从而改进站点的结构.Web日志挖掘第一步是进行数据预处理.数据预处理是Web页面分析中最耗时的阶段,首先研究了数据预处理的过程,包括数据清洗、用户识别、会话识别、路径补充.提出了一种路径补充的算法,...  相似文献   

7.
Web站点导航是Web数据挖掘的一个重要研究领域,是准确理解用户访问网站行为的关键;传统Web站点导航技术很难全面反映出用户对页面浏览的兴趣程度,找到用户感兴趣页面路径准确度比较低;为提高找到用户感兴趣页面路径准确度,提出一种基于蚁群算法的Web站点导航技术;将网络用户看作人工的蚂蚁,用户的浏览兴趣作蚂蚁的信息素,通过利用Web日志数据采用正负反馈机制和路径概率选择机制建立一个Web站点导航模型,挖掘用户感兴趣页面的导航路径;仿真实验结果表明,基于蚁群算法的Web站点导航技术提高了找到用户感兴趣页面路径准确度,更加能够准确反映出用户的浏览兴趣,用于Web站点导航是可行的。  相似文献   

8.
广泛地从Web获取信息是信息时代的一个重要特征,借助数据挖掘的知识,从Web日志中发现用户的访问模式,可以帮助管理站点,更好地满足用户的要求,本文介绍了从原始的日志数据中发现用户访问模式的方法,提出了数据预处理的方法和一种新的用于挖掘的数据结构-序列访问树SAT,以及基于此结构的挖掘算法。  相似文献   

9.
用户对Web网站访问兴趣可以通过页面的浏览顺序表现出来,Web站点的访问日志记录了用户访问页面的详细信息.介绍Web站点访问日志挖掘的相关知识,并定义新的兴趣度,相似度和聚类中心,提出了一种基于用户访问兴趣的路径聚类算法,最后通过实验来验证这种算法的有效性.  相似文献   

10.
基于用户访问事务文法的序列关联规则发现   总被引:4,自引:0,他引:4  
王实  高文  李锦涛 《软件学报》2001,12(10):1503-1509
在Web挖掘中,应用关联规则发现方法可以发现Web页面之间用户访问的关联度.由于Web站点内含丰富的页面结构信息,也由于用户的访问总是要遵循一定的访问顺序,因此提出一种新的可以发现用户访问序列之间关联度的方法——序列关联规则发现方法.该方法首先得到用户访问事务;然后根据正则文法,定义了一种新的用户访问事务文法,用于从用户访问事务中得到用户序列访问事务;最后应用关联规则发现算法进而发现序列关联规则.为了进一步评价所发现的序列关联规则,引入了互信息的概念.发现的序列关联规则可以帮助Web站点的设计者更好地理解用户的访问,以用于调整Web站点的结构.  相似文献   

11.
Web数据挖掘(Web Data Mining),是数据挖掘技术在Web环境下的应用,是从大量的Web文档集合和在站点内进行浏览的相关数据中发现潜在的、有用的模式或信息。Web结构挖掘即使用Web的结构来发现相关信息。介绍了Web数据挖掘及Wed结构挖掘的相关概念,以及.NET的框架结构,并举例与ASP.NET相结合来实现Web结构挖掘的功能。  相似文献   

12.
We propose a framework for adapting a previously learned wrapper from a source Web site to unseen sites in different languages. To achieve this, we exploit the previously learned information extraction knowledge and the previously extracted or collected items in the source Web site. These knowledge and data are automatically translated to the same language as the unseen sites via online Web resources such as online Web dictionaries or maps. Site independent features which capture the characteristics of the content of the data are then derived from the translated information. Several text mining methods are employed to automatically discover a set of machine labeled training examples in the unseen site. Both content oriented features and site dependent features of the machine labeled training examples are used for learning the new wrapper for the new unseen site using our language independent wrapper induction component. We conducted experiments on some real-world Web sites in different languages to demonstrate the effectiveness of our framework.  相似文献   

13.
Web逻辑域挖掘是当前Web挖掘领域的研究热点之一,它强调从网站设计者的角度来挖掘站点中有逻辑联系的网页,以形成一个逻辑域,而不是单纯的文本聚类或超链排序。随着应用的不同,站点逻辑域的界定也有所不同。在综合分析了几种具有代表性的站点逻辑域及其挖掘方法后,提出了基于网页分块聚类的Web站点逻辑域挖掘模型和挖掘算法。实验结果表明,该算法具有很好的稳定性和适应性,其精度不受站点规模、语言、镜像等因素的影响,召回率则会随着取回网页数目的增加而增加。  相似文献   

14.
基于Web的数据挖掘研究综述   总被引:4,自引:0,他引:4  
基于Web数据挖掘是一个结合了数据挖掘和WWW的热门研究主题。文章介绍了Web数据挖掘最流行的分类;Web内容挖掘,Web结构挖掘和Web使用记录挖掘,根据Web数据挖掘的最近研究状况,总结了几个研究热点,并介绍了一个Web使用记录挖掘的框架WebSIFT.  相似文献   

15.
Along with the ever-growing Web comes the proliferation of objectionable content, such as sex, violence, racism, etc. We need efficient tools for classifying and filtering undesirable Web content. In this paper, we investigate this problem and describe WebGuard, an automatic machine learning-based pornographic Web site classification and filtering system. Unlike most commercial filtering products, which are mainly based on textual content-based analysis such as indicative keywords detection or manually collected black list checking, WebGuard relies on several major data mining techniques associated with textual, structural content-based analysis, and skin color related visual content-based analysis as well. Experiments conducted on a testbed of 400 Web sites including 200 adult sites and 200 nonpornographic ones showed WebGuard's filtering effectiveness, reaching a 97.4 percent classification accuracy rate when textual and structural content-based analysis was combined with visual content-based analysis. Further experiments on a black list of 12,311 adult Web sites manually collected and classified by the French Ministry of Education showed that WebGuard scored a 95.62 percent classification accuracy rate. The basic framework of WebGuard can apply to other categorization problems of Web sites which combine, as most of them do today, textual and visual content.  相似文献   

16.
双语平行网页挖掘系统的设计与实现   总被引:1,自引:0,他引:1       下载免费PDF全文
陈伟  黄蕾  刘峰  赵志宏 《计算机工程》2009,35(14):267-269
针对双语语料是开发统计机器翻译系统的重要资源,提出一种从网络中自动挖掘双语平行网页的方法。与传统从指定网站中挖掘平行网页的方法不同,该方法从整个互联网中自动挖掘平行网页,对新的语言对和内容领域有很强的适应能力,实现双语平行网页挖掘的系统。实验结果显示,该系统可以为统计机器翻译系统提供大量高质量的平行网页。  相似文献   

17.
Web用户访问模式挖掘研究   总被引:5,自引:0,他引:5  
1 引言目前World Wide Web(WWW)已经发展成为拥有近亿个工作站、数十亿页面的分布式信息空间,在这个分布式信息空间中蕴涵着具有巨大潜在价值的知识,也带来了巨大的经济效益和社会效益。对于不同层次、不同使用目的和爱好的浏览者需要个性化的信息服务,希望网站能够根据自己的浏览习惯,动态定制  相似文献   

18.
Web使用挖掘研究及实现   总被引:4,自引:2,他引:4  
Web使用挖掘并不是简单地把数据挖掘算法应用在Web日志上,由于WWW体系结构的特殊性(包括Web站点上物理路径和逻辑路径的不一致),必须采用一种新的框架来处理挖掘过程。整个挖掘过程可以分为两大部分:ECLF日志预处理和在预处理后的数据集上进行挖掘。文中从应用的角度出发,在分析了这两个过程的具体流程后,给出了一个完整的Web使用模式挖掘解决方案和从Web日志中挖掘关联规则的系统原型。  相似文献   

19.
Web Services构件挖掘系统的设计与实现   总被引:2,自引:0,他引:2  
基于UDDI技术,以Web Services构件为研究对象,分析Web Services构件的信息特征,设计了一种Web Services构件挖掘系统框架,阐述了Web Services构件挖掘系统的工作流程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号