共查询到19条相似文献,搜索用时 250 毫秒
1.
现今Web站点是越来越复杂而且不智能化。用户在访问Web站点时经常会碰到很多问题,主要原因是Web站点对用户的需求缺乏适应性。文中研究了自适应Web站点,提出一个理论框架,并针对此框架给出一个构建自适应Web站点的系统架构,介绍了使用文本挖掘方法和Web用法挖掘方法,改善Web站点的结构和组织形式以使站点达到更好的效果。主要通过挖掘Web服务器日志数据使站点更容易访问。 相似文献
2.
基于Weblog的模式发现及应用的研究 总被引:6,自引:0,他引:6
近年来 ,由于电子商务 ,电子图书馆 ,远程教育等的应用 ,对 web站点设计和功能提出了更高的要求 ,要求 web站点具有智能性 .本文通过对 Weblog日志的挖掘 ,找出用户浏览页面的关联规则、聚类信息、访问路径等 ,并把它们应用到 web站点的智能化设计中 .主要讨论了站点的在线推荐 ,自适应设计问题 ,在此基础上简单介绍了一个 Weblog挖掘系统原型 Adaptive Web.Adaptive Web可创建自适应 web站点 ,使其具有部分智能 . 相似文献
3.
现有的静态Web站点结构不能满足人们准确地找到所需信息和享用个性化服务的要求。本文不但通过Web日志文件的挖掘,找出用户的频繁访问路径来改进Web站点结构,而且分析当前访问页面与后续候选推荐页面的内容相关性,形成经过内容裁剪的个性化页面来压缩Web页面内容。这样,用户可快速定位到频繁访问的后续页面位置,且页面内容大多是用户感兴趣的主题信息。在此基础上,提出了一个自适应站点模型AdaptiveSite,经过推荐质量分析,该模型具有较好的优化性能。 相似文献
4.
在对Web应用挖掘的基本步骤作系统性研究的基础上,设计了一个Web应用挖掘可视化系统.该系统能够对用户访问Web时服务器方留下的访问记录进行挖掘,从中得出用户的访问模式和访问兴趣,并对所得出的结果进行可视化的处理.为了识别用户浏览模式利用Apriori算法对Web应用挖掘过程中预处理阶段所产生的用户会话文件进行了挖掘.采用Web图可视化了Web站点的拓扑结构以及各节点访问计数和登录计数信息.Web图的新颖之处在于两点:首先,为了将Web拓扑结构映射到Web图上,利用了站点拓扑结构数据和站点应用数据;其次,在绘制表示用户登录计数的信息层时允许通过使用动态布局的方法,以及为每一层的节点重新分配360度周长的方法来解决节点之间的冲突问题.文中较详细地阐述了该系统对Web应用数据挖掘可视化界面布局的具体措施. 相似文献
5.
6.
7.
Web站点导航是Web数据挖掘的一个重要研究领域,是准确理解用户访问网站行为的关键;传统Web站点导航技术很难全面反映出用户对页面浏览的兴趣程度,找到用户感兴趣页面路径准确度比较低;为提高找到用户感兴趣页面路径准确度,提出一种基于蚁群算法的Web站点导航技术;将网络用户看作人工的蚂蚁,用户的浏览兴趣作蚂蚁的信息素,通过利用Web日志数据采用正负反馈机制和路径概率选择机制建立一个Web站点导航模型,挖掘用户感兴趣页面的导航路径;仿真实验结果表明,基于蚁群算法的Web站点导航技术提高了找到用户感兴趣页面路径准确度,更加能够准确反映出用户的浏览兴趣,用于Web站点导航是可行的。 相似文献
8.
广泛地从Web获取信息是信息时代的一个重要特征,借助数据挖掘的知识,从Web日志中发现用户的访问模式,可以帮助管理站点,更好地满足用户的要求,本文介绍了从原始的日志数据中发现用户访问模式的方法,提出了数据预处理的方法和一种新的用于挖掘的数据结构-序列访问树SAT,以及基于此结构的挖掘算法。 相似文献
9.
用户对Web网站访问兴趣可以通过页面的浏览顺序表现出来,Web站点的访问日志记录了用户访问页面的详细信息.介绍Web站点访问日志挖掘的相关知识,并定义新的兴趣度,相似度和聚类中心,提出了一种基于用户访问兴趣的路径聚类算法,最后通过实验来验证这种算法的有效性. 相似文献
10.
基于用户访问事务文法的序列关联规则发现 总被引:4,自引:0,他引:4
在Web挖掘中,应用关联规则发现方法可以发现Web页面之间用户访问的关联度.由于Web站点内含丰富的页面结构信息,也由于用户的访问总是要遵循一定的访问顺序,因此提出一种新的可以发现用户访问序列之间关联度的方法——序列关联规则发现方法.该方法首先得到用户访问事务;然后根据正则文法,定义了一种新的用户访问事务文法,用于从用户访问事务中得到用户序列访问事务;最后应用关联规则发现算法进而发现序列关联规则.为了进一步评价所发现的序列关联规则,引入了互信息的概念.发现的序列关联规则可以帮助Web站点的设计者更好地理解用户的访问,以用于调整Web站点的结构. 相似文献
11.
Web数据挖掘(Web Data Mining),是数据挖掘技术在Web环境下的应用,是从大量的Web文档集合和在站点内进行浏览的相关数据中发现潜在的、有用的模式或信息。Web结构挖掘即使用Web的结构来发现相关信息。介绍了Web数据挖掘及Wed结构挖掘的相关概念,以及.NET的框架结构,并举例与ASP.NET相结合来实现Web结构挖掘的功能。 相似文献
12.
Tak-Lam Wong 《Applied Intelligence》2012,36(4):918-931
We propose a framework for adapting a previously learned wrapper from a source Web site to unseen sites in different languages.
To achieve this, we exploit the previously learned information extraction knowledge and the previously extracted or collected
items in the source Web site. These knowledge and data are automatically translated to the same language as the unseen sites
via online Web resources such as online Web dictionaries or maps. Site independent features which capture the characteristics
of the content of the data are then derived from the translated information. Several text mining methods are employed to automatically
discover a set of machine labeled training examples in the unseen site. Both content oriented features and site dependent
features of the machine labeled training examples are used for learning the new wrapper for the new unseen site using our
language independent wrapper induction component. We conducted experiments on some real-world Web sites in different languages
to demonstrate the effectiveness of our framework. 相似文献
13.
14.
基于Web的数据挖掘研究综述 总被引:4,自引:0,他引:4
基于Web数据挖掘是一个结合了数据挖掘和WWW的热门研究主题。文章介绍了Web数据挖掘最流行的分类;Web内容挖掘,Web结构挖掘和Web使用记录挖掘,根据Web数据挖掘的最近研究状况,总结了几个研究热点,并介绍了一个Web使用记录挖掘的框架WebSIFT. 相似文献
15.
WebGuard: a Web filtering engine combining textual, structural, and visual content-based analysis 总被引:2,自引:0,他引:2
Hammami M. Chahir Y. Chen L. 《Knowledge and Data Engineering, IEEE Transactions on》2006,18(2):272-284
Along with the ever-growing Web comes the proliferation of objectionable content, such as sex, violence, racism, etc. We need efficient tools for classifying and filtering undesirable Web content. In this paper, we investigate this problem and describe WebGuard, an automatic machine learning-based pornographic Web site classification and filtering system. Unlike most commercial filtering products, which are mainly based on textual content-based analysis such as indicative keywords detection or manually collected black list checking, WebGuard relies on several major data mining techniques associated with textual, structural content-based analysis, and skin color related visual content-based analysis as well. Experiments conducted on a testbed of 400 Web sites including 200 adult sites and 200 nonpornographic ones showed WebGuard's filtering effectiveness, reaching a 97.4 percent classification accuracy rate when textual and structural content-based analysis was combined with visual content-based analysis. Further experiments on a black list of 12,311 adult Web sites manually collected and classified by the French Ministry of Education showed that WebGuard scored a 95.62 percent classification accuracy rate. The basic framework of WebGuard can apply to other categorization problems of Web sites which combine, as most of them do today, textual and visual content. 相似文献
16.
17.
Web用户访问模式挖掘研究 总被引:5,自引:0,他引:5
1 引言目前World Wide Web(WWW)已经发展成为拥有近亿个工作站、数十亿页面的分布式信息空间,在这个分布式信息空间中蕴涵着具有巨大潜在价值的知识,也带来了巨大的经济效益和社会效益。对于不同层次、不同使用目的和爱好的浏览者需要个性化的信息服务,希望网站能够根据自己的浏览习惯,动态定制 相似文献
18.
Web使用挖掘研究及实现 总被引:4,自引:2,他引:4
Web使用挖掘并不是简单地把数据挖掘算法应用在Web日志上,由于WWW体系结构的特殊性(包括Web站点上物理路径和逻辑路径的不一致),必须采用一种新的框架来处理挖掘过程。整个挖掘过程可以分为两大部分:ECLF日志预处理和在预处理后的数据集上进行挖掘。文中从应用的角度出发,在分析了这两个过程的具体流程后,给出了一个完整的Web使用模式挖掘解决方案和从Web日志中挖掘关联规则的系统原型。 相似文献