首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
最近的一些研究提出将Web使用日志的挖掘技术应用于Web个人化系统中,用于克服传统个人化技术(如CF技术、基于内容的过滤技术)中存在的问题,如处理大数据量的能力较差,依赖于用户主观的登记信息,产生的用户描述是静态的,不能获取对象之间丰富的语义联系等。但是基于Web使用日志挖掘的个人化技术不能适用于用户的使用信息获取困难或者站点内容经常变化的情况。更有效的办法是将站点的内容特征和使用特征结合到一个Web挖掘结构中去,以备推荐引擎统一使用。提出了一个基于关联规则挖掘的个人化系统,它使用概念格作为存储频繁页面集的数据结构,并介绍了如何利用概念格实时地为当前活动用户产生推荐集。  相似文献   

2.
基于概念格和关联规则Web个人化系统   总被引:1,自引:1,他引:0  
最近的一些研究提出将Web使用日志的挖掘技术应用于Web个人化系统中,用于克服传统个人化技术(如CF技术、基于内容的过滤技术)中存在的问题,如处理大数据量的能力较差,依赖于用户主观的登记信息,产生的用户描述是静态的,不能获取对象之间丰富的语义联系等.但是基于Web使用日志挖掘的个人化技术不能适用于用户的使用信息获取困难或者站点内容经常变化的情况.更有效的办法是将站点的内容特征和使用特征结合到一个Web挖掘结构中去,以备推荐引擎统一使用.提出了一个基于关联规则挖掘的个人化系统,它使用概念格作为存储频繁页面集的数据结构,并介绍了如何利用概念格实时地为当前活动用户产生推荐集.  相似文献   

3.
基于信息挖掘与推拉技术的IDSS的研究   总被引:6,自引:0,他引:6  
该文在分析传统的决策支持系统所存在问题的基础上,提出了新一代基于信息挖掘与推拉技术的智能决策支持系统,概述了该系统中所使用的基于双库协同机制的KDD技术、Web内容挖掘技术、Web用户访问信息挖掘技术及信息推-拉技术等。  相似文献   

4.
在Web日志挖掘的过程中,数据预处理是整个Web日志挖掘过程的基础,其直接影响了日志挖掘的质量和结果.由于目前大多数网页都采用框架模式,而传统的预处理技术并没有针对frame页面进行过滤,即使过滤,也会导致页面结构的混乱,从而不能够为路径补充提供正确的信息.基于此,本文提出一种基于重构网站结构的Web日志挖掘数据预处理方法以及基于它的路径补充方法.  相似文献   

5.
将分布式综合推荐模型和基于Agent技术的Web挖掘模型应用于图书信息服务系统,设计了两级数据库,分别用于支撑内容挖掘模块和协同过滤模块,充分利用分布式架构与Agent技术的优势,实现了跨站点的分布式智能搜索和个性化推荐.  相似文献   

6.
Web数据挖掘系统的设计及实现研究   总被引:9,自引:4,他引:9  
在全球信息化进程中,信息超载已经成为一个大问题。Web上信息虽多,但想找到需要的信息却很困难。人们通过点击和搜索引擎与Web进行交互,但是都不能从中准确快捷地获取需要的信息,Web数据挖掘技术就是解决此问题的好方法。讲述了Web数据挖掘的基本理论,根据挖掘对象的不同将其划分为Web内容挖掘、Web链接结构挖掘和Web访问信息挖掘;利用HTML网页的特殊结构性质,提出了一种Web数据挖掘系统的通用框架,并讨论了一些实现的具体技术。  相似文献   

7.
用户在互联网发布信息的自由性对Web信息内容过滤提出新的挑战。为此,给出一种自学习的两级内容过滤算法SAFE(self-study algorithm of filtering Chinese text content)。SAFE以数据流的方式处理文本,并根据Apriori性质,在不依赖词典的情况下,通过挖掘关键字和关键词实现对文档的两级内容过滤。利用真实世界Web文档验证了SAFE的有效性,实验表明对给定的主题进行文本内容过滤,SAFE的查全率达到93.75%以上,查准率达到100%,执行时间能够满足Web应用的实时性要求。  相似文献   

8.
Web日志挖掘预处理中的Frame页面过滤算法   总被引:12,自引:0,他引:12  
Web日志挖掘是将数据挖掘技术应用到Web服务器的日志中,发现Web用户的行为模式,在介绍了典型的数据预处理技术的基础上,指出Frame页面降低了挖掘结果的兴趣性,并提出相应的解决方法-Frame页面过滤算法消除其影响。通过实验数据对该算法进行验证,说明Frame页面过滤算法可以显著地提高Web日志挖掘结果的兴趣性。  相似文献   

9.
Internet上个性化信息的重组与发布是Web个性化技术的一个重要组成部分,这一领域目前存在的主要问题是:并非没有信息重组和发布的工具,而是缺乏能够使这类工具高效工作的支持技术。本文提出一种将流数据处理技术引入Web点击流、IP地址流及页面文本流挖掘和分析过程,研究基于Web数据流挖掘的用户行为和需求分析方法;将本体和领域知识引入Web内容挖掘过程,研究领域知识指导下的Web内容挖掘方法;将基于Web数据流挖掘的用户行为和需求分析与领域知识指导下的Web内容挖掘相结合,研究Internet上Web信息模式和Web用户模型及其相互关系的建立;将上述研究成果应用于实际,以期达到高效地支持Internet上满足用户个性化要求的信息重组与发布的目的。  相似文献   

10.
随着Internet的发展,Web挖掘技术越来越重要,其中的Web信息抽取技术逐渐成为热点,逐渐成为Web挖掘技术的关键技术之一,对Web信息抽取技术的深入研究也为构建更好的面向主题的搜索引擎提供了思路.文中对Web信息抽取的现有技术以及现有技术存在的问题进行了详细的论述.根据Web信息抽取的原理,依据软件工程的观点对Web信息抽取技术提出了具有指导意义的8条启发式规则.在这些规则的指导下,着重阐述了Web信息抽取中的基于结构和内容的信息抽取.通过理论分析及相应的实验说明所提出的8条规则对Web信息抽取具有良好的指导意义.  相似文献   

11.
介绍一种基于Web挖掘和URL相结合的Web过滤方法,利用Web挖掘实现基于内容的离线Web分类,有效地解决了单纯基于关键词过滤和人工维护URL过滤系统的缺陷。实验结果表明,该系统对于网页类别的识别达到了可以接受的程度,具有良好的实用价值。  相似文献   

12.
Web content filtering is a means to make end-users aware of the ‘quality’ of Web resources by evaluating their contents and/or characteristics against users’ preferences. Although they can be used for a variety of purposes, Web content filtering tools are mainly deployed as a service for parental control purposes, and for regulating the access to Web content by users connected to the networks of enterprises, libraries, schools, etc. Current Web filtering tools are based on well established techniques, such as data mining and firewall blocking, and they typically cater to the filtering requirements of very specific end-user categories. Therefore, what is lacking is a unified filtering framework able to support all the possible application domains, and making it possible to enforce interoperability among the different filtering approaches and the systems based on them. In this paper, a multi-strategy approach is described, which integrates the available techniques and focuses on the use of metadata for rating and filtering Web information. Such an approach consists of a filtering meta-model, referred to as MFM (Multi-strategy Filtering Model), which provides a general representation of the Web content filtering domain, independently from its possible applications, and of two prototype implementations, partially carried out in the framework of the EU projects EUFORBIA and QUATRO, and designed for different application domains: user protection and Web quality assurance, respectively.  相似文献   

13.
Along with the ever-growing Web comes the proliferation of objectionable content, such as sex, violence, racism, etc. We need efficient tools for classifying and filtering undesirable Web content. In this paper, we investigate this problem and describe WebGuard, an automatic machine learning-based pornographic Web site classification and filtering system. Unlike most commercial filtering products, which are mainly based on textual content-based analysis such as indicative keywords detection or manually collected black list checking, WebGuard relies on several major data mining techniques associated with textual, structural content-based analysis, and skin color related visual content-based analysis as well. Experiments conducted on a testbed of 400 Web sites including 200 adult sites and 200 nonpornographic ones showed WebGuard's filtering effectiveness, reaching a 97.4 percent classification accuracy rate when textual and structural content-based analysis was combined with visual content-based analysis. Further experiments on a black list of 12,311 adult Web sites manually collected and classified by the French Ministry of Education showed that WebGuard scored a 95.62 percent classification accuracy rate. The basic framework of WebGuard can apply to other categorization problems of Web sites which combine, as most of them do today, textual and visual content.  相似文献   

14.
Web搜索中的数据挖掘技术研究   总被引:4,自引:0,他引:4  
WWW已经成为世界上是大的分布式信息系统,如何快速有效地搜索用户所需的资源一直是研究热点。Web挖掘也已经成为数据挖掘中相对成熟的一个分支。本文针对Web资源搜索中利用的相关Web挖掘技术做一个综述。文章首先对目前流行的Web内容挖掘方面的常用技术进行了研究分析,然后着重研究了Web结构挖掘技术,介绍并评价了多种算法模型。接着介绍了用户使用的挖掘,并提出了Web内容挖掘技术,结构挖掘技术和用户使用挖掘相结合,应用于开发智能型搜索引擎的趋势。  相似文献   

15.
网站内容管理及个性化网页系统的研究与实现   总被引:4,自引:0,他引:4  
针对现有内容管理系统在数据存储方面的问题,介绍了一个基于原生XML数据库和关系数据库的内容管理系统,这种方式充分利用了两种数据库的优势,提高了效率.同时应用数据挖掘技术,采用协同过滤算法,提供个性化网页服务,有助于赢得更多客户.  相似文献   

16.
基于WEB文本数据挖掘的研究   总被引:8,自引:0,他引:8  
万维网是一个巨大的、分布广泛和全球性的信息服务中心,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其他信息服务。Web文本挖掘系统是挖掘技术的重要应用方向,它是指在给定的分类体系下,根据网页的内容自动判别内容类别的过程。  相似文献   

17.
研究数据挖掘算法中的Microsoft聚类算法以及其在金融领域的应用。从海量的数据里挖掘出潜在的信息是数据挖掘的主要工作,通过对客户交易信息的过滤和挖掘,建立起为银行更好地提供智能决策和建议数据挖掘商业应用实例系统。系统的客户端开发选择的是Visual Studio.NET 2008,并使用ADOMD.NET对象及Web控件对模型的结果进行输出展示。用户可以应用这个系统通过输入客户的一些个人属性以及办理业务的基本情况,查看所关心的信誉情况、业务的办理趋向、银行开展新业务的趋向等信息。在整个实例系统的构建过程中,对聚类分析模型的挖掘过程进行了详细的分析,促进了数据挖掘的应用实践。  相似文献   

18.

While the Internet and World Wide Web have put a huge volume of low-quality information at the easy access of an information gathering system, filtering out irrelevant information has become a big challenge. In this paper, a Web data mining and cleaning strategy for information gathering is proposed. A data-mining model is presented for the data that come from multiple agents. Using the model, a data-cleaning algorithm is then presented to eliminate irrelevant data. To evaluate the data-cleaning strategy, an interpretation is given for the mining model according to evidence theory. An experiment is also conducted to evaluate the strategy using Web data. The experimental results have shown that the proposed strategy is efficient and promising.  相似文献   

19.
Web挖掘是针对包括Web页面内容、页面之间的结构、用户访问信息等在内的各种Web数据.应用数据挖掘的方法.提取抽象的、潜在的有用的知识。本文通过对远程教学系统中Web挖掘应用的分析。着重介绍了Web访问挖掘基本流程.并总结了web挖掘结果在远程教学系统中的重要作用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号