首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
Web挖掘技术研究   总被引:10,自引:0,他引:10  
吉根林  孙志挥 《计算机工程》2002,28(10):16-17,146
对Web挖掘技术作了全面论述,介绍了Web挖掘的分类和应用,给出了Web数据模型,探讨了Web内容挖掘,Web结构挖掘以及Web日志挖掘的基本思想和方法。  相似文献   

2.
基于Web的数据挖掘研究综述   总被引:4,自引:0,他引:4  
基于Web数据挖掘是一个结合了数据挖掘和WWW的热门研究主题。文章介绍了Web数据挖掘最流行的分类;Web内容挖掘,Web结构挖掘和Web使用记录挖掘,根据Web数据挖掘的最近研究状况,总结了几个研究热点,并介绍了一个Web使用记录挖掘的框架WebSIFT.  相似文献   

3.
周勇  刘锋 《微机发展》2008,18(3):151-153
Web站点是由许多Web页面构成的信息系统,随着网络的飞速发展,Web挖掘得到了越来越多的研究。如何从Web中找到与用户查询主题相关的权威页面,是Web结构挖掘的一个重要研究方向。粗糙集理论作为一种有效处理模糊和不确定信息的数学工具,由于其不需要任何先验知识,在数据挖掘领域取得了广泛的应用。文中概述了Web结构挖掘的有关概念,基于粗糙集理论,定义了Web结构挖掘的数据模型,并给出了基于粗糙集的Web结构挖掘的实现流程,分析说明了该方法的性能。  相似文献   

4.
Web站点是由许多Web页面构成的信息系统,随着网络的飞速发展,Web挖掘得到了越来越多的研究.如何从Web中找到与用户查询主题相关的权威页面,是 Web结构挖掘的一个重要研究方向.粗糙集理论作为一种有效处理模糊和不确定信息的数学工具,由于其不需要任何先验知识,在数据挖掘领域取得了广泛的应用.文中概述了Web结构挖掘的有关概念,基于粗糙集理论,定义了Web结构挖掘的数据模型,并给出了基于粗糙集的Web结构挖掘的实现流程,分析说明了该方法的性能.  相似文献   

5.
介绍了一种Web挖掘的分类,包括Web内容挖掘、Web结构挖掘和Web使用挖掘。讨论了Web使用挖掘过程的三个步骤,即数据获取与数据预处理、模式发现和模式分析,详细分析了每一个步骤中所使用的技术。指出了目前Web使用挖掘研究存在的不足,给出了Web使用挖掘未来的研究方向。  相似文献   

6.
Web文本挖掘及特征选择   总被引:11,自引:0,他引:11  
文章介绍了Web挖掘的有关理论,从Web文本挖掘的定义,Web文本挖掘任务的功能等方面加以阐述,然后重点分析了Web文本挖掘,文本的特征表示,特征选择,将多维文本分析与文本挖掘这两种技术有机地结合起来,快速,有效地挖掘Web上的HTML文档,最后,概述了Web文本挖掘的用途和前景。  相似文献   

7.
本文讨论了Web的特点,介绍了Web挖掘的概念,给出了Web挖掘研究的三种分类:Web内容挖掘、Web结构挖掘、Web使用记录挖掘.并以搜索引擎为重点说明了Web挖掘技术的应用。  相似文献   

8.
朱德利 《计算机工程与设计》2006,27(23):4447-4449,4460
XML适合于解决Web数据挖掘中数据库环境异构和信息的半结构化等难题。Web结构挖掘是整个Web信息挖掘的重要组成部分。用XML来完成Web结构信息的预处理是将Web结构信息规范化并转化为XML数据,并以此明确网站的文件构成、组织方式、内容构成和内容的超链关系。提出基于XML的Web结构挖掘系统的实现过程,解决了XML文件通过标准接口读入到挖掘程序的关键技术。  相似文献   

9.
Web数据挖掘系统的设计及实现研究   总被引:9,自引:4,他引:9  
在全球信息化进程中,信息超载已经成为一个大问题。Web上信息虽多,但想找到需要的信息却很困难。人们通过点击和搜索引擎与Web进行交互,但是都不能从中准确快捷地获取需要的信息,Web数据挖掘技术就是解决此问题的好方法。讲述了Web数据挖掘的基本理论,根据挖掘对象的不同将其划分为Web内容挖掘、Web链接结构挖掘和Web访问信息挖掘;利用HTML网页的特殊结构性质,提出了一种Web数据挖掘系统的通用框架,并讨论了一些实现的具体技术。  相似文献   

10.
基于改进的模糊聚类算法的Web日志挖掘   总被引:1,自引:1,他引:0  
Web日志挖掘是Web数据挖掘领域中的一个重要研究方向,是通过对Web日志记录的挖掘发现用户访问Web页面的浏览模式用以改进Web站点的性能和组织结构。在介绍Web日志挖掘的原理和技术的基础上对Web日志挖掘中的聚类技术进行了分析研究,并重点讨论了有关模糊聚类算法的原理及计算过程,对这一算法进行了改进后的优化和应用,最后用实例对算法加以验证。  相似文献   

11.
基于网页结构树的Web信息抽取方法   总被引:9,自引:1,他引:9  
陈琼  苏文健 《计算机工程》2005,31(20):54-55,140
提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构树的树叶结点信息的查找。实验证明,该方法具有较强的网页信息抽取能力。  相似文献   

12.
The Paper emphasizes relativity between Web usage mining and the application of Web site structure and content.It has shown that the amount of effort involved in processing and quantifying the structure and content of a Web site is well worth in performing Web usage mining.The necessity of combining Web site structure and content with Web usage mining process is further proved.  相似文献   

13.
为了更加合理地组织Web服务器的结构,使用户能及时快速地浏览到自己所需的网页信息,借鉴专家系统的不确定性推理方法——主观Bayes方法,提出了网页链接的可信度思想,并给出了网页链接的可信度因子模型。该模型可以定期、定时地根据Internet用户浏览的Web日志记录,动态地改善Web服务器的结构,从而实现基于用户浏览兴趣的网页链接结构的改进。  相似文献   

14.
Web数据挖掘(Web Data Mining),是数据挖掘技术在Web环境下的应用,是从大量的Web文档集合和在站点内进行浏览的相关数据中发现潜在的、有用的模式或信息。Web结构挖掘即使用Web的结构来发现相关信息。介绍了Web数据挖掘及Wed结构挖掘的相关概念,以及.NET的框架结构,并举例与ASP.NET相结合来实现Web结构挖掘的功能。  相似文献   

15.
针对网页非结构化信息抽取复杂度高的问题,提出了一种基于网页分割的Web信息提取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本提取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。  相似文献   

16.
Web结构挖掘是对Web的链接结构进行分析。该文概述Web结构挖掘技术。列举其常见算法。并对PageRank和HITS这两种最重要的Web结构挖掘算法分析比较。通过对算法规律的研究,指出在网站设计规划时的策略以提高网站的价值。  相似文献   

17.
为了提高目前爬虫算法抓取结果的有效性, 提出了一种旨在获取有效信息的改进网络爬虫算法, 主要设计了信息的分层结构保留策略和URL过滤模式。在改进算法中, 网络资源定位符被分层存储, 在保留信息全部拓扑关系的基础上, 将交错复杂的URL网络系统从一个图结构变为一个层次分明的树结构。在执行结构模式下, 实现了增量爬虫算法。仿真实验以实际网站的BBS为测试数据, 结果表明, 改进算法比现有网络爬虫算法在爬行速度、下载效率与信息有效性等方面有较大的优势。因此, 分层结构策略与URL过滤模式可以在增加少量计算时间的前提下极大提高爬虫抓取页面的有效性。  相似文献   

18.
基于数据区域发现的信息抽取规则生成方法   总被引:2,自引:2,他引:0       下载免费PDF全文
提出一种自动检测网页中数据记录结构特点并生成Web信息抽取规则的方法,以网页DOM树为基础,自动发现和分离Web数据区域所对应的DOM子树,将其分解为数据记录子树集合,综合数据记录子树的结构特点生成抽取规则。实验结果显示,该方法具有较高的抽取准确率和查全率。  相似文献   

19.
Web结构挖掘是对Web的链接结构进行分析。该文概述Web结构挖掘技术,列举其常见算法。并对PageRank和HITS这两种最重要的Web结构挖掘算法分析比较。通过对算法规律的研究,指出在网站设计规划时的策略以提高网站的价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号