首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
Web用户访问多是匿名访问,Web日志挖掘的主要目标是从Web访问记录中抽取用户行为模式,通过分析挖掘结果理解用户的行为,从而改进站点的结构.Web日志挖掘第一步是进行数据预处理.数据预处理是Web页面分析中最耗时的阶段,首先研究了数据预处理的过程,包括数据清洗、用户识别、会话识别、路径补充.提出了一种路径补充的算法,...  相似文献   

2.
Web访问挖掘的预处理技术的研究   总被引:1,自引:1,他引:1  
Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务期日志数据格式的分析,对会话概念进行了形式化描述,然后在分析目前会话构造算法的基础上,提出了基于时间和引用的启发式方法来构造会话。  相似文献   

3.
Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务期日志数据格式的分析,对会话概念进行了形式化描述,然后在分析目前会话构造算法的基础上,提出了基于时间和引用的启发式方法来构造会话。  相似文献   

4.
Web日志挖掘可以使我们发现Web用户潜在的使用规律和模式。为了将存在着缺失、错误、噪音的原始Web日志数据转化为可靠、完整、准确的用户访问事务数据库,数据预处理工作是十分关键和重要的一步。文章就Web日志挖掘的预处理模型进行了深入的研究,并将其应用到实际日志数据预处理中,得到了理想的结果。  相似文献   

5.
一个基于XML的WEB数据收集模型的研究   总被引:15,自引:0,他引:15  
目前研究的热门领域Web数据挖掘是从WWW资源上抽取信息(或知识)的过程,是对Web资源中蕴含的、未知的、有潜在应用价值模式的提取。其一般的过程可表示为:信息的发现、信息的选择和预处理、分析过程、产生结果犤1犦。WEB上的数据收集是对WEB数据挖掘的一种支持技术,是WEB数据挖掘的第一步。该文提出了一种基于XML技术的WEB数据收集模型,并实现了其中的一些主要功能。同时针对模型系统的不足做了一些有意义的改进探索。  相似文献   

6.
Web日志信息的预处理是Web日志挖掘任务中的重要阶段,是整个Web日志挖掘过程的基础和实施有效挖掘算法的前提,在Web日志挖掘中起着重要的作用,也是工作量较大的一部分。数据预处理的基本技术,包括数据清理、数据集成和转换、数据归约等。本文介绍了数据预处理中涉及到的数据清理、用户识别、会话识别、路径补充、事务识别等过程,并提出了一种路径补充算法。  相似文献   

7.
在Web日志挖掘的过程中,数据预处理是整个Web日志挖掘过程的基础,其直接影响了日志挖掘的质量和结果.由于目前大多数网页都采用框架模式,而传统的预处理技术并没有针对frame页面进行过滤,即使过滤,也会导致页面结构的混乱,从而不能够为路径补充提供正确的信息.基于此,本文提出一种基于重构网站结构的Web日志挖掘数据预处理方法以及基于它的路径补充方法.  相似文献   

8.
数据预处理是整个Web使用挖掘过程的基础和实施有效挖掘算法的前提,在Web使用挖掘中起着重要的作用。论述数据预处理在Web使用挖掘中的重要性,详细分析Web使用挖掘数据预处理过程.在数据预处理的每个阶段给出一些规则并针对这些规则设计相应的预处理算法。  相似文献   

9.
Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础。在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法。在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息。实验证明,这种方法具有很好的准确率及召回率。  相似文献   

10.
Web日志挖掘中的数据预处理技术研究   总被引:30,自引:0,他引:30  
赵伟  何丕廉  陈霞  谢振亮 《计算机应用》2003,23(5):62-64,67
在Web数据挖掘研究领域中,Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用。文中深入探讨了数据预处理环节的主要任务,并介绍这个过程中一些特殊情况的处理方法。  相似文献   

11.
基于信息过滤后的Web内容挖掘   总被引:4,自引:0,他引:4  
Internet的迅速发展,使得worldwideweb已经成为一个巨大的、蕴含着具有潜在价值知识的分布式信息空间,为Web挖掘研究提供了丰富的资源的同时也提出了新的挑战。该文首先论述了Web内容挖掘技术的挖掘原理和所面对的困难,然后介绍了信息过滤技术的规则以及过程。最后提出了基于信息过滤的Web内容挖掘的系统方案,较好地解决了当前Web内容挖掘中准确度不高、冗余性大的缺陷。  相似文献   

12.
随着信息技术的发展,web挖掘技术已成为数据挖掘技术的研究热点。本文针对Web挖掘中数据库环境的异构和信息半结构化等难题,提出了一个Webservices框架下的Web挖掘实现方案,使用XML关键技术对异构信息进行包装,使之成为统一的数据模式,从而可以采用数据挖掘技术从海量异构信息中提取出更加有用的信息。  相似文献   

13.
初探数据挖掘技术在Web中的应用   总被引:1,自引:0,他引:1  
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。随着互联网的飞速发展,Web上的数据量急剧膨胀,但是其中蕴含的知识却未能得到充分的挖掘和利用,因此将传统的数据挖掘技术和Web结合起来,进行Web数据挖掘成为数据挖掘技术研究的热点。  相似文献   

14.
基于web挖掘的用户服务研究   总被引:3,自引:0,他引:3  
数据丰富而知识贫乏导致了知识发现和数据挖掘领域的出现。基于Web的数据挖掘,是从Web海量的数据中自动、智能地抽取隐藏于这些数据中的知识,分析了Web挖掘技术的概念、特点、技术等。根据Web数据挖掘最流行的分类,可以分为Web内容挖掘、Web结构挖掘和Web使用记录挖掘。其中Web使用挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理。该文根据Web数据挖掘的最近研究状况,主要论述了一个更新的频繁路径集的挖掘浏览模式在Web用户个性化服务中的应用,同时,还对发现的知识讨论了其在在线服务中的应用并给出了相应算法。  相似文献   

15.
每个网页中都存在许多超链接,很多网页的有用信息都存在于超链接中,如何有效地获取这些超链接成为Web挖掘的一个重要步骤。提出了利用HTMLParser开源工具实现Web页面解析,提取网页的超链接,从而获取有用信息,为下一步开发搜索引擎做准备。  相似文献   

16.
基于本体的Web文本挖掘与信息检索   总被引:1,自引:0,他引:1       下载免费PDF全文
艾伟  孙四明  张峰 《计算机工程》2010,36(22):75-77
针对传统Web文本挖掘技术缺少语义理解能力的不足,提出并实现一种基于本体的Web文本挖掘模型,即利用基于本体概念体系的向量空间模型替代传统的向量空间模型来表示文档,在此基础上进行Web文本挖掘,并给出一种集成语义信息检索的设计。实验结果初步验证了本体模型在Web文本挖掘技术上应用的可行性。  相似文献   

17.
殷彬  杨会志 《微机发展》2011,(9):111-113,117
在Web数据挖掘中,由于网页大多都含有指向其他页面的超链接等噪音信息,为了减少噪音信息对Web数据挖掘效果的影响,有必要对网页进行净化处理,提取其中的正文,同时,现实中很多网页的代码结构不是特别规范,对此,提出一种对灵活结构网页适用的正文抽取算法。将网页用HTML标签分割成节点形式,找出其中含有正文内容的一个节点,以此节点为基础向前和向后进行余下正文内容的抽取。实验结果表明,本算法的适用性强、正确率较高。  相似文献   

18.
由于互联网上存在大量的信息资源,Web挖掘已成为数据挖掘的热点。本文介绍Web数据挖掘技术,比较HTML和XML的不同,充分利用XML的优越性,提出一种基于XML的数据挖掘模型,并详细论述该模型的特点及用途。  相似文献   

19.
Internet上个性化信息的重组与发布是Web个性化技术的一个重要组成部分,这一领域目前存在的主要问题是:并非没有信息重组和发布的工具,而是缺乏能够使这类工具高效工作的支持技术。本文提出一种将流数据处理技术引入Web点击流、IP地址流及页面文本流挖掘和分析过程,研究基于Web数据流挖掘的用户行为和需求分析方法;将本体和领域知识引入Web内容挖掘过程,研究领域知识指导下的Web内容挖掘方法;将基于Web数据流挖掘的用户行为和需求分析与领域知识指导下的Web内容挖掘相结合,研究Internet上Web信息模式和Web用户模型及其相互关系的建立;将上述研究成果应用于实际,以期达到高效地支持Internet上满足用户个性化要求的信息重组与发布的目的。  相似文献   

20.
熊忠阳  蔺显强  张玉芳  牙漫 《计算机工程》2013,(12):200-203,210
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号