首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
Web数据挖掘   总被引:30,自引:4,他引:26  
王实  高文 《计算机科学》2000,27(4):28-31
Web Mining is an important branch in Data Mining.It attracts more research interest for rapidly developing Internet. Web Mining includes(1)Web Content Mining;(g)Web Usage Mining;(3) Web structure Mining.In this paper we define Web Mining and present an overview of the various research issues,techniques and development efforts.  相似文献   

2.
Web挖掘系统的设计与实现   总被引:3,自引:2,他引:3  
陈建华  包煊 《计算机工程》2002,28(8):141-142,151
介绍了Web挖掘理论,包括Web挖掘定义、Web挖掘任务、Web挖掘分类3个方面,并简单介绍了实现Web文本挖掘系统WTMiner(Web Text Miner)的几个关键技术:分词,特征提取,分类器的设计。在分词中采用了支持首字Hash和二分查找了 从而提高了分词速度,分类器的设计中考虑到SVM的训练算法速度慢的缺点,用近邻法以减少训练样本集中样本的数量,从而大大提高了算法速度。  相似文献   

3.
Web数据挖掘   总被引:52,自引:1,他引:51  
王实  高文 《计算机科学》2000,27(4):28-31,41
1 引言当前WWW正在深度和广度方面飞速地发展着,Internet也正在前所未有地改变我们的生活。WWW上的一些主要工作,例如Web站点设计、Web服务设计、Web站点的导航设计、电子商务等工作正变得越来越复杂和越来越繁重。从站点经营方来说,他们需要好的自动辅助设计工具,可以根据用户的访问兴趣、访问频度、访问时间动态地调整页面结构,改进服务,开展有针对性的电子商务以更好地满足访问者的需求。从访问者来说,他们希望看到的是个性化的页面,希望得到更好的满足各  相似文献   

4.
Web数据挖掘     
用户访问数据中往往存在大量无用或与当前信息挖掘无关的数据,我们通过数据清洗从挖掘对象中去除不相关的数据,并实现了用户识别、会话识别、格式化等步骤,对WEB信息进行预处理,为进一步的操作提供了较好的数据格式,提高了挖掘效率。同时,因特网上的信息往往具有非结构化或半结构化特性,难以得到传统数据挖掘技术的支持,我们通过事务识别技术解决了这一问题,将访问序列组织成逻辑单元以表示事务或用户会话,将所有事务组成一个事务数据库,识别出事务后就可以利用对传统数据挖掘的方法对WEB数据进行挖掘:事务识别技术有多种实现形式,不同形式有不同的应用场合,本文根据特定挖掘任务,实现了以时间维来分割事务的算法,并给出了一些实验数据。  相似文献   

5.
基于CORBA的Web数据挖掘工具的设计及应用   总被引:4,自引:0,他引:4  
利用高效的数据挖掘工具从网上丰富的资源中提取有效的数据对商家显得很重要,基于CORBA的Web数据挖掘工具能挖掘潜在的、有用的信息,帮助商家发掘潜在的市场,提高商家的竞争力。  相似文献   

6.
提出一种用BN实现Web数据挖掘的方案,并给出相应的框架、模型和仿真实验。  相似文献   

7.
Web挖掘研究综述   总被引:25,自引:0,他引:25  
1 引言今天Web已成为信息发布、交互及获取的主要工具,Web上的信息量正以惊人的速度增加着,人们迫切需要能自动地从Web上发现、抽取和过滤信息的工具。同时,近年来,由于电子商务的快速发展,许多公司借助Internet进行在线交易,企业管理者需要分析大量的在线交易数据,从而发现用户的兴趣爱好及购买趋势,为商业决策风险投资等提供依据。具体来讲,当我们与Web交互时,常面临如下问题: 1.查询相关信息。这是查询触发的过程,我们希望从Web上找到关于VC~++编程指南的书,关于申办奥运会的信息,甚至关于爱滋病的报道等等。可以用搜索引擎如Yahoo Sohu等进行关键字查找,然而,今天的搜索引擎都有两个严重问题:低查准率会返回很多不相关的结果;低查全率有很多相关的文档找不到。  相似文献   

8.
Web数据挖掘中的数据预处理   总被引:11,自引:0,他引:11  
Web数据挖掘是分析网络应用的主要手段,其数据源一般是网络服务器日志,然而日志记录的是杂乱的,不完整的,不准确的并且是非结构化的数据,必须进行数据预处理。文章将预处理过程分为3个阶段-数据清洗、区分使用者,会话识别,并提出了一个高效的Web数据挖掘预处理结构WLP和相应的算法。  相似文献   

9.
Web挖掘研究   总被引:285,自引:4,他引:285  
因特网目前是一个巨大,分布广泛,全球性的信息服务中心,它涉及新闻,广告,消费信息,金融管理,教育,政府,电子商务和许多其它信息服务,Web包含了丰富和动态的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供了丰富的资源,Web挖掘就是从Web活动中抽取感兴趣的潜在有用模式和隐藏的信息,对Web挖掘最新技术及发展方向做了全面分析,包括Web结构挖掘,多层次Web数据仓库方法以及W eb,Log挖掘等。  相似文献   

10.
Web数据挖掘中的增量挖掘   总被引:5,自引:2,他引:5  
为了高效及时地处理频繁新增的数据,在Web挖掘中引入增量挖掘的方法,并给出了一个Web关联规则增量挖掘的有效算法。  相似文献   

11.
Web上的数据量急剧膨胀使得进行Web数据挖掘成为数据挖掘技术研究的热点.而XML能够为Web挖掘提供半结构化的数据模型,解决了Web挖掘中的数据源问题.介绍了XML的和Web文本挖掘的概念,提出了一种基于XML的Web文本挖掘模型,剖析了该模型的各个组成部分,给出了该模型的特点.  相似文献   

12.
从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法.该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文.整个处理过程不依赖DOM树型结构,克服了基于DOM树结构进行正文抽取方法的性能缺陷.实验结果表明,对于维文各类型的网页正文提取,该方法均具有较高的准确度度和较好通用性.  相似文献   

13.
企业智能化Web商务数据挖掘引擎算法设计与实现   总被引:4,自引:0,他引:4  
针对现有的数据挖掘引擎难以满足企业不断增长的需求的问题,在传统搜索引擎的基础上提出了一种企业专用的智能化Web商务数据挖掘引擎.从总体上给出了模型框架,得出企业智能化Web商务数据挖掘引擎是一个基于多模型的系统的结论.接着分别详细研究了该引擎的:Web内容挖掘、Web信息获取、客户行为挖掘3个核心模块.并给出了3个模块的详细算法设计和实现过程  相似文献   

14.
明德廷  李娟  尹怡欣 《计算机工程与设计》2007,28(9):1995-1997,2065
数据挖掘是从海量数据中发现有意义的模式和规则的一项关键技术.国内很少有商家使用数据挖掘来辅助商业决策.给出了基于Web Service的数据挖掘系统结构及实现方案;描述了一个基于Web Service的数据挖掘系统原型,进一步说明了所提出的系统结构具有较高的效率、可信度、可实施性和安全性.  相似文献   

15.
基于Web挖掘的个性化技术研究   总被引:25,自引:5,他引:20  
针对用户特性向用户提供个性化服务已经成为Web技术的研究热点。Web挖掘是实现Web个性化服务的关键技术之一。研究了Web挖掘技术,阐述了Web挖掘技术存在的不足,并对应用Web挖掘技术实现个性化服务的发展前景进行了分析。  相似文献   

16.
数据挖掘在Web智能化中应用研究   总被引:3,自引:9,他引:3  
分析了Web信息的特点和目前开发利用的局限,提出在Web上采用数据挖掘技术即Web挖掘,促进web智能化的观点。全面阐述了Web挖掘在Web智能化中的几个重要应用。指出Web挖掘是Web技术中一个重要的研究领域,是发现蕴藏在web上知识、区分权威链接、理解用户访问模式和网页语义结构的关键,它使充分利用Web大量的真正有价值的信息成为可能,为智能化Web奠定了基础。  相似文献   

17.
随着Web上信息的快速增长,如何将潜藏于非结构化文档中的商业信息有效提取并分析服务于商业管理已成为新的研究热点。利用现有的Web信息挖掘技术,针对原始数据的混合异构性,提出信息块多主题分割的方法,在建立的商业领域实体名字典指导下对商业信息进行抽取和分类,并引入一种信用评级机制,构造了一个基于Web信息挖掘的商业信息分析系统(CABWIM),实验结果表明系统能有效地将散落在Web中游在的商业信息抽取并加工整理,形成真正有实用价值的商业信息。  相似文献   

18.
基于Web挖掘的个性化远程教育系统研究   总被引:1,自引:0,他引:1  
针对现在网络远程教育存在的系统教育模式单一问题,通过介绍Web挖掘在远程教育系统中的应用,指出了Web挖掘的基本过程和关键技术,提出了一种基于Web挖掘的个性化远程教育服务系统模型,重点论述了应用Web挖掘进行个性化远程教育服务系统的体系结构及其个性化引擎实现.实践证明基于Web挖掘技术在远程学习系统中的应用提高了学习系统的个性化服务水平,为系统的决策分析提供了智能的辅助手段.  相似文献   

19.
基于XML的Web数据挖掘模型的设计   总被引:4,自引:0,他引:4  
目前很多网站都是用HTML构建的,要真正做到高效准确的挖掘数据非常困难,XML的出现为基于Web的数据挖掘带来了便利.在研究Web数据挖掘技术的基础上,利用XML数据抽取技术将半结构化数据映射为结构化数据,建立了一个具有基本挖掘功能的面向多种Web数据的挖掘系统模型Web_mining.最后将Agent技术引入数据挖掘,提出了一种基于Agent技术的体系结构,用来实现大容量的数据在分布式存放情况下的数据挖掘,并对基于Web的数据挖掘技术进行深入的研究和探讨.  相似文献   

20.
Web结构挖掘中HITS算法改进的研究   总被引:2,自引:0,他引:2  
随着Internet技术的发展,Web网页成为人们获取信息的有效途径,Web数据挖掘逐渐成为国内外研究的热点。基于Web结构挖掘中HITS算法只考虑页面之间的链接关系而忽视了页面的具体内容,在这种情况下容易出现主题偏离[1]现象,影响了搜索结果,为了抑制主题偏离现象,本文把超链接信息检索方法与页面内容相结合,提出了一种改进的算法。实验结果证明改进的算法较原算法具有较好的效果,有效的抑制了主题偏离现象,具有一定的实用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号