首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
为了提高网站的利用率及优化网站,构建了Web数据流挖掘系统,介绍了该系统的框架结构,并以商丘师范学院校园网为挖掘对象,说明了Web数据流挖掘的工作流程以及Web资源服务的具体实现流程。实践证明,基于Web数据流挖掘技术实现Web资源服务,可充分利用Web网站的信息和网络资源,实时、高效地为用户提供个性化的Web资源服务。  相似文献   

2.
Web数据挖掘(Web Data Mining),是数据挖掘技术在Web环境下的应用,是从大量的Web文档集合和在站点内进行浏览的相关数据中发现潜在的、有用的模式或信息。Web结构挖掘即使用Web的结构来发现相关信息。介绍了Web数据挖掘及Wed结构挖掘的相关概念,以及.NET的框架结构,并举例与ASP.NET相结合来实现Web结构挖掘的功能。  相似文献   

3.
Web挖掘常常被分成Web内容挖掘、Web结构挖掘和Web使用挖掘三类。Web使用挖掘又称为Web日志挖掘,是指从万维网用户的导航行为中发现有价值的信息的一种数据挖掘技术。Web日志挖掘一般有4个步骤:数据预处理、挖掘过程、模式分析和知识发现。数据预处理是对网站日志文件中的数据进行整理,清洗不完全的、杂乱的、噪声数据;模式分析是指提取用户不感兴趣的信息,并找到用户感兴趣的模式的过程;知识发现是指从日志文件中收集并发现有用知识的统计。主要介绍Web日志挖掘与Web结构挖掘相结合来完成挖掘过程及其应用。  相似文献   

4.
基于web挖掘的用户服务研究   总被引:3,自引:0,他引:3  
数据丰富而知识贫乏导致了知识发现和数据挖掘领域的出现。基于Web的数据挖掘,是从Web海量的数据中自动、智能地抽取隐藏于这些数据中的知识,分析了Web挖掘技术的概念、特点、技术等。根据Web数据挖掘最流行的分类,可以分为Web内容挖掘、Web结构挖掘和Web使用记录挖掘。其中Web使用挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理。该文根据Web数据挖掘的最近研究状况,主要论述了一个更新的频繁路径集的挖掘浏览模式在Web用户个性化服务中的应用,同时,还对发现的知识讨论了其在在线服务中的应用并给出了相应算法。  相似文献   

5.
国内Web数据挖掘研究综述   总被引:1,自引:0,他引:1  
Web数据挖掘是建立在数据挖掘理论的基础之上的,在庞大的Internet信息源上快速获取有用信息。目前在世界范围内对Web数据挖掘的研究尚处于初级阶段,与国外相比,我国对Web挖掘的研究相对较晚。试图对国内关于Web数据挖掘的研究与应用现状进行综述性地介绍,在把握当前研究现状的基础上,明确今后主要的研究方向与重点问题。  相似文献   

6.
基于Web的数据挖掘技术   总被引:4,自引:0,他引:4  
对Web数据挖掘技术的国内外研究成果进行了评价.阐述了Web数据挖掘的流程及其特点,针对Web内容挖掘、Web结构挖掘、Web使用挖掘的方法及实现技术分别进行了讨论分析,介绍了Web数据挖掘的典型应用,并对该领域进一步研究的问题进行了展望。  相似文献   

7.
Web使用模式挖掘技术在网站营销中的应用   总被引:2,自引:0,他引:2       下载免费PDF全文
王玉珍 《计算机工程》2006,32(18):55-57
Web使用模式挖掘是Web数据挖掘的重要内容之一,其应用领域非常广泛。将Web数据挖掘技术应用于电子商务网站的营销中,可发现许多有用的信息,有效地使用这些信息可促进电子商务网站的发展。  相似文献   

8.
Web数据挖掘系统的设计及实现研究   总被引:9,自引:4,他引:9  
在全球信息化进程中,信息超载已经成为一个大问题。Web上信息虽多,但想找到需要的信息却很困难。人们通过点击和搜索引擎与Web进行交互,但是都不能从中准确快捷地获取需要的信息,Web数据挖掘技术就是解决此问题的好方法。讲述了Web数据挖掘的基本理论,根据挖掘对象的不同将其划分为Web内容挖掘、Web链接结构挖掘和Web访问信息挖掘;利用HTML网页的特殊结构性质,提出了一种Web数据挖掘系统的通用框架,并讨论了一些实现的具体技术。  相似文献   

9.
Web数据挖掘是将数据挖掘技术和理论应用于对WWW资源进行挖掘的一个新兴的研究领域,该文介绍了Web数据挖掘的基本概念,并给出Web数据挖掘的基本方法,最后指出Web数据挖掘的用途。  相似文献   

10.
基于用户访问树的Web日志挖掘数据预处理   总被引:1,自引:0,他引:1  
刘加伶  范军 《计算机科学》2009,36(9):154-156
在Web日志挖掘中数据预处理是整个挖掘过程的基础,直接影响日志挖掘的质量和结果.提出了一种基于用户访问树的Web日志挖掘数据预处理方法,该方法在处理过程中根据Web日志建立用户访问树,并利用用户访问树进行用户和事务识别,从而可以在缺乏网站拓扑结构的情况下准确地对Web日志进行预处理.  相似文献   

11.
基于网页文本结构的网页去重   总被引:1,自引:0,他引:1  
魏丽霞  郑家恒 《计算机应用》2007,27(11):2854-2856
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。 针对网页重复的特征和网页文本自身的特点,提出了一种动态的网页去重方法。该方法通过将网页的正文表示成目录结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。实验证明,该方法对全文重复和部分重复的网页都能进行准确的检测。  相似文献   

12.
一种互联网信息智能搜索新方法   总被引:10,自引:1,他引:9  
提出了一种互联网信息智能搜索新方法。该方法能够从组织结构和内容描述类似的同类网站中,准确有效搜索出隐藏于其内部的目标网页。为此它采用了将网页间相互关联特征与网页内容特征描述有机结合而形成的一种新的搜索知识表示方法。基于这种知识表示方法及其所表示的知识;该智能搜索方法不仅能够对风站中网页进行深度优先的智能搜索,而且还能够通过对其搜索过程和结果的自学习来获取更多更好的搜索知识。初步实验结果表明,这种智能搜索新方法在对同类型网站的目标网页搜索中具有很强的深度网页搜索能力。  相似文献   

13.
用Naive Bayes方法协调分类Web网页   总被引:41,自引:0,他引:41  
范焱  郑诚  王清毅  蔡庆生  刘洁 《软件学报》2001,12(9):1386-1392
WWW上的信息极大丰富,如何从巨量的信息中有效地发现有用的信息,是亟待解决的问题,而Web网页的正确分类正是其中的核心问题.针对超文本结构中的结构特征,提出了用NaiveBayes方法协调分别利用超文本页面中的文本信息和结构信息进行分类的方法.经实验验证,与只用单种方法对超文本进行分类的方法相比,综合分类法有效地提高了分类的正确率.  相似文献   

14.
基于正文结构和长句提取的网页去重算法*   总被引:3,自引:0,他引:3  
针对网页重复的特点和网页正文的结构特征,提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法通过将网页正文表示成正文结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。特征提取利用长句提取算法保证了强鲁棒性。实验证明,该方法对镜像网页和近似镜像网页都能进行准确的检测。  相似文献   

15.
PH-MaxFlow算法发现Web社区   总被引:1,自引:0,他引:1       下载免费PDF全文
HITS是一种经典的利用链接技术计算网页权威值和中心值的算法,它能够快速发现主题相关网页,其缺点是会发生“主题偏移”现象,首先提出PHITS算法,在一定程度上抑制了这种现象的发生。运用该方法提取权威值高的页面,作为PH-MaxFlow算法的种子节点,使得发现的Web社区更精确。同时提出了一种有效的评价Web社区的标准,用这个标准对原始最大流算法和提出的PH-MaxFlow算法进行比较,从而得出PH-MaxFlow算法发现的Web社区与主题更相关。  相似文献   

16.
Web结构挖掘中基于熵的链接分析法   总被引:1,自引:0,他引:1  
王勇  杨华千  李建福 《计算机工程与设计》2006,27(9):1622-1624,1688
在Web结构挖掘中,传统的HITS(hyperlinkinducedtopics search)算法被广泛应用来寻找搜索引擎返回页面中的Auto-rity页面和Hub页面.但是在网站中除了有价值的页面内容外,还有很多与页面内容无关的链接,如广告、链接导航等.由于这些链接的存在,应用HITS算法时就会导致某些广告网页或无关网页获得较高的Authority值和Hub值.为了解决这个问题,在原有HITS算法的基础上,引入了香农信息熵的概念,提出了基于熵的网页链接分析方法来挖掘网页结构.该算法的核心思想是用信息熵来表示链接文本所隐含的知识.  相似文献   

17.
随着Internet的迅猛发展,Web成为了人们获取信息的重要途径。但是,网页数量的与日剧增,信息量的爆炸式增长,也为人们的信息查询带来了不便。Web数据挖掘技术的引入提高了检索质量,特别是Web结构挖掘在搜索引擎中的应用,很好地帮助用户快速从搜索结果中锁定对自己真正有用的信息。本文对基于结构挖掘的排序算法进行了大量搜集分析,并进行了归纳总结。  相似文献   

18.
基于DOM模型扩展的Web信息提取   总被引:5,自引:0,他引:5  
顾韵华  田伟 《计算机科学》2009,36(11):235-237
提出了一种基于DOM模型扩展的Web信息提取方法.将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容.该方法不要求对网页的结构有预先认识,具有自动和通用的特点.提取结果除可以直接用于Web浏览外,还可用于互联网数据挖掘、基于主题的搜索引擎等应用中.  相似文献   

19.
提出了一种从复杂网页中发现和切分有用的数据对象的自动方法。文章比较来自于同一网站的相似网页,从而发现其内容的组织和结构。首先,通过剔除页面中无关的部件,获得干净的数据区,它覆盖了数据对象的描述。其次,我们切分数据区中属于不同数据对象的结点,并由此构造结构良好、具备自我解释能力的XML输出文件,其中每一个文件恰包含一个数据对象。用户可以很方便地进一步从这些文件中提取数据到数据库和模板。实验结果表明该方法是有效的。  相似文献   

20.
蒋华  殷波 《计算机应用》2009,29(2):403-405
针对重复网页的去重问题,对两种重复词句提取算法进行了系统分析比较。STC算法在时间成本上具有优秀性能,重复序列的倒排索引方法在空间复杂度方面更胜一筹。结合STC算法对重复序列方法进行了改进,而面向主题转载的重复网页,先抽取重复串,然后将重复串作索引进行STC算法的重复抽取。实验结果表明,改进算法在保持了原有空间特性的基础上极大地提高了时间效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号