共查询到19条相似文献,搜索用时 154 毫秒
1.
Web数据挖掘是当前数据挖掘的热点研究领域之一.由于Web页面数据的半结构化、不规则性和动态更新等特征,使得基于Web内容的数据挖掘研究具有一定的复杂性.本文首先简介如何从Web页面中提取半结构化数据,接着提出一种增量FP-Growth挖掘方法,使传统的FP-Growth方法适应于动态数据环境的关联规则挖掘,最后以中国汽车市场为例,挖掘消费者对不同类型、不同型号、不同价格轿车的购买偏好. 相似文献
2.
随着Internet的飞速发展及Web在全球的进一步普及,WWW上的信息量呈指数级增长。面对这一情形,研究人员开始将数据挖掘技术用于Web,从而产生了一个新的研究方向——Web挖掘。Web挖掘即是对Web文档的内容、可利用的Web资源的使用情况以及Web资源间的关系进行分析。本文分析了Web页面的半结构化特点,介绍了国内外学者针对Web页面的半结构化特点提出的用于从Web页面中提取数据的构建包装器方法。在Web数据提取领域,包装器一般就是一个从Web页面中提取数据的程序。同时介绍了作者本人的一些工作,包括一个新闻下载浏览模块和一个信息… 相似文献
3.
文本知识发现:基于信息抽取的文本挖掘 总被引:11,自引:0,他引:11
1.引言大家熟知,所谓“数据丰富但知识缺乏“的现状导致了数据挖掘(Data Mining)技术研究的兴起,数据挖掘又称数据库知识发现(Knowledge Discovery in Databases)是从海量的结构化信息中抽取或挖掘隐含信息和知识的重要方法和途径。数据挖掘技术已相当成熟。因为除了结构化的数据之外,在数字化信息中更多地存在大量自由、非结构化或半结构化的文本信息如新闻文章、电子书本、电子图书馆藏、Web页面内容、Email、文档数据库等,显然手工处理需要花费大量的人力物力,并且具有不确定性。所以出现了从文本中发现知 相似文献
4.
5.
6.
基于XML的Web数据挖掘模型的设计 总被引:4,自引:0,他引:4
目前很多网站都是用HTML构建的,要真正做到高效准确的挖掘数据非常困难,XML的出现为基于Web的数据挖掘带来了便利.在研究Web数据挖掘技术的基础上,利用XML数据抽取技术将半结构化数据映射为结构化数据,建立了一个具有基本挖掘功能的面向多种Web数据的挖掘系统模型Web_mining.最后将Agent技术引入数据挖掘,提出了一种基于Agent技术的体系结构,用来实现大容量的数据在分布式存放情况下的数据挖掘,并对基于Web的数据挖掘技术进行深入的研究和探讨. 相似文献
7.
Web日志是目前Web数据挖掘的重要研究方向。数据预处理是Web日志挖掘中的关键技术。详细的介绍了Web日志挖掘的预处理过程。数据预处理包括数据清理、识别用户、识别会话和框架页面清理、路径补充。用户识别后,框架页面降低了数据挖掘的效率,可以通过过滤框架页面大幅度减少产生的无效页面数。 相似文献
8.
Web的数据挖掘 总被引:1,自引:0,他引:1
李健 《数字社区&智能家居》2006,(32)
文章主要描述了WEB页数据挖掘的基本任务,包括内容、结构、使用等。针对Web数据的复杂性和特殊性,Web的数据挖掘除日志等一小部分可以用常用的数据挖掘方法外,必须对Web页做必要的数据处理,使之达到结构化数据的挖掘要求,或使用XML技术来构造半结构数据模式再进行数据挖掘。 相似文献
9.
基于Web的数据挖掘技术 总被引:7,自引:1,他引:7
基于Web数据挖掘是一个结合了数据挖掘和WWW的热门研究主题.本文综述了基于Web的数据挖掘技术,介绍了Web数据挖掘目前最流行的分类:Web内容挖掘、Web结构挖掘和Web访问挖掘,根据Web数据挖掘的最近研究现状,小结了几个研究热点.由于Web数据所具有的半结构化特性,使得Web数据挖掘更为复杂,不同于传统的基于数据库的数据挖掘.最后介绍一种全新的技术XML,XML的出现为解决Web数据挖掘的难题带来了机会.Web数据挖掘的研究具有极大的挑战性,同时又具有极大的开发潜力. 相似文献
10.
由于Web数据所具有的半结构化特性,使得Web数据挖掘更加复杂,不同于传统的基于数据库的数据挖掘.基于Web的数据挖掘主要分为:Web内容挖掘、Web结构挖掘和Web使用记录的挖掘.文中综述了基于Web的数据挖掘技术,并且介绍了一种全新的技术XML.XML的推广和使用,对于推动Web挖掘和知识获取具有重要的意义.如何进一步的开发Web数据挖掘,充分利用Web资源,还有待于进一步的研究.Web数据挖掘的研究具有极大的挑战性同时又具有极大的开发潜力. 相似文献
11.
计算机集成制造系统是一个围绕制造过程的复杂系统。信息在系统内部的集成及与外部系统之间的交换,都涉及到不同的支撑环境和不同的数据结构的兼容和联系问题。XML(cXtensiblc Markup Language,可扩展的标记语言)为解决跨平台信息集成提供了有效的途径。文章分析了xML的结构特点,探讨了网络环境下数据构成的特点以及信息集成的技术要求,提出了一个利用xML管理各种信息的架构,并将其应用于一个商业电子表单生成系统。 相似文献
12.
基于XML的虚拟企业信息集成架构 总被引:3,自引:1,他引:3
信息集成是建立虚拟企业的基础,本文分析,比较了现有的几种集成方案,论述了基于XML进行信息集成的优势,提出了一个集Web,XML,SOAP技术为核心的异构和分布的虚拟企业信息集成框架。 相似文献
13.
基于XML的企业信息集成平台实现及应用 总被引:16,自引:2,他引:14
随着企业可获取的信息的大量增长,信息的种类和结构也越来越丰富。从传统的关系数据库,到XML文档以及分布于Web上的大量半结构化的信息。如何把各种不同的数据源统一在一个信息集成平台上,使用户能够高效地,透明地操作各类信息,已经成为一个重要的课题。文章提出的基于XML的企业信息集成框架CII,详细讨论了该框架的设计、实现,以及在国家“九五”重点科技攻关项目:石化应用软件典型示范工程及产品开发上的应用。同时针对工业生产企业中实时数据库的大量使用,该文还专门研究了集成实时数据库信息面临的问题,并提出了相应的解决方案。 相似文献
14.
基于XML的Web内容挖掘逐渐成为Web数据挖掘的重要研究课题。论文定义了用户模型,通过三种途径建立用户模型,将XML和个性化技术应用到Web内容挖掘,设计了一个基于XML的个性化Web内容挖掘系统(PWCMS),并讨论了PWCMS的关键技术及实现。实践证明,将XML和个性化技术应用到Web内容挖掘是有效的。 相似文献
15.
基于数据挖掘的Web个性化信息推荐系统 总被引:6,自引:0,他引:6
基于数据挖掘的Web个性化信息推荐日益成为一个重要的研究课题。文章设计了一个基于数据挖掘的Web个性化信息推荐系统(WPIRS)。在WPIRS中,提出了推荐策略,在推荐策略中考虑针对不同类型的用户采用不同的推荐算法。根据用户是否有新颖信息的需求,WPIRS采用了两种推荐算法。 相似文献
16.
柯晓略 《电脑与微电子技术》2012,(16):78-80
分析基于XML的Web信息提取.讨论相关技术在Web信息抽取中的应用并建立相应的Web信息抽取模型,实现Web信息的自动提取。通过分析如何向网络上的不同网站发送HTTP请求数据包,处理响应信息,从而获得包含知识信息的HTML文档或者XML文档;并在Oracle公司的ADF框架下给出Web信息抽取模型的实现程序。 相似文献
17.
文章介绍了基于专门设计能上网浏览的网络电话机的信息服务系统(NetIS),通过普通电话线路实现对酒店客户的信息服务。以Java语言和XML技术为基础,利用专门设计的软件在服务器端完成对WAP网站资料的解析、消息处理、电子邮件收发、客户资料库的建立和与酒店其它信息管理系统的数据交换等工作,客户在客房可享受互联网和酒店内部两种服务。系统还可收集、统计、分析客户的各种习惯,为客户提供相应的个性化服务,具有使用简单方便、成本低的特点,具有较好的应用前景。 相似文献
18.
本文在分析Web数据挖掘相关理论基础上,深入探讨XML在Web数据挖掘中应用问题,利用XML和Web数据挖掘技术的结合点,提出建立基于XML的Web文本数据挖掘模型,为如何从大量的Web资源中获得有价值的知识提供了一种可行的解决方案。 相似文献
19.
由于互联网上存在大量的信息资源,Web挖掘已成为数据挖掘的热点。本文介绍Web数据挖掘技术,比较HTML和XML的不同,充分利用XML的优越性,提出一种基于XML的数据挖掘模型,并详细论述该模型的特点及用途。 相似文献