首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
基于XML的Web数据抽取方法的研究   总被引:1,自引:1,他引:0  
针对Web挖掘中Web数据的抽取问题,设计了一种基于XML的Web数据抽取方法。由于Web数据的最大特点是半结构化,所以采用XML(半结构化的数据模型)来解决传统的关系数据库不适合Web数据存储的问题,从而将XML的档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。由于Web数据的大量信息都与抽取无关,所以利用XSL过滤掉XML的无关数据,并进行实时抽取,最后将合并结果保存到XML档中。实验结果表明,此方法可以很好地解决Web数据的抽取和存储问题。  相似文献   

2.
提出了一种面向HTML或XML描述的Web数据抽取模型,首先用STOCK把Web文档从Web服务器读下来,识别Web文档的表示格式,若是HTML格式,则先把HTML数据转换成XHTML(XML的子集)格式,然后对Web页进行修复后合并形成系列XML文档并存储,采用绝对路径和锚点(Anchor),利用XML数据格式的工具来检索相关数据,获取所需数据并构造XML输出,从而实现Web数据抽取过程。实验表明,该模型实现Web数据抽取是可行的,根据该模型的缺陷,提出了一个基于语义Web技术的信息抽取改进模型。  相似文献   

3.
目前Web上大多是非结构化的信息,检索主要是通过基于体、协会在Web上通过DTD/Schema定义XML(Extensible Markup Language)文档,由于XML描述了结构化的信息,对XML文档的检索也与以往的搜索引擎不同.为此,本文设计了一个新的基于XML文档的智能信息检索原型系统ⅪIRC,给出了它的体系结构及功能,并对用户界面、索引机制、查询机制、检索结果概念聚类等问题进行了探讨.  相似文献   

4.
计算机半结构化数据源的数据挖掘技术研究   总被引:2,自引:0,他引:2  
Web是一个动态性极强的信息源,要访问、分析这些信息必须要研究异构数据的集成问题和选择合适的技术进行数据分析、集成和处理.介绍了多数据源数据仓库体系结构,分析了转换器在面向Web的数据挖掘中存在的不足和XML语言的技术特点;提出了多数据源数据的集成思想和实现的框架以及基于半结构化数据源的数据挖掘方法,提出了应用XML技术对多数据源数据进行集成与转换以便构建数据仓库的方法。同时给出了实现的关键技术.  相似文献   

5.
文章叙述Web数据挖掘的概念、分类、技术等,重点讨论了基于XML语言的Web数据挖掘技术,解决了Internet上绝大多数非结构化甚至是无结构的、Web信息的组织结构性差而导致的Web数据挖掘困难的问题。  相似文献   

6.
基于XML的智能信息检索与聚类研究   总被引:1,自引:0,他引:1  
目前Web上大多是非结构化的信息,检索主要是通过基于关键词的搜索引擎或目录浏览。近来,许多组织、团体、协会在Web上通过DTD/Schema定义XML(Extensible Markup Language)档,由于XML描述了结构化的信息,对XML文档的检索也与以往的搜索引擎不同。为此,本文设计了一个新的基于XML文档的智能信息检索原型系统XIIRC,给出了它的体系结构及功能,并对用户界面、索引机制、查询机制、检索结果概念聚类等问题进行了探讨。  相似文献   

7.
XML文档作为一种半结构化数据,与关系数据库中存储的结构化数据存在一定的差异。本文通过分析XMLSchema的结构和语法,借鉴P-Schema的思想,提出了一种名为E-Schema方法用于XML模式到关系模式的映射,解决了多值元素、可选元素、组元素的映射问题,能够在关系数据库中完整的保存XML文档的结构信息和数据信息,并提高了查询效率。  相似文献   

8.
随着Internet的迅速发展,使得“数据丰富而信息贫乏”这对矛盾显得日益突出,数据挖掘技术正是应了这一需求而结合了机器学习、模式识别、统计学、人工智能、神经网络等多学科而出现的一项新技术,基于Web的数据挖掘是数据挖掘技术在网络信息处理中的应用。本文叙述了Web数据挖掘的概念、分类、技术等,重点讨论了基于XML语言的Web数据挖掘技术,解决了Internet上绝大多数非结构化甚至是无结构的、Web信息的组织结构性差而导致的Web数据挖掘困难的问题。  相似文献   

9.
互联网的快速发展以及Web数据的日益庞大,使用户从Web中获取有用信息变得日益困难,如何快速有效地从Web中准确抽取信息已经成为亟待解决的问题,Web信息抽取技术应运而生.提出了一种新的基于XML的WEB信息自动抽取方法,采用数据转换算法将HTML文档标准化,通过学习样本实例的XPATH表达式,形成抽取规则库,并利用规则库对其它同类页面实现信息的自动抽取.实验结果表明,该方法具有较高的查全率和查准率,且抽取结果具有自描述性,方便于建立各个领域的数据抽取系统.  相似文献   

10.
XML数据的B+树存储实现及更新   总被引:1,自引:0,他引:1  
XML已成为Web数据表示和交换的标准,如何有效实现对于XML数据的存储、查询及更新操作是XML相关技术研究中的一个重要领域.本文简要介绍了基于模式匹配的XML数据库系统(DISXDBS)组成,重点研究了基于模式匹配的XML数据库系统(DISXDBS)上实现用B^+树存储XML文档以及对其进行查询、更新等简单操作,并对目前几种常见XML文档的存储策略进行比较.  相似文献   

11.
讨论了一种基于XML在网络中抽取信息的方法.理想的数据抽取过程是仅仅分析由HTML页面组成的网站数据库.然而,全面的信息抽取过程需要面对许多障碍.正确的数据抽取还需要有可靠的数据验证和错误恢复服务,以应对无法避免的数据抽取故障.提出一个名为NIES的软件框架,它可以大大提高网络信息抽取的效率和准确度,保证了网络信息抽取的质量.NIES的关键部分是用XML技术来进行数据抽取,它包含了XHTML和XSLT并且支持连接"深度网络".  相似文献   

12.
以采用XML Web Services技术实现远程监控为核心,探讨了系统实现的支撑技术:XML Web Services技术,车间底层设备状态信息采集与通讯技术等,提出了基于XML Web Services技术的远程监控系统结构和实现模式,对基于XML Web Services的分布式监控,数据采集与通讯等系统实现关键技术进行了系统的研究,并成功开发了基于XML Web Services的远程监控原型系统。  相似文献   

13.
为了实现数控系统支持数据共享和跨平台进程间的互操作,将Web服务技术引入数控系统,对数控系统的XML文档格式和XML实现网页的过程进行了研究,实现了数控功能XML描述,研究了数控系统的数据交换实体模型,分析了如何定义WS-mCNC的XML Schema数据模型,使其可以支持异构系统的无缝集成和调用,明确了WS-mCNC的数据类型层次,并以此来定义相应的XML Schema应用实例,解决了支持数控系统的集成标准化的信息共享.  相似文献   

14.
Web信息查询是Web应用领域中的一个重要研究课题.介绍了XML数据模型,并从建立XML数据源、Web查询过程及查询实例3个方面,讨论了XML在Web查询中的应用.  相似文献   

15.
Web 信息查询是 Web 应用领域中的一个重要研究课题.介绍了 XML 数据模型,并从建立 XML 数据源、Web 查询过程及查询实例3个方面,讨论了 XML 在 Web 查询中的应用.  相似文献   

16.
基于Web的产品定制系统的框架建立和信息交换   总被引:1,自引:0,他引:1  
在日益加剧的市场竞争中,如何通过网络快速实现客户信息的反馈,是企业赢得市场的关键因素之一。论述了以STEP、XML为数据交换媒介,利用CORBA组件技术,使用JAVA等网络程序语言实现网络的产品定制;介绍了如何用上述技术实现定制系统中的信息交换;提出了一个在网络环境下的产品定制模型。  相似文献   

17.
XML与数据库的信息交互   总被引:1,自引:0,他引:1  
XML逐渐成为互联网上数据描述和交换的标准,它将取代HTML成为Web上存放数据的主要格式。本文研究了XML与数据库的映射方法,分别就模板驱动和模型驱动的映射方法作了论述。最后以SQL Server2000为例阐述了XML在数据库中的应用。  相似文献   

18.
与标准的方法XQuery查询语言不同,XML文档的关键字查询能使用户方便地访问XML数据,不必考虑数据复杂模式和掌握复杂查询描述语言。文章对关键字查询中索引技术进行研究,提出了一种基于Dewey编码的查询索引进行解决,以综合分析XML数据的值信息和结构信息,达到子树返回和路径返回的精确查询的目标。  相似文献   

19.
基于XML安全技术研究与应用   总被引:1,自引:0,他引:1  
XML语言作为数据表示的一个开放标准,它给Web应用乃至网络计算注入了新的活力。随着 XML应用日益广泛,XML安全问题已经成为关注的焦点,文中介绍并详细分析了XML安全问题中的两个主 要技术XML签名和XML加密,并对XML的应用领域和将来的发展趋势加以阐述。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号