首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
提出了一种面向HTML或XML描述的Web数据抽取模型,首先用STOCK把Web文档从Web服务器读下来,识别Web文档的表示格式,若是HTML格式,则先把HTML数据转换成XHTML(XML的子集)格式,然后对Web页进行修复后合并形成系列XML文档并存储,采用绝对路径和锚点(Anchor),利用XML数据格式的工具来检索相关数据,获取所需数据并构造XML输出,从而实现Web数据抽取过程。实验表明,该模型实现Web数据抽取是可行的,根据该模型的缺陷,提出了一个基于语义Web技术的信息抽取改进模型。  相似文献   

2.
XML技术与应用   总被引:2,自引:0,他引:2  
XML已成为网络上对数据进行描述和传送的通用语言,其自描述性非常适用于不同应用间的数据交换.利用XML技术,可以实现对各种数据源如XML文档、native-XML数据库、XML-enabled数据库间的相互访问,完成信息交换,最后返回XML文档或根据具体需要返回相应数据格式.  相似文献   

3.
基于XML的Web数据抽取方法的研究   总被引:1,自引:1,他引:0  
针对Web挖掘中Web数据的抽取问题,设计了一种基于XML的Web数据抽取方法。由于Web数据的最大特点是半结构化,所以采用XML(半结构化的数据模型)来解决传统的关系数据库不适合Web数据存储的问题,从而将XML的档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。由于Web数据的大量信息都与抽取无关,所以利用XSL过滤掉XML的无关数据,并进行实时抽取,最后将合并结果保存到XML档中。实验结果表明,此方法可以很好地解决Web数据的抽取和存储问题。  相似文献   

4.
为了给北京市知识产权预警能力研究提供基础数据,通过检索美国专利商标局(USPTO)网络专利数据库可以得到动态网页形式的专利信息.基于XML相关技术,提出了将这些网页形式的专利数据抽取到关系数据库的技术和方法.使用正则表达式匹配的方法进行页面过滤,将网页解析为文档对象模型(DOM)进行清洗,通过可扩散样式表转换语言(XSLT)模板抽取专利信息,并通过对象映射的方法将专利信息存入关系数据库,实现了专利信息抽取原型系统.实验结果表明,该原型系统具有较高的召回率和准确率.  相似文献   

5.
随着网络技术的迅猛发展及其广泛应用,互联网正成为高效的信息发布渠道。为地理信息的网络传输与发布提供了一种崭新而有效的载体,地图网络发布正成为目前地理信息领域的研究热点。但地图网络发布的进一步发展面临看新的挑战。它需要寻求新的技术来解决系统开放性问题,XML作为一项新的网络技术,为地图网络发布带来了新的机遇。文章着重于新的硒络技术在地理信息领域的应用,对基于XML的地图网络发布技术进行了深入的研究,提出了基于GML的多源空间数据的集成模型,建立了多源空间数据到GML数据的转换引擎,解决了多源空间数据的集成和共享;提出了采用SVG来作为客户端地图的显示方案,建立了基于SVG的地图符号描述与管理方法。解决了空间数据在客户端的多样化显示与交互操作。  相似文献   

6.
XML网络管理接口一致性测试中XML解析器的开发   总被引:2,自引:0,他引:2  
XML解析器是XML网络管理接口一致性测试的关键部分,解析器可以读入一个XML并分析它的结构.根据XML特点研制开发的适用于XML网络管理一致性测试的XML解析器可对XML文档进行词法分析、语法分析和语义分析,并为测试系统提供数据信息.  相似文献   

7.
深度自编码网络在入侵检测中的应用研究   总被引:1,自引:0,他引:1  
当前网络环境下的网络数据呈现出比以往更为庞大、复杂和多维的特性,传统的机器学习方法面临复杂的高维数据需要手动提取大量特征,特征提取过程复杂且计算量大,不利于当前入侵检测实时性和准确性的要求.基于此,以降低数据维度和消除冗余信息为目的,综合利用深度自编码网络(DAN)和BP算法,提出了基于DAN-BP的入侵检测模型.首先通过叠加多个自编码网络构成深度自编码网络模型,将网络特征数据作为模型的输入,使模型能够智能的逐层抽取网络数据的分布规则,从而获得新的低维特征数据集;然后利用BP算法对学习到的低维数据进行分类识别.文中通过在自编码网络中加入正则化修正,防止训练出的自编码网络直接复制输入信息而影响训练效果;且在输入数据中添加噪声,通过学习原始数据和输出数据重构误差达到去噪的目的,从而使得学习到的新的特征数据具有更强的鲁棒性.对比了传统的降维方法和当前入侵检测方法,结果表明本文方法在分类准确率、误报率和检测速率上均具有较优的效果.  相似文献   

8.
互联网的快速发展以及Web数据的日益庞大,使用户从Web中获取有用信息变得日益困难,如何快速有效地从Web中准确抽取信息已经成为亟待解决的问题,Web信息抽取技术应运而生.提出了一种新的基于XML的WEB信息自动抽取方法,采用数据转换算法将HTML文档标准化,通过学习样本实例的XPATH表达式,形成抽取规则库,并利用规则库对其它同类页面实现信息的自动抽取.实验结果表明,该方法具有较高的查全率和查准率,且抽取结果具有自描述性,方便于建立各个领域的数据抽取系统.  相似文献   

9.
主要介绍XML信息交换技术及XML的应用过程,同时描述在网络招生中如何运用XML技术,并以实例简要说明。  相似文献   

10.
基于XML的Web半结构化信息抽取   总被引:1,自引:0,他引:1  
Web信息抽取是信息抽取技术在B/S体系中的新发展,在增量信息存储与搜索中有着广泛的应用。本文阐述的基于XML的Web半结构化信息抽取,是将Web表示层作为信息源,基于XML、JTidy数据清洗及Xquare-bridge等技术及开源项目,实现Web中半结构化的隐式信息点抽取,生成结构化、语义更清晰的表示及存储形式。  相似文献   

11.
XML与Web数据挖掘分析   总被引:4,自引:0,他引:4  
介绍了XML的概念 ,XML优于HTML的方面以及XML的特点、数据挖掘的基本概念及技术 ,概括了Web数据挖掘的特点 ,说明了将XML应用于Web数据挖掘的几个方面 .最后给出一个运用HTML、XML和JAVA技术实现Web挖掘的实例 .  相似文献   

12.
为了实现数控系统互操作和跨平台集成,研究了基于Web服务的数控系统编程模型,分析了数控功能、数控网络编程技术和数控系统的Web服务实现等核心问题,构造了XML Sechema数控功能模型,提出了一种新的基于XML Web服务的数控系统编程模型,构建了包括服务请求层、服务提供层和服务监控层的该模型的系统体系,对每层的功能以及软件架构进行了研究,实现了数控系统应用层和设备层的Web服务开发.实验系统验证表明,基于Web服务的数控系统编程模型解决了数控系统的互操作性,支持互联网上异构系统的跨平台、跨地域无缝集成.  相似文献   

13.
以采用XML Web Services技术实现远程监控为核心,探讨了系统实现的支撑技术:XML Web Services技术,车间底层设备状态信息采集与通讯技术等,提出了基于XML Web Services技术的远程监控系统结构和实现模式,对基于XML Web Services的分布式监控,数据采集与通讯等系统实现关键技术进行了系统的研究,并成功开发了基于XML Web Services的远程监控原型系统。  相似文献   

14.
基于HTML的Web信息元数据提取技术应用   总被引:3,自引:0,他引:3  
介绍一种基于HTML的Web信息元数据提取技术的应用,包括扫描算法与Web信息元数据描述文档的介绍。  相似文献   

15.
典型隐马尔可夫模型对初始参数非常敏感,采用随机参数训练隐马尔可夫模型时常陷入局部最优,应用于W eb信息抽取时效果不佳.文中提出基于模拟退火算法与隐马尔可夫模型的W eb信息抽取算法.通过实验比较选择最佳的模拟退火算法参数,结合Baum-W elch算法优化隐马尔可夫模型并应用于W eb信息抽取.实验结果表明新算法在信息抽取的精确率和召回率都有明显的提高.  相似文献   

16.
Web 信息查询是 Web 应用领域中的一个重要研究课题.介绍了 XML 数据模型,并从建立 XML 数据源、Web 查询过程及查询实例3个方面,讨论了 XML 在 Web 查询中的应用.  相似文献   

17.
针对Web上的数据不能被计算机或应用程序所理解的问题,设计并实现了一种Web信息抽取工具,通过采用抽取过程逻辑定义与抽取过程执行模块相分离的设计方法,提高应用系统的灵活性、维护性,使得从Web上抽取的信息更加符合用户需求,达到了自动灵活地从Web上的海量数据中抽取有价值信息的效果.  相似文献   

18.
Web信息查询是Web应用领域中的一个重要研究课题.介绍了XML数据模型,并从建立XML数据源、Web查询过程及查询实例3个方面,讨论了XML在Web查询中的应用.  相似文献   

19.
基于XML的Web文件传输系统的实现   总被引:1,自引:0,他引:1  
介绍了基于XML的Web文件传输的相关技术,并将其应用于基于嵌入式Web技术的战场图文信息快速智能处理系统,文件传输系统传输效率得以大大提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号