首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
XML与Web数据挖掘分析   总被引:4,自引:0,他引:4  
介绍了XML的概念 ,XML优于HTML的方面以及XML的特点、数据挖掘的基本概念及技术 ,概括了Web数据挖掘的特点 ,说明了将XML应用于Web数据挖掘的几个方面 .最后给出一个运用HTML、XML和JAVA技术实现Web挖掘的实例 .  相似文献   

2.
基于XML的Web数据抽取方法的研究   总被引:1,自引:1,他引:0  
针对Web挖掘中Web数据的抽取问题,设计了一种基于XML的Web数据抽取方法。由于Web数据的最大特点是半结构化,所以采用XML(半结构化的数据模型)来解决传统的关系数据库不适合Web数据存储的问题,从而将XML的档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。由于Web数据的大量信息都与抽取无关,所以利用XSL过滤掉XML的无关数据,并进行实时抽取,最后将合并结果保存到XML档中。实验结果表明,此方法可以很好地解决Web数据的抽取和存储问题。  相似文献   

3.
Web中XML文档的显示技术   总被引:1,自引:0,他引:1  
讨论了在Web中显示XML文档的CSS和XSL两种方法及其优缺点。结合实例详细介绍了在设置好显示格式文件XSLT后,在服务器和浏览器端显示XML文档的实现方法。  相似文献   

4.
XML数据的B+树存储实现及更新   总被引:1,自引:0,他引:1  
XML已成为Web数据表示和交换的标准,如何有效实现对于XML数据的存储、查询及更新操作是XML相关技术研究中的一个重要领域.本文简要介绍了基于模式匹配的XML数据库系统(DISXDBS)组成,重点研究了基于模式匹配的XML数据库系统(DISXDBS)上实现用B^+树存储XML文档以及对其进行查询、更新等简单操作,并对目前几种常见XML文档的存储策略进行比较.  相似文献   

5.
介绍了作为XML分析的利器DOM(文档对象模型Document Object Model),论述了由它提供的一个操作XML和HTML文档并与语言无关的标准接口集,以及采用标准规范与之适应的一个接口和类的集合。其中最 重要的是开发语言绑定及其与之相对应的org.w3c.dom Java等。DOM提供了一种用Java创建和修改XML文档的方法,把XML文档描述称为一棵树,并将整个XML文档读入内存,并将所有数据存储在节点中,使得整个文档的方法,把XML文档描述称为一棵树,并将整个XML文档读入内存,并将所有数据储存在节点中,使得整个文档得以快速使用。以Apache Xalan为例, 阐述了进行XML文档的分析和DOM树的生成及DOM树的遍历的技术。  相似文献   

6.
WDL:一种通用的基于XML的Web包装器描述语言   总被引:2,自引:0,他引:2  
通常使用Web包装器将HTML数据转化为XML格式的结构化数据.包装器描述语言(WDL)提供一套完善的语法,通过使用XML来描述Web包装器的各个方面,从而实现了包装器的快速生成.它提供编译器把WDL脚本编译成可独立运行的包装器组件.通过WDL生成的包装器对Web页面的变更具有更好的忍受能力,并且优化了对动态页面的处理.WDL可直接用于手工编写包装器,也可作为包装器生成系统的中间表示层,从而提高Web信息集成系统的灵活性,使包装器的维护和重用更加方便.  相似文献   

7.
互联网的快速发展以及Web数据的日益庞大,使用户从Web中获取有用信息变得日益困难,如何快速有效地从Web中准确抽取信息已经成为亟待解决的问题,Web信息抽取技术应运而生.提出了一种新的基于XML的WEB信息自动抽取方法,采用数据转换算法将HTML文档标准化,通过学习样本实例的XPATH表达式,形成抽取规则库,并利用规则库对其它同类页面实现信息的自动抽取.实验结果表明,该方法具有较高的查全率和查准率,且抽取结果具有自描述性,方便于建立各个领域的数据抽取系统.  相似文献   

8.
分析了Web服务技术与数据仓库相结合的优势,提出了一种基于Web服务技术的分布式数据仓库模型,该模型采用XML的消息传递机制实现了分布式计算。将Web服务技术与数据仓库相结合,扩充了数据仓库的网络功能,解决了与服务器端数据交换的效率、提高了客户端的执行效率,从而可以方便地从大量的数据中抽取有价值的信息,因此.企业和用户能够更加方便地获取信息。  相似文献   

9.
为实现XML数据到关系数据库的映射,提出一种基于模型的映射方案,可以将任何一个格式良好的XML文档存储到结构固定的关系模式中,实现结构互异的XML文档的固定关系模式存储,不受DTD变化的约束,同时在存储的过程中自动插入节点的Dewey编码及深度。利用JDOM提取XML文档信息数据,给出了附加Dewey编码的映射算法实现,实验结果表明该方案设计合理、有效。  相似文献   

10.
由W3C提出的xQuery语言业已成为处理XML的标准.通常XQuery只是查询XML的语言,但在XML作为后台数据的Web应用里,它也可作为服务器端脚本动态地生成网页,实现“XQuery+XML”模式的应用.因此,讨论用XQuery实现Session跟踪就很有必要.本文提出一种用XQuery构建Web应用的新技术,并通过在线购物的实例,提出一种跟踪Session的新方法:XML格式化Session.它采用XML文档作为用户的Session数据,用XQuery实现跟踪.结果表明,这一方法使得客户端和web服务器能够进行有效的通讯。  相似文献   

11.
基于HTML结构特征的网页信息提取   总被引:1,自引:0,他引:1  
Web上的信息很多存储在HTML页面上,传统的网页数据抽取方法是使用包装器(Wrapper)来抽取网页中感兴趣的数据。包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。避开了使用Wrapper,针对新闻类网页的结构特点,从视觉角度对网页页面空间的构成进行了噪声与信息实体的划分与判断。讨论了一种根据新闻类网页层次结构和各层节点统计信息进行新闻主体提取的方法。改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,并对其节点添加了统计信息,利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反向降噪抽取新闻类网页得到结构化数据的方法。实验结果表明,用这种方法进行新闻类网页主体信息提取的有效性。  相似文献   

12.
讨论了一种基于XML在网络中抽取信息的方法.理想的数据抽取过程是仅仅分析由HTML页面组成的网站数据库.然而,全面的信息抽取过程需要面对许多障碍.正确的数据抽取还需要有可靠的数据验证和错误恢复服务,以应对无法避免的数据抽取故障.提出一个名为NIES的软件框架,它可以大大提高网络信息抽取的效率和准确度,保证了网络信息抽取的质量.NIES的关键部分是用XML技术来进行数据抽取,它包含了XHTML和XSLT并且支持连接"深度网络".  相似文献   

13.
基于XML和Web的应用软件开发   总被引:1,自引:0,他引:1  
简要介绍了Jnta处理XML数据的方法,提出了一个用Java和XML开发Web应用软件的模型.该模型适用于需要快速切换Web页面中数据浏览方式的应用软件开发。  相似文献   

14.
提出一种新的新闻网页内容提取方法。与已有的研究相比,它自动判别网页是否含有主内容,并且回避了模板和DOM-Tree方法所带来的局限。主要工作包括:①提出了一种网页分块方法,通过一趟遍历将网页主内容和噪声划分到不同的块中;②提出网页块分布的概念并研究了块分布的属性,根据块分布可以有效地使用分类方法来判别网页是否有主内容,采用孤立点分析的方法从网页块分布中提取主内容。本文通过理论和实验证明了该方法的有效性。  相似文献   

15.
用XML实现CNSDTF的矢量数据交换格式   总被引:5,自引:0,他引:5  
利用可扩展标记语言XML实现了CNSDTF的矢量数据交换格式,生成了符合W3C标准的XSD Schema文档以及CNSDTF附录样本文档所对应的XML文档,给出了Schema文档的完整结构以及部分代表性元素的实现代码,并作出了相应的说明,利用该文档,以Altova的XMLSpy为辅助工具,生成了CNSDTF附录B中矢量数据交换格式样本的XML文档,生成的XML文档完全符合网络矢量数据传输的条件,该Schema文档可以作为对应所有XML数据文件的校验依据,并进一步成为书写,读写这些数据文件源代码的基础。  相似文献   

16.
介绍了作为XML分析的利器DOM (文档对象模型DocumentObjectModel) ,论述了由它提供的一个操作XML和HTML文档并与语言无关的标准接口集 ,以及采用标准规范和与之适应的一个接口和类的集合。其中最重要的是开发语言绑定及其与之相对应的org .w3c .domJava包等。DOM提供了一种用Java创建和修改XML文档的方法 ,把XML文档描述称为一棵树 ,并将整个XML文档读入内存 ,并将所有数据储存在节点中 ,使得整个文档得以快速使用。以ApacheXalan为例 ,阐述了进行XML文档的分析和DOM树的生成及DOM树的遍历的技术  相似文献   

17.
信息抽取技术在LBS中的应用   总被引:1,自引:0,他引:1  
由于LBS系统的终端设备处理能力较低,显示屏幕较小,再加上无线数据网络带宽不足,因此无法浏览整个Web网页。采用信息抽取技术可以将用户感兴趣的信息提取出来,再发送给用户终端,有效地解决上述问题,信息抽取技术将是LBS系统中的一项重要应用。提出了一种基于信息抽取的从删.到WML的页面转换方法,首先标记少量的Web网页形成样本实例集,采用归纳算法生成信息抽取规则;其次应用抽取规则和模式匹配来处理结构和风格类似的Web页面;最后将抽取结果转换为WML页面。开发了原型系统,通过对实际数据源的抽取,验证了此方法的有效性。  相似文献   

18.
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接、email和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理.文中详细介绍了如何使用HtmlParser来提取网页当中的超链接信息,将其清洗后存入SQL数据库当中,以备后续工作使用.  相似文献   

19.
基于XML的智能信息检索与聚类研究   总被引:1,自引:0,他引:1  
目前Web上大多是非结构化的信息,检索主要是通过基于关键词的搜索引擎或目录浏览。近来,许多组织、团体、协会在Web上通过DTD/Schema定义XML(Extensible Markup Language)档,由于XML描述了结构化的信息,对XML文档的检索也与以往的搜索引擎不同。为此,本文设计了一个新的基于XML文档的智能信息检索原型系统XIIRC,给出了它的体系结构及功能,并对用户界面、索引机制、查询机制、检索结果概念聚类等问题进行了探讨。  相似文献   

20.
Matlab Web服务器在"信号与系统"网络教学中的应用   总被引:3,自引:0,他引:3  
根据建构主义教学系统的设计理论,利用Matlab Web Server技术实现了信号分析与系统分析的网络仿真,学生可以利用Internet登陆网络教学系统,通过浏览器输入数据,调用服务器进行计算及产生图形,并在输出页面上显示仿真结果.实现了学习超越时空限制、资源共享及交互主动学习的情境设计.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号