首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
一种新的Web数据模型-EOEM   总被引:1,自引:0,他引:1  
随着XML的普及,开发具有同时查询XML文档和HTML文档能力的新一代Web查询语言已是当务之急.但现有的Web数据模型存在种种局限.本文提出了一种新的Web数据模型,能够同时支持HTML和XML等半结构化文档的查询.  相似文献   

2.
Web文档清洗系统中HTML解析器的开发   总被引:7,自引:0,他引:7  
对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无论是脱机的规则学习还是联机的文档清洗 ,都需要建立在对Web文档的结构和内容进行分析的基础之上。从HTML解析的一般概念入手 ,结合Web文档清洗系统的需求 ,描述了一个自主开发的HTML解析器的结构 ,并对其组成部分 :词典、词法分析器和语法分析器的设计作了详细的讨论  相似文献   

3.
文章研究了XML文档转换为富文本格式的方法,提出了一种基于XSL将XML文档转换HTML格式文档的算法.首先,新建一个与XML文档同名的HTML格式文档;其次定义转换算法,实现XML文档到HTML格式文档的转换;最后,调用系统默认浏览器以查看转换得到的HTML文档.该算法可以基于XSL将XML文档转换为HTML格式文档,以查看和验证XML文档的富文本显示格式是否符合阅读要求.  相似文献   

4.
基于Web的表格信息抽取研究   总被引:1,自引:0,他引:1  
如今,Web成为了网络信息的主要平台。根据研究发现,表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析。在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取。  相似文献   

5.
如今,Web成为了网络信息的主要平台。根据研究发现,表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析。在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取。  相似文献   

6.
在大约短短的两年内,World Wide Web已经由原来只是科学家和工程师们使用的费解工具变为一个真正的文化现象。Web是以超文本置标语言(HTML, Hypertext Markup Language)编写的一系列超链接文档。如果没有HTML的话,在Web上冲浪将如看冰雪溶化般令人坐立不安。正是有了HTML才使得娱乐界和  相似文献   

7.
西贝 《电脑爱好者》2001,(22):66-66
在你试图打开一个Word2002文档时,如果系统没有响应,则可能的原因是该文件已经损坏,你可以在任何时候使用“恢复文本转换器”来打开被损坏的文档并恢复文本。成功打开损坏文档后,可将它保存为Word格式或HTML等其他格式,段落、页眉、页脚、脚注、尾注和域中的文字将被恢复为纯文本,不能恢复文档格式、域、图形对象和其他非文本信息。  相似文献   

8.
本文提出了一种Web查询语言WebQL,能同时处理XML和HTML文档资源,实现了结构化查询,提高了查询的准确度和速度,并给出了用VC 实现的WebQL原型系统.  相似文献   

9.
利用Microsoft免费的HTML PrinterDriver for Windows 95,可以将您喜欢的字处理程序变成一个简单快捷的HTML页面生成器。HTML Printer Driver将会取出一份由字处理程序所产生的文档,按照其原始的字体大小和原有的格式生成HTML文件存入磁盘。尽管HTML Printer Driver不能与某些作图程序配合使用,却适合于大多数的基于文本方式的应用程序,甚至可以将内嵌于一文档中的位图转换成JPEG文件。 详细资料见地址http://www.pcworld.com/hereshow和http://www.pcworld.com/software_lib。  相似文献   

10.
HTML是一种将一般文档转化成WWW页面的必需工具,如今你不用非得离开熟悉的文字处理器就可以使用它。  相似文献   

11.
介绍了XML解析的详细过程,设计并实现了一个特定Schema的XML解析器的自动生成工具。该生成工具以一个XML Schema文件作为输入,输出一个JavaCC词法和语法规格说明文件,然后在JavaCC工具的帮助下,生成一个基于特定XML Schema的XML解析器。实验证明,这个生成解析器能够对XML文档进行解析的同时,验证其有效性。  相似文献   

12.
采用扩展的巴科斯范式(EBNF)定义SQL语言的语法规则,提出了一种基于分析器自动生成工具(JavaCC)的SQL语言编译器的设计模型。该模型采用Java语言开发,具有良好的平台无关性;分别从词法、语法和语义分析、信息提取等方面进行编译器的设计与实现。实际运行结果表明:该模型能够快速高效地构建SQL编译器,且具有良好的可扩展性。  相似文献   

13.
嵌入式HTML文档解析器的设计与实现   总被引:2,自引:1,他引:1       下载免费PDF全文
针对HTML文档在手持移动阅读设备上的阅读有效性问题,设计实现一种面向嵌入式应用的、平台无关的HTML文档解析器,对其关键技术进行阐述和分析。提出一种屏幕适配探测机制,实现对当前屏幕阅读无效内容的过滤。实验结果表明,该解析器降低了对嵌入式系统处理能力与内存配置的要求,能满足手持阅读设备的需要。  相似文献   

14.
为了提高Web交互设计模式抽取的准确性,增加现有方法对中文站点的分析能力,提出了一种基于HTML词法分析的改进方法.利用设计的HTML词法分析器将Web页面表示成语法树,抽取Web交互设计模式的特征,并对特征的词条内容进行语义扩展,细化了特征抽取的粒度.实验结果表明,改进的方法在召回率和准确率等方面明显优于现有的方法,并在中文站点交互模式抽取方面取得了很好的效果.  相似文献   

15.
近年来,信息抽取成为自然语言处理的一个热点,同时也是难点。针对不同的问题,大家提出了不同的方法,而大多数的方法是基于启发式规则或者抽象成分类问题,本文将从人物百科中抽取人物信息看成是一个序列标注的问题,利用条件随机场对生语料进行序列标注。此外,文中详细介绍数据分析的方法以及特征选取方法,所提出的方法直接从生语料中抽取,节省了大部分方法的数据预处理部分,同时避开了大部分方法使用的句法分析的特征,有效地提高了信息抽取的效率。在文章的最后做了两组对比实验,实验结果表明,本方法能够非常准确地从HTML生语料中抽取出人物信息。  相似文献   

16.
HTML文件解析器设计:原理、算法与应用   总被引:4,自引:1,他引:3  
网页设计制作已成为当前计算机基础教育的重要内容,但与此相关的自动阅卷系统研究尚未见报导。本文介绍了作者在这方面所做的工作,内容包括HTML文件解析器的设计原理、主要算法和典型应用等。HTML文件解析器作为网上远程考虑与评价系统的组成部分之一,实际应用表明其对网页设计操作考题的自动阅卷效果十分理想。  相似文献   

17.
本文对基于摩托罗拉MCU68332核心处理器及Nucleus Plus实时多任务操作系统的电力测控装置的硬件构架及软件平台设计进行介绍,重点对基于该平台的嵌入式Web服务技术应用研究,包括HTTP引擎、HTML页面模型预处理及应用程序接口的实现过程及方法进行探讨。相比传统的测控装置,具有嵌入式Web服务功能的测控装置的优点在于可以实现远程管理维护,为设备的运行、调试带来很大的方便。  相似文献   

18.
基于分块的网页信息解析器的研究与设计   总被引:28,自引:1,他引:27  
详细介绍了网页信息解析的基本技术手段,在综合权衡优缺点的基础上,提出了针对新 闻网站复杂结构页面较为有效的分块算法,并结合实际的项目需求,设计实现了网页信息解析器 TVPS,实验结果表明,该解析器具有良好的性能,满足实际的需求。  相似文献   

19.
网络数据智能提取   总被引:1,自引:0,他引:1  
王斌 《计算机仿真》2004,21(1):84-86
HTML是当前编写网页使用的最多的语言,如何利用HTML,这种标记性语言的特点,让计算机提供给用户快速获取知识的途径成为许多计算机工作者的一大难题。该文介绍一个有效的从互联网上提取知识的方法供参考。把这种方法简单的分成4个途径。①规范化基于HTML的网页脚本;②将网页结构和内容用一棵内容树表示;③比较相似网页的内容树生成提取规则;④将规则和下载程序结合得到最终的知识获取软件。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号