共查询到19条相似文献,搜索用时 109 毫秒
1.
一种新的Web数据模型-EOEM 总被引:1,自引:0,他引:1
随着XML的普及,开发具有同时查询XML文档和HTML文档能力的新一代Web查询语言已是当务之急.但现有的Web数据模型存在种种局限.本文提出了一种新的Web数据模型,能够同时支持HTML和XML等半结构化文档的查询. 相似文献
2.
Web文档清洗系统中HTML解析器的开发 总被引:7,自引:0,他引:7
对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无论是脱机的规则学习还是联机的文档清洗 ,都需要建立在对Web文档的结构和内容进行分析的基础之上。从HTML解析的一般概念入手 ,结合Web文档清洗系统的需求 ,描述了一个自主开发的HTML解析器的结构 ,并对其组成部分 :词典、词法分析器和语法分析器的设计作了详细的讨论 相似文献
3.
4.
基于Web的表格信息抽取研究 总被引:1,自引:0,他引:1
如今,Web成为了网络信息的主要平台。根据研究发现,表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析。在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取。 相似文献
5.
如今,Web成为了网络信息的主要平台。根据研究发现,表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析。在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取。 相似文献
6.
在大约短短的两年内,World Wide Web已经由原来只是科学家和工程师们使用的费解工具变为一个真正的文化现象。Web是以超文本置标语言(HTML, Hypertext Markup Language)编写的一系列超链接文档。如果没有HTML的话,在Web上冲浪将如看冰雪溶化般令人坐立不安。正是有了HTML才使得娱乐界和 相似文献
7.
在你试图打开一个Word2002文档时,如果系统没有响应,则可能的原因是该文件已经损坏,你可以在任何时候使用“恢复文本转换器”来打开被损坏的文档并恢复文本。成功打开损坏文档后,可将它保存为Word格式或HTML等其他格式,段落、页眉、页脚、脚注、尾注和域中的文字将被恢复为纯文本,不能恢复文档格式、域、图形对象和其他非文本信息。 相似文献
8.
本文提出了一种Web查询语言WebQL,能同时处理XML和HTML文档资源,实现了结构化查询,提高了查询的准确度和速度,并给出了用VC 实现的WebQL原型系统. 相似文献
9.
《微电脑世界》1998,(1)
利用Microsoft免费的HTML PrinterDriver for Windows 95,可以将您喜欢的字处理程序变成一个简单快捷的HTML页面生成器。HTML Printer Driver将会取出一份由字处理程序所产生的文档,按照其原始的字体大小和原有的格式生成HTML文件存入磁盘。尽管HTML Printer Driver不能与某些作图程序配合使用,却适合于大多数的基于文本方式的应用程序,甚至可以将内嵌于一文档中的位图转换成JPEG文件。 详细资料见地址http://www.pcworld.com/hereshow和http://www.pcworld.com/software_lib。 相似文献
10.
HTML是一种将一般文档转化成WWW页面的必需工具,如今你不用非得离开熟悉的文字处理器就可以使用它。 相似文献
11.
介绍了XML解析的详细过程,设计并实现了一个特定Schema的XML解析器的自动生成工具。该生成工具以一个XML Schema文件作为输入,输出一个JavaCC词法和语法规格说明文件,然后在JavaCC工具的帮助下,生成一个基于特定XML Schema的XML解析器。实验证明,这个生成解析器能够对XML文档进行解析的同时,验证其有效性。 相似文献
12.
采用扩展的巴科斯范式(EBNF)定义SQL语言的语法规则,提出了一种基于分析器自动生成工具(JavaCC)的SQL语言编译器的设计模型。该模型采用Java语言开发,具有良好的平台无关性;分别从词法、语法和语义分析、信息提取等方面进行编译器的设计与实现。实际运行结果表明:该模型能够快速高效地构建SQL编译器,且具有良好的可扩展性。 相似文献
13.
14.
为了提高Web交互设计模式抽取的准确性,增加现有方法对中文站点的分析能力,提出了一种基于HTML词法分析的改进方法.利用设计的HTML词法分析器将Web页面表示成语法树,抽取Web交互设计模式的特征,并对特征的词条内容进行语义扩展,细化了特征抽取的粒度.实验结果表明,改进的方法在召回率和准确率等方面明显优于现有的方法,并在中文站点交互模式抽取方面取得了很好的效果. 相似文献
15.
郑轶 《计算技术与自动化》2015,(4):132-136
近年来,信息抽取成为自然语言处理的一个热点,同时也是难点。针对不同的问题,大家提出了不同的方法,而大多数的方法是基于启发式规则或者抽象成分类问题,本文将从人物百科中抽取人物信息看成是一个序列标注的问题,利用条件随机场对生语料进行序列标注。此外,文中详细介绍数据分析的方法以及特征选取方法,所提出的方法直接从生语料中抽取,节省了大部分方法的数据预处理部分,同时避开了大部分方法使用的句法分析的特征,有效地提高了信息抽取的效率。在文章的最后做了两组对比实验,实验结果表明,本方法能够非常准确地从HTML生语料中抽取出人物信息。 相似文献
16.
HTML文件解析器设计:原理、算法与应用 总被引:4,自引:1,他引:3
网页设计制作已成为当前计算机基础教育的重要内容,但与此相关的自动阅卷系统研究尚未见报导。本文介绍了作者在这方面所做的工作,内容包括HTML文件解析器的设计原理、主要算法和典型应用等。HTML文件解析器作为网上远程考虑与评价系统的组成部分之一,实际应用表明其对网页设计操作考题的自动阅卷效果十分理想。 相似文献
17.
18.