首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
PDF文件信息的抽取与分析   总被引:5,自引:0,他引:5  
李珍  田学东 《计算机应用》2003,23(12):145-147
PDF文件网络信息抽取的重要资源。通过对PDF文件结构的分析,针对最流行的线性PDF文件,在论述如何从源代码中取出正文内容字符串流并进行解码的基础上,对从解码后的字符串流中提取出文本及其相关的字体、字号和换行等文本信息进行了详细的讨论。这将有助于根据需要进一步抽取PDF文件信息。  相似文献   

2.
XML因为它在可扩展性和灵活性上的优点以及W3C不遗余力的为它制定各种标准,已经成为Internet上的主要语言。如何对XML文档进行转换以满足不同用户的需要,成为一个非常重要的问题,利用XSLT可以很好的解决这个问题。本文详细描述了基于XSLT转换XML文档的方法,深入讨论其工作原理,并结合一个具体应用实例,进一步阐明了基于XSLT转换XML文档的过程。  相似文献   

3.
基于XML的网页信息自动抽取   总被引:4,自引:0,他引:4  
周津  朱明  郑全 《计算机应用》2004,24(Z1):225-227
文章提出了一种基于XML的网页信息自动抽取的方法和框架,通过利用网页中信息的结构相似性和词法相似性,自动学习出网页信息的记录模式并归纳出相应的词法模式,从而避免了繁重的人为样本收集与标记工作,也免去了人工给定模式的工作,具备很强的自动性.同时自动归纳出的词法模式还可以应用到其他网站和非结构化文本中.  相似文献   

4.
为了得到统一的数据形式以利于数据操作和处理,提出了采用基于元数据的模板定制技术以实现信息抽取的方法.该方法有效地实现对非结构化文本的信息提取,将抽取信息转换为统一的XML格式,然后将XML格式的信息集成到关系数据库中.本方法在某造船厂的企业信息化中得到成功应用,为解决企业的信息集成问题提供了一种面向Word文档的新方案.  相似文献   

5.
Web 信息抽取方法研究   总被引:1,自引:1,他引:0  
web 资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。如何将这些信息抽取出来,转化成结构化信息,供其它信息集成系统所利用,成为该顶域的研究热点。本文介绍了一个简单的web 信息抽取模型,以及基于该模型研究。  相似文献   

6.
基于Web的表格信息抽取研究   总被引:1,自引:0,他引:1  
如今,Web成为了网络信息的主要平台。根据研究发现,表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析。在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取。  相似文献   

7.
如今,Web成为了网络信息的主要平台。根据研究发现,表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析。在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取。  相似文献   

8.
为了对学术动态、热点及学术发展趋势进行研究,需要对学术研究论文进行数据挖掘研究。首先需要从海量的学术论文中提取有兴趣的信息。针对目前学术论文大多采用PDF格式的现状,重点研究了PDF文件的格式以及对PDF格式操作的各种技术,采用开源函数库PDFBox对PDF格式的学术论文按照规则进行信息的提取,提取的信息主要包括学术论文的标题、作者、单位、关键词、发表时间、摘要等信息。最后对提取信息的正确率进行了统计,有助于针对学术研究的大数据研究。  相似文献   

9.
随着信息技术的快速发展,信息发布系统的应用已经越来越广泛。是否能够充分地利用计算机手段来发布学校信息,已经成为衡量一个学校信息技术发展的重要指标之一。为了提高学校信息发布工作效率的目标,采用基于XML(可扩展标记语言)信息发布系统的开发,已经成为学校信息发布研究的趋势。XML信息发布系统的实现和应用,有着广泛的研究和应用前景。  相似文献   

10.
Web信息抽取技术的研究   总被引:1,自引:0,他引:1  
目前,Web上80%的信息来源于后台数据库,用户为了将后台数据库中的信息发布出来,可以直接以HTML格式进行发布,也可以转化为XML格式进行发布。  相似文献   

11.
黄国超  王衍波  黄开国 《微机发展》2011,(10):246-249,F0003
XML文档具有存储与显示分离的特性,利用XSLT可以将同一篇XML文档显示出不同的内容,这样就可以实现隐藏信息的目的。通过研究XML的样式表转换,提出了基于XSLT的内容抽取、内容比较、样式表合并的三种XML文档信息隐藏方法,每种隐藏方法利用了样式表元素的不同性质,并通过实例对进行具体介绍和分析。上述三种隐藏方法主要针对文档的显示特性,不对文档存储的格式和内容做任何改动。实验结果表明,利用样式表转换的方法在XML文档中隐藏信息具有实现简单、安全性高的特点。  相似文献   

12.
随着Internet的发展,Web挖掘技术越来越重要,其中的Web信息抽取技术逐渐成为热点,逐渐成为Web挖掘技术的关键技术之一,对Web信息抽取技术的深入研究也为构建更好的面向主题的搜索引擎提供了思路.文中对Web信息抽取的现有技术以及现有技术存在的问题进行了详细的论述.根据Web信息抽取的原理,依据软件工程的观点对Web信息抽取技术提出了具有指导意义的8条启发式规则.在这些规则的指导下,着重阐述了Web信息抽取中的基于结构和内容的信息抽取.通过理论分析及相应的实验说明所提出的8条规则对Web信息抽取具有良好的指导意义.  相似文献   

13.
用Plug-in实现对PDF文件的信息提取   总被引:6,自引:0,他引:6  
利用Adobe Acrobat提供的编程接口编写Plug-in插件,实现对PDF文件信息的提取。  相似文献   

14.
15.
仲华  崔志明 《微机发展》2007,17(7):49-52
在分析了传统索引技术的缺陷的基础上,提出了一种基于XML架构信息抽取的多层向量空间的模型,重点阐述了如何建立一个基于XML的Web信息抽取平台,从构造知识库、网页优化和信息抽取这三方面进行研究,并阐述了基于XML的多层向量空间模型及其形成。通过这种技术不仅使网页内容得到了清晰的剖析和抽取,更能大大提高对Web网页文档检索效率和准确率。目的在于寻求一种更为高效简洁的检索方法。  相似文献   

16.
在分析了传统索引技术的缺陷的基础上,提出了一种基于XML架构信息抽取的多层向量空间的模型,重点阐述了如何建立一个基于XML的Web信息抽取平台,从构造知识库、网页优化和信息抽取这三方面进行研究,并阐述了基于XML的多层向量空间模型及其形成。通过这种技术不仅使网页内容得到了清晰的剖析和抽取,更能大大提高对Web网页文档检索效率和准确率。目的在于寻求一种更为高效简洁的检索方法。  相似文献   

17.
基于PDF文档作为掩体的信息隐写方法   总被引:1,自引:0,他引:1  
日前应用极为广泛的PDF文档,发现了其中存在可以用作信息隐写的隐密信道。通过采用以一定的冗余换取安全性的策略,并使用基于混沌模型的随机选择隐写单元的方法,使隐写系统满足Kerckhoffs原理。分析和实验结果表明,该文隐写方法可嵌入任意大小的信息,并保持在PDF阅读器中显示的透明性,具有较好的简单实用性。  相似文献   

18.
研究Web信息提取技术,提出数据获取、规则定义和规则执行3个步骤的基于XML的半结构化Web信息提取方法,为进一步满足Web信息提取提供了一种高效的新方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号