首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
基于链式结构XML文档的生成方法   总被引:4,自引:0,他引:4  
提出了一种基于链式结构的XML文档生成方法,设计了一个利用Java中的stream tokenizer类实现HTML文档解析的算法,将解析得到的元素内容及文本内容生成的结点插入到相应的位置上,同步生成DOM解析树,对DOM解析树进行遍历,将遍历得到的信息以二叉链表的形式存储,采用改进的先根遍历算法对该二叉链表遍历,提取相应的信息构建DTD,完成整个转换生成的过程。  相似文献   

2.
一种Web主题文本通用提取方法   总被引:2,自引:0,他引:2  
为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文Web主题文本提取方法。该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来。由于本方法不涉及具体的HTML标记分析,其通用性较强。实验结果表明该提取方法具有快速性和准确性,达到了构建大规模中文文本语料库的要求。  相似文献   

3.
超文本标记语言HTML简介   总被引:1,自引:0,他引:1  
一、HTML概述HTML是在标准通用标记语言(SGML)基础上建立起来的用于描述超文本的标记语言.SGML是ISO在1986年公布的文本描述标准(ISO8879);超文本是含有指向其它文档的指针的文本;标记是描述或分割文本中各对象的一种编码.二、HTML文件的结构与组成HTML文件为标准的ASCⅡ文本文件,是由各种具有语义的对象所构成的逻辑结构体.例如一份HTML文件可由标题、段落、列表、表格、单字及其它对象组成.在实际应用中,  相似文献   

4.
目前主流的网页抽取方法存在两大问题:提取信息类型单一,难以获取多种类新闻信息;多依赖HTML标签,难以扩展至不同来源。为此提出一种基于多维度文本特征的新闻网页信息提取方法,利用新闻文本的写作特点划分出写作、语义和位置特征,通过多通道卷积神经网络融合为多维度文本特征,用于提取多种类新闻网页信息;仅需少量数据集训练,就可提取新来源的新闻网页信息。实验结果表明,该方法在性能上高于当前最优方法。  相似文献   

5.
基于Lucene的文本搜索引擎的设计和实现   总被引:1,自引:0,他引:1  
随着局域网信息的海量增长,个性化的轻量级搜索引擎已经被中、小型企业和校园关注和青睐。本文在研究搜索引擎基本原理的基础上,通过Lucene、JSP和Struts2等技术实现多种类型文件的文本内容的检索功能。测试结果表明,该系统实现了局域网内部对HTML、PDF、Word、txt等格式文件的内容提取和解析,具有开放性、可扩展、实时性和安全的特点,成功达到了预期目标。  相似文献   

6.
正则表达式在远程网页下载中的应用   总被引:1,自引:0,他引:1  
分析了远程网页的结构特征,阐述了正则表达式在网页下载中的应用,提出了运用正则表达式匹配替换多余HTML源文件和直接在HTML源文件中匹配提取元数据的两种获取远程数据的方法,同时完成了数据解析、提取及保存的整个过程,并将文章所附有的附件、图片及音频等文件下载到本地服务器。  相似文献   

7.
分析了远程网页的结构特征,阐述了正则表达式在网页下载中的应用,提出了运用正则表达式匹配替换多余HTML源文件和直接在HTML源文件中匹配提取元数据的两种获取远程数据的方法,同时完成了数据解析、提取及保存的整个过程,并将文章所附有的附件、图片及音频等文件下载到本地服务器.  相似文献   

8.
针对Web中数据密集型的动态页面,文本数据少,网页结构化程度高的特点,介绍了一种基于HTML结构的web信息提取方法。该方法先将去噪处理后的Web页面进行解析,然后根据树编辑距离计算页面之间的相似度,对页面进行聚类,再对每一类簇生成相应的提取规则,对Web页面进行数据提取。  相似文献   

9.
Web主题文本提取是从Web页面中找出文本型主题内容,对Web信息过滤具有重大作用。针对目前Web主题文本提取算法复杂而且响应速度较慢的不足,提出一种新的Web主题文本提取方法。该方法直接从HTML文档结构本身的特征出发,提取文档中文本的多个特征.并设计了一个有效的公式综合利用提取特征来定位主题文本。实验表明该算法简单、快速、有效,能很好地运用于Web信息过滤。  相似文献   

10.
随着互联网的快速发展,Web页面上的信息量已变得非常巨大,面对网页上海量的信息资源,如何快速有效地检索及发现有价值的信息已成为Web研究的一个重要方面。对此提出了一种标签提取方法。利用JTidy将网页优化为格式良好的HTML文档并解析为DOM树,然后用标签提取方法对该DOM树中包含有文本信息内容的叶子节点标签进行提取,把用于控制网页交互性和显示的标签删除掉,并运用基于标点符号的信息提取方法去除版权说明等信息。对不同网站的网页进行抽取实验,结果表明标签提取方法不但通用性强,而且能够准确地提取网页的主题信息。  相似文献   

11.
一种基于VBA的通用Office文档转换方法   总被引:2,自引:0,他引:2  
对于微软的办公软件Office平台的各种文件系统的相互转换不仅有理论价值,而且有其现实意义,如Word和普通文本文件,Word和Excel,Word和PowerPoint文件之间的格式和内容的转换,Office文档和HTML格式的转换都很重要,这里给出一种通用的转换软件开发方法,可以使一般的用户开发出自己需要的文件转换工具。  相似文献   

12.
一种基于分类算法的网页信息提取方法   总被引:3,自引:0,他引:3  
在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识.本文提出一种基于分类算法的Web信息提取方法,通过将网页文本按照其显示属性的不同进行分组,以显示属性值为基础对Web页面文本进行分类,获取所关注文本,从而完成对web页面的信息提取.这种提取方法操作简单,易于实现,对网页结构的依赖性小.  相似文献   

13.
语言类多媒体课件需要使用与音频同步的字幕显示,音频文件分为两种类型:整段音频和单句音频,对整段音频可以采用时间点检查的方式确定当前显示的文字,单句音频可以使用播放控件本身的文件切换事件来确定。通过在HTML环境下使用MediaPlayer控件给出了这两种音频文件同步字幕显示的具体解决方案。  相似文献   

14.
语言类多媒体课件需要使用与音频同步的字幕显示,音频文件分为两种类型:整段音频和单句音频,对整段音频可以采用时间点检查的方式确定当前显示的文字,单句音频可以使用播放控件本身的文件切换事件来确定。通过在HTML环境下使用Media Player控件给出了这两种音频文件同步字幕显示的具体解决方案。  相似文献   

15.
基于XML的HTML自动阅卷算法设计与实现   总被引:1,自引:0,他引:1  
自动阅卷技术在当今计算机基础教育中起着重要作用。当前主流的基于文档对象模型的HTML网页自动阅卷方法存在准确性低及在大数据量时阅卷效率差的问题。文中介绍了一种基于XML的HTML网页自动阅卷算法,它根据XML与HTML格式上的相似性将HTML文件转换成XML文件,然后利用各种程序语言对XML良好的支持来进行HTML网页自动阅卷过程中的信息处理。该算法不仅可以避免传统人工阅卷的低效率及结果的主观性,而且在准确率及稳定性方面比文档对象模型方法有很大提高,为HTML网页制作考核提供了一种有效可行的方法。  相似文献   

16.
采用融合自注意力机制的双向长短期记忆模型(SelfAtt-BILSTM)和条件随机场模型(CRF),构建一种SelfAtt-BILSTM-CRF模型,对政策文本进行语义角色标注,以提取政策主要内容。采用某高校政策文件为实验数据集,利用BILSTM模型自动学习序列化语句上下文特征,融合自注意力机制增加重要特征元素的权重,通过CRF层利用特征进行序列标注,提取语义角色,以实现政策文件的主要内容挖掘。经过对比验证,该模型能够有效地提取政策文本内容,在标注数据集上F1值达到78.99%。实验结果同时表明,自注意力机制能够有效提高神经网络模型的语义角色标注效果。  相似文献   

17.
VBA在软件文档编制中的应用   总被引:6,自引:1,他引:6  
文档是软件的重要组成部分。对于汇编语言程序开发,良好的说明文档显得尤其重要。软件的文档大致可以包括说明文档、流程图和源程序等。超文本能够在不同的文档之间以及文档内部不同的地方建立交叉参考。本文介绍了如何通过VBA语言在Word软件下缩写宏命令。自动给软件说明文档增加超级链接。提高软件文档的功能。  相似文献   

18.
现有的从PDF文档抽取文本内容的方法(如PDFBox类库采用的方法)处理速度较低,无法满足高速网络中内容分析的需求,也不能对网络中部分到达的PDF数据包进行流式的处理。为此,提出了基于自动机理论的PDF文本内容抽取方法。该方法通过建立具有层次的关键字自动机,可以快速地抽取完整PDF文档和不完整PDF文档中的文本内容。在中文和英文PDF文档数据集下的实验结果表明,基于自动机理论的PDF文本内容抽取方法耗时仅为PDFBox方法的17%~37%。  相似文献   

19.
有效HTML文本信息抽取方法的研究*   总被引:5,自引:1,他引:4       下载免费PDF全文
从新闻网页和博客网页中抽取出正文内容是一个非常有意义的研究问题,但是多数网页中含有大量与正文无关的噪声内容,导致很难从网页中获取正确的文本信息。分析了中文新闻与博客网页的正文特征,用实验表明了利用HTML与文本的密度比可以进行文本的识别与抽取。提出了机器学习、统计估计以及FDR三种HLML正文抽取方法,并作了大量的实验比较和分析。实验结果表明,该算法可以有效地过滤噪声而且算法的复杂度很低,效率与效果均达到一个很好的平衡。  相似文献   

20.
通过检测虚拟机内部的隐藏文件,检测工具可以及时判断虚拟机是否受到攻击.传统的文件检测工具驻留在被监视虚拟机中,容易遭到恶意软件的攻击.基于虚拟机自省原理,设计并实现一种模块化的虚拟机文件检测方法FDM. FDM借助操作系统内核知识,解析虚拟机所依存的物理硬件,构建虚拟机文件语义视图,并通过与内部文件列表比较来发现隐藏文件. FDM将硬件状态解析和操作系统语义信息获取以不同模块实现,不仅具备虚拟机自省技术的抗干扰性,还具备模块化架构的可移植性与高效性.实验结果表明, FDM能够准确快速地检测出虚拟机内部的隐藏文件.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号