共查询到20条相似文献,搜索用时 203 毫秒
1.
2.
一种Web主题文本通用提取方法 总被引:2,自引:0,他引:2
为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文Web主题文本提取方法。该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来。由于本方法不涉及具体的HTML标记分析,其通用性较强。实验结果表明该提取方法具有快速性和准确性,达到了构建大规模中文文本语料库的要求。 相似文献
3.
超文本标记语言HTML简介 总被引:1,自引:0,他引:1
一、HTML概述HTML是在标准通用标记语言(SGML)基础上建立起来的用于描述超文本的标记语言.SGML是ISO在1986年公布的文本描述标准(ISO8879);超文本是含有指向其它文档的指针的文本;标记是描述或分割文本中各对象的一种编码.二、HTML文件的结构与组成HTML文件为标准的ASCⅡ文本文件,是由各种具有语义的对象所构成的逻辑结构体.例如一份HTML文件可由标题、段落、列表、表格、单字及其它对象组成.在实际应用中, 相似文献
4.
5.
6.
正则表达式在远程网页下载中的应用 总被引:1,自引:0,他引:1
黄光芳 《计算机与信息技术》2007,(3)
分析了远程网页的结构特征,阐述了正则表达式在网页下载中的应用,提出了运用正则表达式匹配替换多余HTML源文件和直接在HTML源文件中匹配提取元数据的两种获取远程数据的方法,同时完成了数据解析、提取及保存的整个过程,并将文章所附有的附件、图片及音频等文件下载到本地服务器。 相似文献
7.
黄光芳 《数字社区&智能家居》2007,2(12):1533-1534
分析了远程网页的结构特征,阐述了正则表达式在网页下载中的应用,提出了运用正则表达式匹配替换多余HTML源文件和直接在HTML源文件中匹配提取元数据的两种获取远程数据的方法,同时完成了数据解析、提取及保存的整个过程,并将文章所附有的附件、图片及音频等文件下载到本地服务器. 相似文献
8.
针对Web中数据密集型的动态页面,文本数据少,网页结构化程度高的特点,介绍了一种基于HTML结构的web信息提取方法。该方法先将去噪处理后的Web页面进行解析,然后根据树编辑距离计算页面之间的相似度,对页面进行聚类,再对每一类簇生成相应的提取规则,对Web页面进行数据提取。 相似文献
9.
Web主题文本提取是从Web页面中找出文本型主题内容,对Web信息过滤具有重大作用。针对目前Web主题文本提取算法复杂而且响应速度较慢的不足,提出一种新的Web主题文本提取方法。该方法直接从HTML文档结构本身的特征出发,提取文档中文本的多个特征.并设计了一个有效的公式综合利用提取特征来定位主题文本。实验表明该算法简单、快速、有效,能很好地运用于Web信息过滤。 相似文献
10.
邵振凯 《计算机技术与发展》2013,(9)
随着互联网的快速发展,Web页面上的信息量已变得非常巨大,面对网页上海量的信息资源,如何快速有效地检索及发现有价值的信息已成为Web研究的一个重要方面。对此提出了一种标签提取方法。利用JTidy将网页优化为格式良好的HTML文档并解析为DOM树,然后用标签提取方法对该DOM树中包含有文本信息内容的叶子节点标签进行提取,把用于控制网页交互性和显示的标签删除掉,并运用基于标点符号的信息提取方法去除版权说明等信息。对不同网站的网页进行抽取实验,结果表明标签提取方法不但通用性强,而且能够准确地提取网页的主题信息。 相似文献
11.
一种基于VBA的通用Office文档转换方法 总被引:2,自引:0,他引:2
对于微软的办公软件Office平台的各种文件系统的相互转换不仅有理论价值,而且有其现实意义,如Word和普通文本文件,Word和Excel,Word和PowerPoint文件之间的格式和内容的转换,Office文档和HTML格式的转换都很重要,这里给出一种通用的转换软件开发方法,可以使一般的用户开发出自己需要的文件转换工具。 相似文献
12.
13.
语言类多媒体课件需要使用与音频同步的字幕显示,音频文件分为两种类型:整段音频和单句音频,对整段音频可以采用时间点检查的方式确定当前显示的文字,单句音频可以使用播放控件本身的文件切换事件来确定。通过在HTML环境下使用MediaPlayer控件给出了这两种音频文件同步字幕显示的具体解决方案。 相似文献
14.
语言类多媒体课件需要使用与音频同步的字幕显示,音频文件分为两种类型:整段音频和单句音频,对整段音频可以采用时间点检查的方式确定当前显示的文字,单句音频可以使用播放控件本身的文件切换事件来确定。通过在HTML环境下使用Media Player控件给出了这两种音频文件同步字幕显示的具体解决方案。 相似文献
15.
基于XML的HTML自动阅卷算法设计与实现 总被引:1,自引:0,他引:1
自动阅卷技术在当今计算机基础教育中起着重要作用。当前主流的基于文档对象模型的HTML网页自动阅卷方法存在准确性低及在大数据量时阅卷效率差的问题。文中介绍了一种基于XML的HTML网页自动阅卷算法,它根据XML与HTML格式上的相似性将HTML文件转换成XML文件,然后利用各种程序语言对XML良好的支持来进行HTML网页自动阅卷过程中的信息处理。该算法不仅可以避免传统人工阅卷的低效率及结果的主观性,而且在准确率及稳定性方面比文档对象模型方法有很大提高,为HTML网页制作考核提供了一种有效可行的方法。 相似文献
16.
采用融合自注意力机制的双向长短期记忆模型(SelfAtt-BILSTM)和条件随机场模型(CRF),构建一种SelfAtt-BILSTM-CRF模型,对政策文本进行语义角色标注,以提取政策主要内容。采用某高校政策文件为实验数据集,利用BILSTM模型自动学习序列化语句上下文特征,融合自注意力机制增加重要特征元素的权重,通过CRF层利用特征进行序列标注,提取语义角色,以实现政策文件的主要内容挖掘。经过对比验证,该模型能够有效地提取政策文本内容,在标注数据集上F1值达到78.99%。实验结果同时表明,自注意力机制能够有效提高神经网络模型的语义角色标注效果。 相似文献
17.
18.
19.
从新闻网页和博客网页中抽取出正文内容是一个非常有意义的研究问题,但是多数网页中含有大量与正文无关的噪声内容,导致很难从网页中获取正确的文本信息。分析了中文新闻与博客网页的正文特征,用实验表明了利用HTML与文本的密度比可以进行文本的识别与抽取。提出了机器学习、统计估计以及FDR三种HLML正文抽取方法,并作了大量的实验比较和分析。实验结果表明,该算法可以有效地过滤噪声而且算法的复杂度很低,效率与效果均达到一个很好的平衡。 相似文献
20.
通过检测虚拟机内部的隐藏文件,检测工具可以及时判断虚拟机是否受到攻击.传统的文件检测工具驻留在被监视虚拟机中,容易遭到恶意软件的攻击.基于虚拟机自省原理,设计并实现一种模块化的虚拟机文件检测方法FDM. FDM借助操作系统内核知识,解析虚拟机所依存的物理硬件,构建虚拟机文件语义视图,并通过与内部文件列表比较来发现隐藏文件. FDM将硬件状态解析和操作系统语义信息获取以不同模块实现,不仅具备虚拟机自省技术的抗干扰性,还具备模块化架构的可移植性与高效性.实验结果表明, FDM能够准确快速地检测出虚拟机内部的隐藏文件. 相似文献