共查询到20条相似文献,搜索用时 156 毫秒
1.
基于网页分块的正文信息提取方法 总被引:3,自引:0,他引:3
网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度.提出了一种基于网页分块的正文信息抽取方法.该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字.实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现. 相似文献
2.
3.
针对空战知识获取问题展开研究,提出了一条从海量飞行参数中获取知识的途径。构建空战专家系统知识库;对于飞行动作规则知识的提取,提出了一种基于樽海鞘群优化算法的飞行动作规则知识提取方法,为了使提取的规则知识简洁有效,对算法的评价函数进行了设计。通过对水平右转弯机动动作和斤斗动作进行规则提取仿真与分析,验证了该方法的有效性和可行性。 相似文献
4.
正则表达式在远程网页下载中的应用 总被引:1,自引:0,他引:1
黄光芳 《计算机与信息技术》2007,(3)
分析了远程网页的结构特征,阐述了正则表达式在网页下载中的应用,提出了运用正则表达式匹配替换多余HTML源文件和直接在HTML源文件中匹配提取元数据的两种获取远程数据的方法,同时完成了数据解析、提取及保存的整个过程,并将文章所附有的附件、图片及音频等文件下载到本地服务器。 相似文献
5.
基于规则模型的网页主题文本提取方法 总被引:1,自引:1,他引:0
通过对网页结构化和半结构化信息的分析,提出了一种基于规则模型的网页正文提取方法.该方法在总结HTML标签的不同应用特征和网页布局的结构特征的基础上,通过定义一系列过滤、提取和合并规则来建立一个通用的网页正文抽取模型,以达到有效提取网页主题文本的目的.实验结果表明,该方法对于各类型网页主题文本的提取均具有较高的准确卒,通用性强. 相似文献
6.
黄光芳 《数字社区&智能家居》2007,2(12):1533-1534
分析了远程网页的结构特征,阐述了正则表达式在网页下载中的应用,提出了运用正则表达式匹配替换多余HTML源文件和直接在HTML源文件中匹配提取元数据的两种获取远程数据的方法,同时完成了数据解析、提取及保存的整个过程,并将文章所附有的附件、图片及音频等文件下载到本地服务器. 相似文献
7.
基于链接分块的相关链接提取方法 总被引:1,自引:0,他引:1
每个网页都包含了大量的超链接,其中既包含了相关链接,也包含了大量噪声链接。提出了一种基于链接分块的相关链接提取方法。首先,将网页按照HTML语言中标签将网页分成许多的块,从块中提取链接,形成若干链接块;其次,根据相关链接的成块出现,相关链接文字与其所在网页标题含相同词等特征,应用规则与统计相结合的方法从所有链接块中提取相关链接块。相关链接提取方法测试结果,精确率在85%以上,召回率在70%左右,表明该方法很有效。 相似文献