首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
基于网页分块的正文信息提取方法   总被引:3,自引:0,他引:3  
网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度.提出了一种基于网页分块的正文信息抽取方法.该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字.实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现.  相似文献   

2.
一种基于分类算法的网页信息提取方法   总被引:3,自引:0,他引:3  
在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识.本文提出一种基于分类算法的Web信息提取方法,通过将网页文本按照其显示属性的不同进行分组,以显示属性值为基础对Web页面文本进行分类,获取所关注文本,从而完成对web页面的信息提取.这种提取方法操作简单,易于实现,对网页结构的依赖性小.  相似文献   

3.
针对空战知识获取问题展开研究,提出了一条从海量飞行参数中获取知识的途径。构建空战专家系统知识库;对于飞行动作规则知识的提取,提出了一种基于樽海鞘群优化算法的飞行动作规则知识提取方法,为了使提取的规则知识简洁有效,对算法的评价函数进行了设计。通过对水平右转弯机动动作和斤斗动作进行规则提取仿真与分析,验证了该方法的有效性和可行性。  相似文献   

4.
正则表达式在远程网页下载中的应用   总被引:1,自引:0,他引:1  
分析了远程网页的结构特征,阐述了正则表达式在网页下载中的应用,提出了运用正则表达式匹配替换多余HTML源文件和直接在HTML源文件中匹配提取元数据的两种获取远程数据的方法,同时完成了数据解析、提取及保存的整个过程,并将文章所附有的附件、图片及音频等文件下载到本地服务器。  相似文献   

5.
基于规则模型的网页主题文本提取方法   总被引:1,自引:1,他引:0  
通过对网页结构化和半结构化信息的分析,提出了一种基于规则模型的网页正文提取方法.该方法在总结HTML标签的不同应用特征和网页布局的结构特征的基础上,通过定义一系列过滤、提取和合并规则来建立一个通用的网页正文抽取模型,以达到有效提取网页主题文本的目的.实验结果表明,该方法对于各类型网页主题文本的提取均具有较高的准确卒,通用性强.  相似文献   

6.
分析了远程网页的结构特征,阐述了正则表达式在网页下载中的应用,提出了运用正则表达式匹配替换多余HTML源文件和直接在HTML源文件中匹配提取元数据的两种获取远程数据的方法,同时完成了数据解析、提取及保存的整个过程,并将文章所附有的附件、图片及音频等文件下载到本地服务器.  相似文献   

7.
基于链接分块的相关链接提取方法   总被引:1,自引:0,他引:1  
每个网页都包含了大量的超链接,其中既包含了相关链接,也包含了大量噪声链接。提出了一种基于链接分块的相关链接提取方法。首先,将网页按照HTML语言中标签将网页分成许多的块,从块中提取链接,形成若干链接块;其次,根据相关链接的成块出现,相关链接文字与其所在网页标题含相同词等特征,应用规则与统计相结合的方法从所有链接块中提取相关链接块。相关链接提取方法测试结果,精确率在85%以上,召回率在70%左右,表明该方法很有效。  相似文献   

8.
使用基于关键词匹配的方法,分析了 HTML 语言描述的Web文档,提取网页中有用的特征信息,得到两类标记中的内容:一类是网页的全局描述信息,如;另一类起局部修饰作用,强调了网页的部分内容,如.从而提出了基于层次概念的用户模型,并使用向量空间模型方法建立了以突发事件新闻为基础的用户兴趣模型.实验表明,这种方法有一定的可行性.  相似文献   

9.
面向敏感网页识别,设计并实现了一种网页内容获取方案.该方案主要包括HTML(Hypertext Markup Language)源文件的获取、文本获取、图像获取及穿插其中的HTML源文件解析等4部分内容.测试结果表明,无论是中文网页还是英文网页,本设计方案均能获得网页上的文本和图像内容信息,所获取的内容可以满足后续敏感网页识别的应用需求.  相似文献   

10.
Web页面信息通常包含大量无关结构和HTML标记,而页面主题信息通常淹没其中,如何快速获取Web页面主题信息。本文提出了一种抽取策略,首先判定是否为主题型页面,然后提取网页正文信息,最后利用正则表达式滤除内容块中HTML标记和无关文字。实验结果表明:该方法能准确地完成主题型网页的正文抽取任务。  相似文献   

11.
随着信息社会的发展,互联网的盛行,有很多的人开始学习制作自己的个人网站。网页制作涉及到HTML语言、CSS层叠样式表、JAVASCRIPT语言等知识。利用CSS样式表可以实现网页中非常实用的一些效果,比如说背景图片的平铺方式;了解HTML语言可以在网页中随心所欲的修改代码,从而在网页中插入动听的背景音乐,实现QQ在线客户服务等;利用JAVASCRIPT脚本语言更是可以在网页中实现很多漂亮的效果,比如说随机图片、随机FLASH等效果。  相似文献   

12.
WAP页面转换代理系统原理及其实现   总被引:2,自引:0,他引:2  
为了解决WAP应用层与Web应用层之间的语言差别,文章提出了一个WAP页面转换代理系统的方案,设计并实现了从HTML到WML网页转换算法,并提出利用知识库构造基于Web内容的自适应页面转换代理的处理方法。实验证明,该方法能够很好地解决移动计算设备上网存在的语言差异问题,另一方面,它也能够较好地解决普通Web页面无线设备上显示时可能出现的布局失调问题。  相似文献   

13.
恶意网页是一种新型的Web攻击手法,攻击者通常将一段恶意代码嵌入网页中,当用户访问该网页时,恶意代码会试图利用浏览器或其插件漏洞在后台隐秘地执行一系列恶意行为.针对恶意网页静态特征抽取问题,本文从已有的特征中选取了14个信息增益值较高的特征,并通过分析恶意网页的混淆手法提出了8个新的特征,共同组成了22维的静态特征体系.此外,针对已有特征抽取流程提出两点改进:对不同编码格式的原始网页进行预处理;回送JavaScript脚本动态生成的的HTML代码,用以进一步抽取HTML相关特征.实验表明,在不均衡数据集和均衡数据集上,本文的特征体系具有一定的有效性.  相似文献   

14.
一种基于XML的Web页面定义语言   总被引:4,自引:0,他引:4  
李效东 《软件学报》2002,13(1):142-149
数据密集(data-intensive)型Web站点是指那些将大量的异构数据源的数据进行集成以后所生成的Web站点.此类站点的建设可以划分为3项主要任务:数据的访问与集成、站点结构的构造(指定各页面所含内容以及各页之间的链接)和页面的HTML表示.以XML以及来自W3C的相关规范为基础,构建了一种Web页面定义语言WPDL(Web page definition language).给出了WPDL的一个简化的EBNF表示,并举例说明了WPDL的关键特性.并且说明,使用这种说明式的查询语言(declarative query language),可以将数据访问、站点结构生成与页面表示彼此分离开来,使站点的重构(restructuring)、重用(reusability)和完整性约束的实施(integrity constraint enforcement)成为可能.  相似文献   

15.
基于多层模式的多记录网页信息抽取方法   总被引:3,自引:0,他引:3  
为有效解决网页信息抽取所需知识的获取问题,提出一种基于多层模式的网信息抽取方法,(简称HPIE方法)。将网页信息抽取知识分为若干层,由抽象到具体逐层描述信息识别模式知识。HPIE方法能够利用各抽取对象之间存在的相互联系,以及抽取过程与结构所表成的新学习样本,不断完善多层模式的知识内容,并帮助最终从多个信息内容类似但其描述格式各异的HTML网页中,抽取出所需的多记录信息内容,有关多个(美国大学教员)论文目录网页的抽取实验结果表明,HPIE方法具有较强的网而信息自适应抽取能力。  相似文献   

16.
传统互联网页面是基于HTML语法结构的,这种结构适合于计算机上的显示.但页面所表达的含义需要用户在浏览的时候加以识别,这对于信息的检索和实现知识的共享是非常不便的。文章介绍了一种根据HMTL语法结构来实现HTML页面到RDF文档的转化方法,它可以将HTML文档从结构上转换为以XML语法为基础的RDF文档。  相似文献   

17.
网络机器人是搜索引擎中的核心部分,其首要步骤是获取页面内容来分析和追踪其包含的链接,以便搜索更多的网页.出于某些安全和商业因素,有些网站的相关内容必须要在有效用户登录后才可以查看,所以其相关页面的下载,首先需要通过身份验证.这就需要使用HTTP用户认证机制来判别用户身份,本文主要论述了怎么样用C#来实现通过HTTP用户认证实现页面下载.  相似文献   

18.
19.
用PHP制作动态Web页面时,在提交服务器之前,让PHp根据用户在当前页面上录入的某字段的值,立即从数据库中取出相关的其他字段的值并显示到当前页面上,是PHP程序开发中的难点.本文以一个具体实例,详细介绍了怎样将两个HTML内嵌式语言PHP和JavaScript巧妙结合起来解决这个难点的具体方法.  相似文献   

20.
Classical Web crawlers make use of only hyperlink information in the crawling process. However, focused crawlers are intended to download only Web pages that are relevant to a given topic by utilizing word information before downloading the Web page. But, Web pages contain additional information that can be useful for the crawling process. We have developed a crawler, iCrawler (intelligent crawler), the backbone of which is a Web content extractor that automatically pulls content out of seven different blocks: menus, links, main texts, headlines, summaries, additional necessaries, and unnecessary texts from Web pages. The extraction process consists of two steps, which invoke each other to obtain information from the blocks. The first step learns which HTML tags refer to which blocks using the decision tree learning algorithm. Being guided by numerous sources of information, the crawler becomes considerably effective. It achieved a relatively high accuracy of 96.37% in our experiments of block extraction. In the second step, the crawler extracts content from the blocks using string matching functions. These functions along with the mapping between tags and blocks learned in the first step provide iCrawler with considerable time and storage efficiency. More specifically, iCrawler performs 14 times faster in the second step than in the first step. Furthermore, iCrawler significantly decreases storage costs by 57.10% when compared with the texts obtained through classical HTML stripping. Copyright © 2013 John Wiley & Sons, Ltd.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号