首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接e、mail和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理。介绍了HTMLParser的原理和java正则表达式相关知识,基于HTMLParser包和正则表达式。以提取网站内部email信息为例,提出了Web信息抽取系统设计方案,阐述了email信息抽取的工作原理和关键技术,给出了email抽取算法,并详细介绍了系统的抽取URL、email和存储模块,抽取结果保存于数据库中,供机器检索利用。  相似文献   

2.
针对Web上的数据不能被计算机或应用程序所理解的问题,设计并实现了一种Web信息抽取工具,通过采用抽取过程逻辑定义与抽取过程执行模块相分离的设计方法,提高应用系统的灵活性、维护性,使得从Web上抽取的信息更加符合用户需求,达到了自动灵活地从Web上的海量数据中抽取有价值信息的效果.  相似文献   

3.
基于XML的Web半结构化信息抽取   总被引:1,自引:0,他引:1  
Web信息抽取是信息抽取技术在B/S体系中的新发展,在增量信息存储与搜索中有着广泛的应用。本文阐述的基于XML的Web半结构化信息抽取,是将Web表示层作为信息源,基于XML、JTidy数据清洗及Xquare-bridge等技术及开源项目,实现Web中半结构化的隐式信息点抽取,生成结构化、语义更清晰的表示及存储形式。  相似文献   

4.
该文分析了一种Web应用中新型的拒绝服务攻击-正则表达式拒绝服务攻击.在深入分析形成的原因和机理的基础上,该文提出了一个防范此攻击的检测模型.该模型从静态分析人手,检测网页源代码中可能存在的有漏洞的正则表达式,从渗透测试的角度对提取到的正则表达式进行动态测试,给出相应的漏洞防范措施,从而确保Web应用系统的可用性.  相似文献   

5.
针对目前国内外多种信息抽取方法中存在不同程度的局限性,提出一种基于DOM树和二叉树结构的Web表格信息抽取方法.该方法提供了以Web表格为信息抽取对象的、支持抽取方式选择的Web表格信息抽取工具.该工具将Html文档解析成DOM树,再将DOM树构建成一棵含有文本信息的二叉树,最后通过遍历二叉树实现对Web表格信息的抽取...  相似文献   

6.
信息抽取技术在LBS中的应用   总被引:1,自引:0,他引:1  
由于LBS系统的终端设备处理能力较低,显示屏幕较小,再加上无线数据网络带宽不足,因此无法浏览整个Web网页。采用信息抽取技术可以将用户感兴趣的信息提取出来,再发送给用户终端,有效地解决上述问题,信息抽取技术将是LBS系统中的一项重要应用。提出了一种基于信息抽取的从删.到WML的页面转换方法,首先标记少量的Web网页形成样本实例集,采用归纳算法生成信息抽取规则;其次应用抽取规则和模式匹配来处理结构和风格类似的Web页面;最后将抽取结果转换为WML页面。开发了原型系统,通过对实际数据源的抽取,验证了此方法的有效性。  相似文献   

7.
由于网页信息呈现的多样性和复杂性,基于Web数据挖掘的信息提取准确率不高。为了提高科技专家Web信息挖掘的正确率,提出一种基于Web数据挖掘的多因素科技专家信息提取方法,对于网页给定统一资源定位符(URL)先进行网页正文提取,综合特征词在网页正文中的位置及特征词与特征词之间的距离构成最短距离匹配方法,抽取科技专家姓名、性别、出生年月、出生地点、职称等信息。实验结果表明,该方法获得了94.43%的查全率和92.34%的准确率,较好地满足了应用需求。  相似文献   

8.
互联网的快速发展以及Web数据的日益庞大,使用户从Web中获取有用信息变得日益困难,如何快速有效地从Web中准确抽取信息已经成为亟待解决的问题,Web信息抽取技术应运而生.提出了一种新的基于XML的WEB信息自动抽取方法,采用数据转换算法将HTML文档标准化,通过学习样本实例的XPATH表达式,形成抽取规则库,并利用规则库对其它同类页面实现信息的自动抽取.实验结果表明,该方法具有较高的查全率和查准率,且抽取结果具有自描述性,方便于建立各个领域的数据抽取系统.  相似文献   

9.
通过分析当前Web文档抽取的主流方法以及存在的不足,提出了一种基于文本块的改进算法-BWTE(Block-base Web Text Extraction)。该算法首先采用过滤的方法去除广告、超链接等比较明显的噪音信息,然后通过自底向上的文本块分块算法抽取出Web文档的正文。  相似文献   

10.
为了给北京市知识产权预警能力研究提供基础数据,通过检索美国专利商标局(USPTO)网络专利数据库可以得到动态网页形式的专利信息.基于XML相关技术,提出了将这些网页形式的专利数据抽取到关系数据库的技术和方法.使用正则表达式匹配的方法进行页面过滤,将网页解析为文档对象模型(DOM)进行清洗,通过可扩散样式表转换语言(XSLT)模板抽取专利信息,并通过对象映射的方法将专利信息存入关系数据库,实现了专利信息抽取原型系统.实验结果表明,该原型系统具有较高的召回率和准确率.  相似文献   

11.
全自动网页信息采集系统   总被引:1,自引:0,他引:1  
随着网络时代的快速发展,用户对搜索引擎、网页的内容和大数据处理等有了更多的要求。从海量的互联网信息中选取最符合要求的信息成为了新的热点。基于一个开源的、Java开发的、可扩展的Web爬虫项目—Heritrix,进行扩展抓取用户需要的网页,深入研究了信息采集技术。利用Heritrix的可扩展性,来实现用户的抓取。通过分析Heritrix的工作流程,模块划分以及源码设计,基于Heritrix扩展抽取面向商品信息的网页,配合HtmlParser对网页内容进行解析,有效的提取商品关键信息后存入数据库以供检索。  相似文献   

12.
从网页由标记信息和数据信息两部分组成的结构特点出发,建立了基于标记信息隐藏和基于数据信息隐藏的融合策略,并据此构建了网页信息隐藏算法,该算法提高了网页信息隐藏的隐藏容量,也为载密信息选取网页作为通道的传输方式进行了探索。  相似文献   

13.
学术web平台蕴含着巨大的信息,通过统计分析提取这些信息,以便从海量非结构化数据世界中挖掘出新颖的、潜在的有用模式,正在成为数据分析处理的研究方向。针对已分大类的学术网页描述提取词汇链,创新提出最大相关方法对其进行扩充形成新的特征词是发现专业研究新趋势的有效手段。通过评价实验发现对词汇链拓展的最大相关方法比TF-IDF方法、最大熵方法、词汇链方式提取的特征词或短语更能有效地反映该研究方向相关趋势。  相似文献   

14.
为了解决网页篡改的问题,并对发生问题的web页面进行自动恢复.本文基于时间轮询技术与核心内嵌技术,设计并实现了一种网页防篡改系统.该系统能够实时的检测网页被篡改并进行实时阻断及后台恢复;系统能定时的对网站的文件进行扫描,并根据不同的扫描结果进行相应的处理.采用时间轮询技术与核心内嵌技术有效的弥补了采用一种技术带来的缺陷,保证网页的完整性及安全性,并且使网页的防护达到了实时性.  相似文献   

15.
网页防篡改软件的设计与实现   总被引:1,自引:0,他引:1  
针对各种网络攻击事件及Web网站内容的安全隐患,对网页监控技术进行研究,设计并实现了一套网页防篡改系统软件.该系统是基于C/S模式的三层体系结构,对网页实时监控,发现网页被篡改时能及时恢复并报警,能有效地保护网页资源.  相似文献   

16.
国内各级地方政府的门户网站相继建立了英文版网页,为国际人士了解我国各种事务和动态创造了条件。但是部分英文网页中存在种种语用失误,导致英语读者难以理解和接受政府英文网页中的信息。通过分析归纳发现,政府英文网页常见的三个问题:一是内容选材、风格设置没有针对性;二是语言质量参差不齐;三是非语言因素欠缺。以顺应理论为指导,研究发现英文网页中的语用失误产生的原因和规律,指出英语读者所处的交际环境决定着其对英文网页的理解程度,并总结英文网页中违反顺应原则而出现的失误类型,提出相应的整改意见。  相似文献   

17.
为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法. 首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽取该文本块中的正文节点内容. 该方法有效解决了网页正文块中噪声信息难以过滤和标签路径等特征易对正文部分外较长文本误抽取的问题,且无须训练和人工处理. 从知名网站上随机选取新闻网页数据集进行实验,验证了该方法在不同数据源上都具有很好的适用性,抽取精确度优于CETR、CETD等方法.  相似文献   

18.
基于分类语义的Web信息检索系统   总被引:2,自引:0,他引:2  
在海量数据空间中快速、准确地获取用户所需Web信息成为检索系统研究的焦点.将一种全新的网页自动分类技术引入WWW信息抽取领域来解决网上信息有效获取的问题。设计一个基于分类语义的搜索引擎系统——SESC系统.通过Web数据抽取机制以及Web信息分类技术实现检索结果的分类和层次化展示,使得用户快捷地从WWW上获取所需信息.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号