首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
文章提出一种基于DOM的Web信息提取方法,通过归纳学习获得被提取信息的定位路径,利用XPath和XSLT在数据定位和数据转换方面的特点编写提取模式,根据网页元素与DOM节点对应关系,判断所获得信息源是否适用于已有提取模式。  相似文献   

2.
张瑞雪  宋明秋  公衍磊 《计算机科学》2011,38(4):213-215,225
一般地,从HTML网页中提取正文信息,应先将HTML、网页解析成DOM树,然后遍历DOM树,依据目标信息在DOM树中的分布规律,将信息从DOM树中提取。这种传统方法将解析DOM树和从DOM树中提取信息看成两个独立的过程,制约了提取信息的速度。事实上,在准确提取目标信息的过程中,独立解析整个DOM树是没有必要的。在此,提出了逆序解析DOM树算法,并结合DOM树相似理论和传统的顺序解析算法,从部分目标信息开始分别向后顺序和向前逆序解析DOM树,同时定位并获取其他目标信息。利用该方法提取网页正文信息,一方面只需解析部分DOM树,从而减少了解析树结构花费的时间,另一方面不需要遍历整个DOM树查找目标信息,从而节省了查找时间,大大提高了信息提取速度。最后,通过实验证实了该方法的优越性。  相似文献   

3.
Div+CSS流行于Web页面的布局,在这种布局下,网页中很多数据记录以重复结构的形式聚集在一个层级.提出一种基于属性标签的Web数据提取的方法,构造带有属性标签的DOM树,通过比较属性标签的值挖掘重复模式,制定三个规则排除干扰模式,找到数据域,进而从数据域中提取出数据记录.  相似文献   

4.
为解决异构DeepWeb结果页面中数据区域及数据记录的自动抽取问题,提出一种基于DOM树与领域本体的Web抽取方法。利用数据内容特征以及领域本体库标记DOM树的节点,按照结果页面展示规律定位数据区域,根据改进的简单树匹配算法,定位数据区域及数据记录。实验结果表明,该方法定位数据区域及数据记录的F-measure值比传统的抽取方法高2.93%~6.67%。  相似文献   

5.
基于DOM和元数据的Web信息提取   总被引:5,自引:0,他引:5  
以W3C的文档对象模型DOM和元数据为基础,把要提取的信息以DOM层次结构中的路径表达式来表示,通过归纳学习来获得所需信息的路径表达式,从而获得提取信息;元数据在信息提取过程中起到关键作用,它以XML的DTD表示,可以由信息服务商提供,也可以由开发人员给出,适应了信息源不断变化的特点。  相似文献   

6.
本文研究如何快速有效地从XML数据中挖掘频繁模式,提出了从XML数据中挖掘频繁模式的增量式算法FreqtTree.该算法首先将XML文档转化成DOM树,然后从DOM树中挖掘所有频繁模式.FreqtTree算法采用最右扩展技术,对DOM树仅遍历一次,因此具有很高的效率.在此基础上详细描述了基于DOM树的关联规则挖掘算法DFreqtTree.最后将本文提出的算法用Java语言实现,并进行性能分析,结果表明算法是高效可行的.  相似文献   

7.
李洁  俞研  吴家顺 《计算机应用》2016,36(5):1246-1249
针对Web客户端中基于文档对象模型的跨站脚本攻击(DOM XSS)漏洞检测问题,提出一种基于动态污点分析的DOM XSS漏洞检测算法。通过构造DOM模型和修改Firefox SpiderMonkey脚本引擎,利用动态的、基于bytecode的污点分析方法实现了DOM XSS漏洞的检测。对DOM对象类属性的扩展和SpiderMonkey字符串编码格式的修改可以完成污点数据标记;遍历JavaScript指令代码bytecode的执行路径,获得污点传播路径,实现污点数据集的生成;监控所有可能会触发DOM XSS攻击的输出点,实现DOM XSS漏洞的判定。在此基础上,利用爬虫程序设计并实现了一个互联网DOM XSS漏洞检测系统。实验结果表明,所提算法能有效检测网页存在的DOM XSS漏洞,其检测率可达92%。  相似文献   

8.
基于DOM树和递归X—Y分割算法的Zone树模型   总被引:2,自引:2,他引:0       下载免费PDF全文
黄歆  桑楠 《计算机工程》2009,35(5):53-55
在分析DOM树的基础上提出一种基于DOM树和递归X—Y分割算法,可以根据网页的几何布局生成Zone树模型。描述了将Zone树模型和递归X—Y算法应用到文献数据检索的优越性,给出构建Zone树模型的算法。该模型主要用于在线文献的数据提取,具有速度快、准确性高等特点,优于目前大多数浏览器所采用的DOM树结构。  相似文献   

9.
用DOM树实现XML与高级语言的数据交互   总被引:3,自引:0,他引:3  
用DOM树解析XML文档,实现XML与高级语言的数据交互。以VB6.0为例,提供二段源代码完成XML文档的生成、数据提取等工作。  相似文献   

10.
利用DOM类库检索XML文档   总被引:1,自引:0,他引:1  
文档对象模型(DOM)是一种与平台无关、语言无关的标准接口,是XML文档操作的基础。论述了XML的应用前景和应用现状,提出了用高级语言中封装的DOM类库检索和解析XML文档,以VB6.0为例,来完成XML文档的检索和数据提取等工作。  相似文献   

11.
朱炎  朱凯 《计算机科学》2012,39(12):149-152
通过分析Web-Harvest数据提取规则的设计原理,设计实现了一个xScraper系统。该系统的主要功能有: (1)定制设计满足不同需求的Web数据提取规则模板,驱动Web-Harvest内核进行无结构化信息提取;(2)批量可控 提取同一网址中的W cb信息(含图像);(3)跨网站深度提取主题相关信息;(4)提取Web信息元数据并将其转换为 XML标签;(5)实现无结构化多媒体信息的数据库管理。应用结果表明,系统提供了超出Web-Harvest的加值功能, 可满足不同的信息提取需求,其简单实用,便于扩展。  相似文献   

12.
本文设计实现了一种Web信息检索系统,面向有特定需求的特殊用户群,采用基于web站点处理的情报采集策略。先对各站点页面随机采样,提取出包含敏感信息页面的web站点,再采集敏感站点中的相关页面生成本地敏感资源库,并对库中的文本页面用改进的TFIDF算法分析处理,以满足用户的查询。该系统能够提高Web页面信息的检索精确度和检测更新率,并可据某一专题方向对Web站点进行简单的自动分类。  相似文献   

13.
实现了一个可提供基于位置的移动餐厅推荐及导航服务的系统。结合最新的Web2.0应用数据,实现了多模式的餐厅信息推送服务,包括基于模糊条件约束的查询机制,基于位置的地图浏览模式和基于三维标签云的协同信息共享机制,为用户提供实时的基于位置的餐厅个性推荐及导航。同时,针对移动手机屏幕较小,显示内容受限的问题,研究并提出了一个“面向移动终端的多维标签云可视化方法”,并实现了一种标签云关联分析和聚类算法,实现了基于用户偏好的快速导航。  相似文献   

14.
According to the actual needs of university information data integration, the design objectives and ideas of university infor- mation data integration platform are put forward. Based on Java EE & HTML5, the technical framework of university mobile infor- mation platform is built. The design can give full play to the advantages of mobile communication; realize the centralized exchange of basic information of teachers and students, data collection and management of a single business system, access and exit mecha- nism, and single sign on of business information system.  相似文献   

15.
简介当前应用程序用户界面逆向T程的研究现状,对静态和动态两大类方法给予简单的说明和解释。分别用两种方法对简单系统进行界面信息提取实验.并比较提取信息的准确性和完备性。实验结果表明,动态方法更能准确地提取界面的信息。探讨用户界面逆向工程未来研究工作的重点和方向。  相似文献   

16.
基于结果模式的Deep Web数据抽取   总被引:3,自引:0,他引:3  
高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为Deep Web数据集成奠定了良好的基础.  相似文献   

17.
本文详细介绍了一种现代远程教育综合管理信息系统的设计与实现,该系统利用J2EE系列技术和Web应用程序经典的MVC架构,并对通常的MVC架构进行了改进,设计和实现了一种基于双Servlet控制器的混合型MVC架构,初步分析了该架构模型对整个系统性能的影响。文章分别从系统的设计目标、系统开发采用的技术方案、系统的结构模型、系统的设计与实现等几个方面对系统进行了详细的说明。  相似文献   

18.
GPRS在远程环境监理信息系统中的应用设计   总被引:6,自引:5,他引:6  
张鹏  张东来 《微计算机信息》2006,22(23):237-238
本文介绍了远程环境监理系统的组成和功能,给出了采用UDP数据传输协议时通过管理软件实现无数据包丢失的方案,解决了GPRS网络的自诊断在线和数据并发回传的问题。  相似文献   

19.
本文主要介绍在Access数据库中存储图像信息的两种方法以及如何用VB.NET对数据库中的图像信息进行存取。  相似文献   

20.
随着移动产业发展和移动技术的提高,基于位置的服务迅速发展,如交通导航、生活信息查询等等。基于位置业务创新已经成为移动产业发展的巨大推动力。但是目前手机地图所含信息量在某些方面缺少针对性,难以满足人们日益增大的信息需求。文中在iOS手机系统下设计和实现了基于位置的校内通系统,针对与在校大学生这个特殊的群体设计的软件,能充分满足广大学生的需求,通过该软件学生能快速方便地获取地理信息,不仅包括食堂、寝室、教学楼等所在的位置,还能获取食堂今天有什么优惠活动、体育馆开放时间等等和学生生活息息相关的信息。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号