首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
Many HTML pages are generated by software programs by querying some underlying databases and then filling in a template with the data. In these situations the metainformation about the data structure is lost, so automated software programs cannot process these data in such powerful manners as information from databases. We propose a set of novel techniques for detecting structured records in a web page and extracting the data values that constitute them. Our method needs only an input page. It starts by identifying the data region of interest in the page. Then it is partitioned into records by using a clustering method that groups similar subtrees in the DOM tree of the page. Finally, the attributes of the data records are extracted by using a method based on multiple string alignment. We have tested our techniques with a high number of real web sources, obtaining high precision and recall values.  相似文献   

2.
针对Web遭受跨站脚本攻击越来越严重的问题,设计了一个基于指令集随机化的服务器端XSS检测和防御模型,并在PhpBB网络论坛系统中进行了实现,通过对实验结果的分析可知,本系统可以很好地检测和防御反射型XSS攻击和存储型XSS攻击,同时能检测和防御因网络或操作系统层漏洞导致的网页篡改和网页挂马等恶意攻击行为。  相似文献   

3.
This tutorial explains and describes the use of several microformats, which make information marked up in HTML available for use in applications outside traditional web browsers. Because microformats consist of minor additions to the HTML backbone of common webpages, they represent a simple but significant move toward what Tim Berners-Lee has called the “Semantic Web”—but without requiring the technical and practical shifts and time demands of a complete XML-based semantic-web-development approach. Microformats also provide technical communicators with literacies and a conceptual foundation to approach more advanced Semantic Web technologies and suggest ways to refine current web design practice.   相似文献   

4.
HTML5是未来移动互联网的核心平台,更是未来移动互联网时代的技术制高点,但是它目前还没有成为W3C正式的推荐标准。这是因为首先HTML5在音视频标准上存在多版本,其次HTML5的专利风险使它的产业化前景出现了一定的不确定因素,再次,HTML5的Web存储中存在版权风险,最后,HTML5目前还无法通过技术措施实施数字版权管理。尽管HTML5的标准化进程存在着一些不确定性,但其很可能打破目前应用商店为主的移动互联网商业模式,并为中国ICT企业提供巨大的产业机遇和挑战。  相似文献   

5.
Web信息抽取技术一直是信息技术领域的研究热点。而且,近年来,DIV+CSS的网页布局方法开始普遍应用于网页设计中。基于此,提出了一种较为简单和实用的基于正文特征和网页结构的新闻网页正文抽取方法。首先识别和提取网页正文内容块,然后利用正则表达式滤除内容块中的HTML标记并提取网页正文。实验结果表明,该方法对正文抽取具有较高的通用性与准确率。  相似文献   

6.
7.
基于改进HTML-Tree的中文网页特征向量提取方法   总被引:1,自引:0,他引:1  
中文网页特征向量的提取是提高中文网页分类准确度和召回度的关键.经过研究HTML网页的结构特点,提出一种基于改进的HTML-Tree及网页元素权重的中文网页文本预处理方法,并在此基础上进行网页文本特征向量的提取.该方法充分利用不同类别网页的特点,考虑了网页内各种元素权重的贡献.经过实验验证,该方法提高了网页特征向量提取的效率,有效提高了中文网页分类的准确度和召回度.  相似文献   

8.
9.
HTML5草案的前身名为Web Applications 1.0,于2004年被WHATWG提出,于2007年被接纳,并成立了新的HTML工作团队。HTML5的第一份正式草案已于2008年1月22日被公布。HTML5仍处于完善之中,但大部分已经具备了某些HTML5支持。2013年,随着移动互联网的高速发展,HTML5也将迎来前所未有的发展机会。本文阐述了HTML5的内涵、发展进程、存在的问题、发展趋势等。  相似文献   

10.
在网络数据膨胀的今天,将网络中有用数据摘录下来,并组织成脱机Web应用程序形式,不但便于移动设备浏览,而且能有效减少移动流量消耗,节省费用,提高安全性.为此,讨论了HTML5应用程序缓存机制、数据挖掘规则定义与数据提取、数据清洗入库、脱机Web应用程序的实现.在数据挖掘的过程中,一些动态网页需要进行登录认证才能访问,登录认证的方式有多种,如HTTPS、HTTP Digest、HTTP Basic和网页表单认证等,为减少复杂性,文中采用了FireFox浏览器安全认证方式.在数据清洗入库和脱机Web应用程序生成的过程中,利用PHP脚本和Html5语言,实现了相关功能.实验表明,文中方法可行,效果较好.  相似文献   

11.
12.
提出了中国超文本链接标记语言5(HTML5)技术的发展策略:以操作系统Web化路径为发展主线,坚持以原生操作系统为核心的技术创新,在原生操作系统基础上研发和部署自主的Web运行环境,并行支持原生应用与Web应用两种应用生态;以平台型浏览器路径为发展辅线,大力支持中国自主平台型浏览器的研发与产业化,并推动自主浏览器与自主操作系统在终端能力调用、性能及功耗优化、应用生态构建等方面展开深度合作.  相似文献   

13.
For Korean language processing, morphological analysis is a critical component that requires extensive work. This morphological analysis can be conducted in an end‐to‐end manner without requiring a complicated feature design using a sequence‐to‐sequence model. However, the sequence‐to‐sequence model has a time complexity of O(n2) for an input length n when using the attention mechanism technique for high performance. In this study, we propose a linear‐time Korean morphological analysis model using a local monotonic attention mechanism relying on monotonic alignment, which is a characteristic of Korean morphological analysis. The proposed model indicates an extreme improvement in a single threaded environment and a high morphometric F1‐measure even for a hard attention model with the elimination of the attention mechanism formula.  相似文献   

14.
周舟  付文亮  嵩天  刘庆云 《电子学报》2015,43(9):1833-1840
URL查找是众多网络系统中重要的组成部分,如URL过滤系统、Web缓存等.随着互联网的迅速发展,URL查找面临的主要挑战是实现大规模URL集合下的高速查找,同时保证低存储和低功耗.本文提出了一种基于并行Bloom Filter的URL查找算法,CaBF.该算法高度并行化,提供大规模URL集合下的高速最长前缀匹配,并很好地适应集合中不同数量的URL组件.理论分析和真实网络数据集上的实验表明,该算法相比现有算法可以降低假阳性概率达一个数量级(或者在满足相同假阳性概率的前提下降低存储和硬件逻辑资源消耗).此外,该方法的体系结构很容易映射到FPGA等硬件器件上,提供每秒超过150M次的URL查找速度.  相似文献   

15.
随着Web应用在互联网中的迅速发展,出现了大量的Web安全漏洞,其中最为突出的是跨站脚本(XSS)漏洞攻击.为了对Web应用中的XSS漏洞进行有效的检测和防御,通过分析XSS漏洞的特征及原理,总结出产生该漏洞攻击的几大主要原因,结合目前常用漏洞检测方法提出几种XSS漏洞攻击的防御方法,可有效识别和防范XSS漏洞攻击,对Web应用具有较高的实用性.  相似文献   

16.
HTML 5的新特性加强了Web网页的视觉效果并追加了本地数据库的Web应用功能。它的到来进一步推动了互联网的急速发展,然而HTML5与其它新技术一样,在产生巨大效益的同时,也伴随着源源不断的安全问题。本文从HTML5新标签的安全性能和新应用功能两个方面阐述了HTML5带来的安全问题和怎么样防范这些安全漏洞。  相似文献   

17.
基于网络设备的网页过滤的设计   总被引:1,自引:1,他引:0  
为实现统一高效的网页内容过滤,提出了一种在网络设备上对网页进行过滤的方法。采用URL(Uniform Resource Location)过滤与内容过滤相结合的方式;通过设置黑白名单和老化机制,来改进URL过滤;考虑网页的结构化特性,通过改进特征的权值的计算公式,并采用K近邻(KNN)分类算法,改进内容过滤。实例的分析表明:该方法能够在满足用户延迟要求的情况下,对网页进行比较精确的过滤。  相似文献   

18.
Digital Video Transcoding   总被引:14,自引:0,他引:14  
Video transcoding, due to its high practical values for a wide range of networked video applications, has become an active research topic. We outline the technical issues and research results related to video transcoding. We also discuss techniques for reducing the complexity, and techniques for improving the video quality, by exploiting the information extracted from the input video bit stream.  相似文献   

19.
Orthogonal frequency division multiplexing (OFDM) transmission equipped with multiple receive antennas constitutes a single‐input multiple‐output (SIMO) OFDM system. SIMO‐OFDM systems have been widely used in wireless communications. Compared to those approaches using training sequences, blind channel estimation methods for SIMO‐OFDM systems have the advantage of saving bandwidth and improving energy efficiency and system throughput. As far as blind channel identification is concerned, it is known that zero padding (ZP)‐based single‐input single‐output (SISO)‐OFDM systems have desirable features compared to conventional cyclic prefix (CP)‐based SISO‐OFDM systems. However, it is yet unknown whether ZP‐ or CP‐based SIMO‐OFDM systems are favourable for blind channel estimation. To investigate this problem, we first propose a short‐data effective method for blind channel estimation for ZP‐based SIMO‐OFDM systems. Then we analyse a number of issues surrounding blind channel estimation for ZP‐ and CP‐based SIMO‐OFDM systems. The issues brought up in the paper have not been discussed in the existing research. The significance of our investigation is that it provides a deep insight into blind channel estimation for ZP‐ and CP‐based SIMO‐OFDM systems. Copyright © 2011 John Wiley & Sons, Ltd.  相似文献   

20.
目前,Andriod智能手机平台已经成为人们获取信息的重要方式之一,但在使用过程中,经常遇到在手机平台上登陆某个网址需要输入较复杂的URL地址,造成使用不便。WebView是Andriod平台基于WebKit引擎的浏览器组件,用来显示网页或者显示应用的在线内容。基于WebView可以快速开发浏览器的上层应用,响应网页的加载和脚本的交互。本文将介绍使用Webview组件将固定网址封装成一个Andriod程序的方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号