共查询到20条相似文献,搜索用时 46 毫秒
1.
Manuel Álvarez Alberto Pan Juan Raposo Fernando Bellas Fidel Cacheda 《Journal of Signal Processing Systems》2010,59(1):123-137
Many HTML pages are generated by software programs by querying some underlying databases and then filling in a template with
the data. In these situations the metainformation about the data structure is lost, so automated software programs cannot
process these data in such powerful manners as information from databases. We propose a set of novel techniques for detecting
structured records in a web page and extracting the data values that constitute them. Our method needs only an input page.
It starts by identifying the data region of interest in the page. Then it is partitioned into records by using a clustering
method that groups similar subtrees in the DOM tree of the page. Finally, the attributes of the data records are extracted
by using a method based on multiple string alignment. We have tested our techniques with a high number of real web sources,
obtaining high precision and recall values. 相似文献
2.
3.
《Professional Communication, IEEE Transactions on》2009,52(3):291-302
4.
HTML5是未来移动互联网的核心平台,更是未来移动互联网时代的技术制高点,但是它目前还没有成为W3C正式的推荐标准。这是因为首先HTML5在音视频标准上存在多版本,其次HTML5的专利风险使它的产业化前景出现了一定的不确定因素,再次,HTML5的Web存储中存在版权风险,最后,HTML5目前还无法通过技术措施实施数字版权管理。尽管HTML5的标准化进程存在着一些不确定性,但其很可能打破目前应用商店为主的移动互联网商业模式,并为中国ICT企业提供巨大的产业机遇和挑战。 相似文献
5.
Web信息抽取技术一直是信息技术领域的研究热点。而且,近年来,DIV+CSS的网页布局方法开始普遍应用于网页设计中。基于此,提出了一种较为简单和实用的基于正文特征和网页结构的新闻网页正文抽取方法。首先识别和提取网页正文内容块,然后利用正则表达式滤除内容块中的HTML标记并提取网页正文。实验结果表明,该方法对正文抽取具有较高的通用性与准确率。 相似文献
7.
基于改进HTML-Tree的中文网页特征向量提取方法 总被引:1,自引:0,他引:1
中文网页特征向量的提取是提高中文网页分类准确度和召回度的关键.经过研究HTML网页的结构特点,提出一种基于改进的HTML-Tree及网页元素权重的中文网页文本预处理方法,并在此基础上进行网页文本特征向量的提取.该方法充分利用不同类别网页的特点,考虑了网页内各种元素权重的贡献.经过实验验证,该方法提高了网页特征向量提取的效率,有效提高了中文网页分类的准确度和召回度. 相似文献
8.
9.
HTML5草案的前身名为Web Applications 1.0,于2004年被WHATWG提出,于2007年被接纳,并成立了新的HTML工作团队。HTML5的第一份正式草案已于2008年1月22日被公布。HTML5仍处于完善之中,但大部分已经具备了某些HTML5支持。2013年,随着移动互联网的高速发展,HTML5也将迎来前所未有的发展机会。本文阐述了HTML5的内涵、发展进程、存在的问题、发展趋势等。 相似文献
10.
在网络数据膨胀的今天,将网络中有用数据摘录下来,并组织成脱机Web应用程序形式,不但便于移动设备浏览,而且能有效减少移动流量消耗,节省费用,提高安全性.为此,讨论了HTML5应用程序缓存机制、数据挖掘规则定义与数据提取、数据清洗入库、脱机Web应用程序的实现.在数据挖掘的过程中,一些动态网页需要进行登录认证才能访问,登录认证的方式有多种,如HTTPS、HTTP Digest、HTTP Basic和网页表单认证等,为减少复杂性,文中采用了FireFox浏览器安全认证方式.在数据清洗入库和脱机Web应用程序生成的过程中,利用PHP脚本和Html5语言,实现了相关功能.实验表明,文中方法可行,效果较好. 相似文献
12.
13.
For Korean language processing, morphological analysis is a critical component that requires extensive work. This morphological analysis can be conducted in an end‐to‐end manner without requiring a complicated feature design using a sequence‐to‐sequence model. However, the sequence‐to‐sequence model has a time complexity of O(n2) for an input length n when using the attention mechanism technique for high performance. In this study, we propose a linear‐time Korean morphological analysis model using a local monotonic attention mechanism relying on monotonic alignment, which is a characteristic of Korean morphological analysis. The proposed model indicates an extreme improvement in a single threaded environment and a high morphometric F1‐measure even for a hard attention model with the elimination of the attention mechanism formula. 相似文献
14.
URL查找是众多网络系统中重要的组成部分,如URL过滤系统、Web缓存等.随着互联网的迅速发展,URL查找面临的主要挑战是实现大规模URL集合下的高速查找,同时保证低存储和低功耗.本文提出了一种基于并行Bloom Filter的URL查找算法,CaBF.该算法高度并行化,提供大规模URL集合下的高速最长前缀匹配,并很好地适应集合中不同数量的URL组件.理论分析和真实网络数据集上的实验表明,该算法相比现有算法可以降低假阳性概率达一个数量级(或者在满足相同假阳性概率的前提下降低存储和硬件逻辑资源消耗).此外,该方法的体系结构很容易映射到FPGA等硬件器件上,提供每秒超过150M次的URL查找速度. 相似文献
15.
随着Web应用在互联网中的迅速发展,出现了大量的Web安全漏洞,其中最为突出的是跨站脚本(XSS)漏洞攻击.为了对Web应用中的XSS漏洞进行有效的检测和防御,通过分析XSS漏洞的特征及原理,总结出产生该漏洞攻击的几大主要原因,结合目前常用漏洞检测方法提出几种XSS漏洞攻击的防御方法,可有效识别和防范XSS漏洞攻击,对Web应用具有较高的实用性. 相似文献
16.
HTML 5的新特性加强了Web网页的视觉效果并追加了本地数据库的Web应用功能。它的到来进一步推动了互联网的急速发展,然而HTML5与其它新技术一样,在产生巨大效益的同时,也伴随着源源不断的安全问题。本文从HTML5新标签的安全性能和新应用功能两个方面阐述了HTML5带来的安全问题和怎么样防范这些安全漏洞。 相似文献
17.
18.
Digital Video Transcoding 总被引:14,自引:0,他引:14
Xin J. Lin C.-W. Sun M.-T. 《Proceedings of the IEEE. Institute of Electrical and Electronics Engineers》2005,93(1):84-97
Video transcoding, due to its high practical values for a wide range of networked video applications, has become an active research topic. We outline the technical issues and research results related to video transcoding. We also discuss techniques for reducing the complexity, and techniques for improving the video quality, by exploiting the information extracted from the input video bit stream. 相似文献
19.
Orthogonal frequency division multiplexing (OFDM) transmission equipped with multiple receive antennas constitutes a single‐input multiple‐output (SIMO) OFDM system. SIMO‐OFDM systems have been widely used in wireless communications. Compared to those approaches using training sequences, blind channel estimation methods for SIMO‐OFDM systems have the advantage of saving bandwidth and improving energy efficiency and system throughput. As far as blind channel identification is concerned, it is known that zero padding (ZP)‐based single‐input single‐output (SISO)‐OFDM systems have desirable features compared to conventional cyclic prefix (CP)‐based SISO‐OFDM systems. However, it is yet unknown whether ZP‐ or CP‐based SIMO‐OFDM systems are favourable for blind channel estimation. To investigate this problem, we first propose a short‐data effective method for blind channel estimation for ZP‐based SIMO‐OFDM systems. Then we analyse a number of issues surrounding blind channel estimation for ZP‐ and CP‐based SIMO‐OFDM systems. The issues brought up in the paper have not been discussed in the existing research. The significance of our investigation is that it provides a deep insight into blind channel estimation for ZP‐ and CP‐based SIMO‐OFDM systems. Copyright © 2011 John Wiley & Sons, Ltd. 相似文献
20.
目前,Andriod智能手机平台已经成为人们获取信息的重要方式之一,但在使用过程中,经常遇到在手机平台上登陆某个网址需要输入较复杂的URL地址,造成使用不便。WebView是Andriod平台基于WebKit引擎的浏览器组件,用来显示网页或者显示应用的在线内容。基于WebView可以快速开发浏览器的上层应用,响应网页的加载和脚本的交互。本文将介绍使用Webview组件将固定网址封装成一个Andriod程序的方法。 相似文献