首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
拥抱HTML5     
赵泽欣 《程序员》2009,(8):115-117
自从Google I/O大会为业界"带来"了HTML5,很多Web开发者对此非常兴奋。较之HTML 4,HTML 5新增的功能为Web开发者带来的最大的好处就是使开发变得更简单更快捷。像HTML 5中新加入的canvas、Web Form等技术则给HTML注入了很多RIA的元素,从而给开发者提供了RIA的另外一个选择。  相似文献   

2.
网络舆情分析系统中,网页信息预处理方案的实现采用了基于网页结构分析的信息抽取技术和数据存储技术。结合HTML网页的内部结构,设计了一种基于HTMLDOM结构节点路径的网页信息解析模板,用于网页信息抽取。通过网页U1KL的特征研究建立了网页之间的联系机制,应用于数据库存取提高了效率。  相似文献   

3.
Automatically identifying and extracting the target information of a webpage, especially main text, is a critical task in many web content analysis applications, such as information retrieval and automated screen reading. However, compared with typical plain texts, the structures of information on the web are extremely complex and have no single fixed template or layout. On the other hand, the amount of presentation elements on web pages, such as dynamic navigational menus, flashing logos, and a multitude of ad blocks, has increased rapidly in the past decade. In this paper, we have proposed a statistics-based approach that integrates the concept of fuzzy association rules (FAR) with that of sliding window (SW) to efficiently extract the main text content from web pages. Our approach involves two separate stages. In Stage 1, the original HTML source is pre-processed and features are extracted for every line of text; then, a supervised learning is performed to detect fuzzy association rules in training web pages. In Stage 2, necessary HTML source preprocessing and text line feature extraction are conducted the same way as that of Stage 1, after which each text line is tested whether it belongs to the main text by extracted fuzzy association rules. Next, a sliding window is applied to segment the web page into several potential topical blocks. Finally, a simple selection algorithm is utilized to select those important blocks that are then united as the detected topical region (main texts). Experimental results on real world data show that the efficiency and accuracy of our approach are better than existing Document Object Model (DOM)-based and Vision-based approaches.  相似文献   

4.
平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑战。该文提出了一种URL模式与HTML结构相结合的平行网页获取方法,首先利用HTML结构实现平行网页的递归访问,其次使用URL模式优化遍历平行网站的拓扑顺序,从而实现高效准确的平行网页获取。在联合国与香港政府两个平行网站上的实验表明,该方法相对传统获取方法在获取时间上减少50%以上,准确率提高15%,并显著提高了机器翻译的质量(BLEU 值分别提高1.6 和0.7 个百分点)。  相似文献   

5.
随着CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为专业搜索引擎的迫切任务之一。提出一种基于DIV标签树的网页主题信息抽取方法,首先根据DIV标签把HTML文档解析成DIV森林,然后过滤掉DIV标签树中的噪声结点并且建立STU-DIV模型树,最后通过主题相关度分析和剪枝算法,剪掉与主题信息无关的DIV标签树。通过对多个新闻网站的网页进行分析处理,实验证明此方法能够有效地抽取新闻网页的主题信息。  相似文献   

6.
与Native应用相比,移动web应用能很好地解决目前Native操作系统割裂的问题,将为产业链各方带来全新的平等竞争机会,引导移动互联网产业链的新模式发展。本文首先介绍了HTML5移动web应用的发展概况,然后分析了基于HTML5移动web应用相关技术标准的发展情况,随后对基于HTML5的移动web应用及终端的技术实现方案进行了分析,最后对全文内容进行了总结,从HTML5移动web应用、技术标准及终端的发展趋势进行了展望。  相似文献   

7.
面向敏感网页识别,设计并实现了一种网页内容获取方案.该方案主要包括HTML(Hypertext Markup Language)源文件的获取、文本获取、图像获取及穿插其中的HTML源文件解析等4部分内容.测试结果表明,无论是中文网页还是英文网页,本设计方案均能获得网页上的文本和图像内容信息,所获取的内容可以满足后续敏感网页识别的应用需求.  相似文献   

8.
Web service choreography describes global mod- els of service interactions among a set of participants. For an interaction to be executed, the participants must know the required channel(s) used in the interaction, otherwise the ex- ecution will get stuck. Since channels are composed dynami- cally, the initial channel set of each participant is often insuf- ficient to meet the requirements. It is the responsibility of the participants to pass required channels owned (known) by one to others. Since service choreography may involve many par- ticipants and complex channel constraints, it is hard for de- signers to specify channel passing in a choreography exactly as required. We address the problem of checking whether a service choreography lacks channels or has redundant chan- nels, and how to automatically generate channel passing based on interaction flows of the service choreography in the case of channel absence. Concretely, we propose a sim- ple language Chorc, a channel interaction sub-language for modeling the channel passing aspect of service choreography. Based on the formal operational semantics of Chore, the algo- rithms for static checking of service choreography and gen- erating channel passing are also studied, and the complexity results of algorithms are discussed. Moreover, some illus- trated service choreography examples are presented to show how to formalize and analyze service choreography with channel passing in Chorc.  相似文献   

9.
利用HTML5实现网页图表的研究   总被引:1,自引:0,他引:1  
唐彬 《微型电脑应用》2012,28(10):28-30
越来越多的网络应用程序开始使用B/S模式,从网站统计到企业报表,从普通的饼图到复杂的数据表格,越来越多的图表需要在浏览器中进行展示。通过对下一代网页标准HTML5中的一些新特性的研究,展示了通过这些新特性在web图表展示上的应用。  相似文献   

10.
随着互联网的发展与Web应用的流行,HTML的标准不断更新。自从HTML5标准草案公布以来,它强大的功能越来越受到欢迎,被誉为下一代Web应用开发的新标准。本文着重介绍了HTML5的新特性,并分析了新特性存在的安全隐患,探讨了HTML5的发展前景。  相似文献   

11.
HTML是Web编程中的基础语言,绝大多数远程教学平台都是基于Web的,在移动互联网时代,由于Web部署上的优势,越来越多的应用系统也将会转移到Web上来。然而,目前所广泛使用的HTML4.01推出已有十多年时间,它本身的缺陷表现得愈加明显,它逐渐成为了Web发展的制约因素。尽管HTML5还处于不断完善阶段,但在IE、Firefox、Opera等新版PC浏览器已支持绝大部分HTML 5功能,移动设备的浏览器对HTML5支持情况更好。HTML5新开放的API、新增的标记及离线支持等特性能显著提升Web应用的开发效率。该文介绍了HTML 5中新增标记的富媒体特性,探讨了表单及离线支持等特性并简要分析了HTML5在教学平台开发中的应用前景。  相似文献   

12.
This paper describes a fast HTML web page detection approach that saves computation time by limiting the similarity computations between two versions of a web page to nodes having the same HTML tag type, and by hashing the web page in order to provide direct access to node information. This efficient approach is suitable as a client application and for implementing server applications that could serve the needs of users in monitoring modifications to HTML web pages made over time, and that allow for reporting and visualizing changes and trends in order to gain insight about the significance and types of such changes. The detection of changes across two versions of a page is accomplished by performing similarity computations after transforming the web page into an XML-like structure in which a node corresponds to an open–close HTML tag. Performance and detection reliability results were obtained, and showed speed improvements when compared to the results of a previous approach.  相似文献   

13.
为了提高Web交互设计模式抽取的准确性,增加现有方法对中文站点的分析能力,提出了一种基于HTML词法分析的改进方法.利用设计的HTML词法分析器将Web页面表示成语法树,抽取Web交互设计模式的特征,并对特征的词条内容进行语义扩展,细化了特征抽取的粒度.实验结果表明,改进的方法在召回率和准确率等方面明显优于现有的方法,并在中文站点交互模式抽取方面取得了很好的效果.  相似文献   

14.
基于标记图的Web数据模型   总被引:10,自引:0,他引:10  
本文详细探讨了一种新的Web数据模型-标记图,给类格的形式化描述。  相似文献   

15.
使用基于关键词匹配的方法,分析了 HTML 语言描述的Web文档,提取网页中有用的特征信息,得到两类标记中的内容:一类是网页的全局描述信息,如;另一类起局部修饰作用,强调了网页的部分内容,如.从而提出了基于层次概念的用户模型,并使用向量空间模型方法建立了以突发事件新闻为基础的用户兴趣模型.实验表明,这种方法有一定的可行性.  相似文献   

16.
如今,Web成为了网络信息的主要平台。根据研究发现,表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析。在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取。  相似文献   

17.
随着信息网络化的发展,原有的HTML表单已经不能很好地适用于各类新兴的Web应用,如移动信息设备、信息家电。W3C在2003年10月14日发布了XForms1.0规范,旨在解决HTML表单的缺点。介绍了XForrns的概念和主要特征,给出了一个简单的XForms例子,并讨论了XForms的优势和不足。  相似文献   

18.
网页数据自动抽取系统   总被引:6,自引:0,他引:6  
在Internet中存在着大量的半结构化的HTML网页。为了使用这些丰富的网页数据,需要将这些数据从网页中重新抽取出来。该文介绍了一种新的基于树状结构的信息提取方法和一个自动产生包装器的系统DAE(DOMbasedAutomaticExtraction),将HTML网页数据转换为XML数据,在提取的过程中基本上不需要人工干预,因而实现了抽取过程的自动化。该方法可以应用于信息搜索agent中,或者应用于数据集成系统中等。  相似文献   

19.
针对Web中数据密集型的动态页面,文本数据少,网页结构化程度高的特点,介绍了一种基于HTML结构的web信息提取方法。该方法先将去噪处理后的Web页面进行解析,然后根据树编辑距离计算页面之间的相似度,对页面进行聚类,再对每一类簇生成相应的提取规则,对Web页面进行数据提取。  相似文献   

20.
一种基于重复标记属性的多网页信息隐藏方法   总被引:3,自引:0,他引:3  
信息隐藏技术作为信息安全的热点,被应用于版权保护和隐蔽通信等领域.通过分析浏览器解析超文本标记语言的特性,提出重复标记属性的网页信息隐藏技术,同时针对网页中可隐藏信息量少的特点,采用了多网页隐藏方法.实验证明该方法的信息隐藏性较好,具有较高的使用价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号