首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
基于DOM的网页主题信息自动提取   总被引:43,自引:0,他引:43  
Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性,信息提取有助于解决这一问题.基于DOM规范,针对HTML的半结构化特征和缺乏语义描述的不足,提出含有语义信息的STU-DOM树模型.将HTML文档转换为STU-DOM树,并对其进行基于结构的过滤和基于语义的剪枝,能够准确地提取出主题信息.方法不依赖于信息源,而且不改变源网页的结构和内容,是一种自动、可靠和通用的方法.具有可观的应用价值,可应用于PAD和手机上的web浏览以及信息检索系统.  相似文献   

2.
作为下一代Web应用标准的HTML 5,更加注重Web应用和表现及在移动Web平台良好的用户体验。HTML 5的浏览器/服务器的开发模式、对多媒体标签功能的支持以及在移动应用跨平台性等优势,对基于传统技术的校园网应用系统来说,在开发和使用中都有了很大改进。通过对HTML 5新特性和在校园应用系统优势的分析,旨在为校园网应用系统的开发提供新思路。  相似文献   

3.
Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础。在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法。在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息。实验证明,这种方法具有很好的准确率及召回率。  相似文献   

4.
We present our novel generic approach for interfacing web components on mobile devices in order to rapidly develop Augmented Reality (AR) applications using HTML5, JavaScript, X3D and a vision engine. A general concept is presented exposing a generalized abstraction of components that are to be integrated in order to allow the creation of AR capable interfaces on widely available mobile devices.Requirements are given, yielding a set of abstractions, components, and helpful interfaces that allow rapid prototyping, research at application level, as well as commercial applications. A selection of various applications (also commercial) using the developed framework is given, proving the generality of the architecture of our MobileAR Browser.Using this concept a large number of developers can be reached. The system is designed to work with different standards and allows for domain separation of tracking algorithms, render content, interaction and GUI design. This can potentially help groups of developers and researchers with different competences creating their application in parallel, while the declarative content remains exchangeable.  相似文献   

5.
HTML5和移动互联网是最前沿的Web技术,应用HTML5可以很好地进行移动应用的开发,研究HTML5进行移动应用开发的核心技术,探讨jQuery、微格式、微数据、Websocket、Web Workers、Ajax、地理定位等新技术的应用,并对针对不同的移动平台进行Web开发进行探讨。  相似文献   

6.
移动手持设备因其屏幕小,有限的计算及存储能力而不便浏览普通Web页面;另一方面,对于PDA、手机用户,本着用户个性定制以及降低费用的原则也有必要对现有Web页面进行“裁减”。就以上问题,提出一种面向移动设备网页切割的解决方案:首先对半结构化的HTML文档进行结构化处理,接着基于DOM规范将HTML转化为DOM树并对其噪音清洗,然后对网页进行基于内容和基于链接的分块并对分块结果按照分层和用户定制的思想进行切割、重构,最后在开源项目HTMLParser基础上开发了原型系统并对系统执行效率和切割效果进行了评估。结果表明该方案切实可行,具有可观的应用价值。  相似文献   

7.
Developers manipulating Web documents to provide user interaction need a standard interface to those documents. The paper discusses the W3C Document Object Model Level 1 which defines the standardized interface. The DOM Level 1 defines a language- and platform-neutral API for accessing, navigating and manipulating HTML and XML documents. As such, it is a foundation for the development of applications that use Web documents in an object-oriented paradigm  相似文献   

8.
Web 2.0 presents both a challenge and an opportunity for smart-phone vendors. The combination of HTML and JavaScript is becoming an increasingly powerful application platform. The W3C and some of the most important mobile browser developers, including Apple, Google, Opera, and Nokia, are actively involved in this evolution. Web 2.0 applications have already begun to come to mobile phones. Web widgets based on the WebKit core are already an important part of the iPhone and S60 platforms. Mobile-application developers is drawn to HTML and JavaScript as these new features are added to the various mobile browsers and Web toolkits.  相似文献   

9.
移动系统平台多样化以及各移动系统开发平台互不兼容,使移动应用开发周期长移植性差。为解决移动应用能够实现一次开发多处运行的问题,提出基于HTML5的移动应用跨平台解决方案。基于HTML5的跨移动平台特性,结合JavaScript、CSS等Web应用开发技术,实现iOS、Android两主流移动系统的跨平台开发,在移动管理驾驶舱系统中验证方案的可行性和实用性。该方案节省开发资源同时又满足移动应用的开发与销售模式。  相似文献   

10.
树和模板的文献信息提取方法研究*   总被引:1,自引:0,他引:1  
教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广大的应用前景。提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将DOM树结构用于网页相似度的度量和自动分类,相似度高的网页应用同一模板进行信息提取。实验结果表明该方法在提取网络数据库中文献信息的准确率在94%以上。  相似文献   

11.
Web页面中的主题信息一般分布比较集中,可利用网页的这一特性进行网页主题信息的自动提取。网页源代码中的HTML标签不规范,使得正向匹配难以生成嵌套结构准确的DOM树,该文提出一种通过逆向匹配的方法,构建完整的网页源代码DOM树。通过对DOM树进行剪枝,删除无关节点,对保留下来的信息块的节点标签进行人工选择与唯一性判定,从而生成提取模板。该方法能够实现对电子商务网站源网页中的主题信息进行提取,是一种半自动、通用的方法,可用于信息检索系统中的信息采集。  相似文献   

12.
基于DOM的空间数据转换模型的研究与设计   总被引:1,自引:0,他引:1  
正如XML正在对Web信息的组织与传输性能产生深远影响一样,作为基于XML的空间信息编码标准的GML语言,也正在地理领域掀起一场针对空间数据处理的革命。设计并实现空间数据转换模型,其目的在于摆脱异构空间数据不易实现共享与互操作的困境。转换模型首创性地提出了“超集式GML数据结构”这一新的术语。作为HTML与XML文档应用程序接口的DOM,将文档的逻辑结构组织成DOM树。Delphi7.0内置的TXMLDocument组件实现了DOM解析接口。论文最后对基于DOM技术的空间数据基础转换系统作了阐述。  相似文献   

13.
提出了一种剪枝信息熵增较大结点的信息抽取方法。通过对HTML文档解析来构造DOM树。根据配置过滤掉不需处理的相关内容并建立语义模型树,最后对熵增超过阈值的结点进行剪枝并输出抽取的主题信息页面。初步实验结果验证了用这种方法进行Web页面信息抽取的有效性。方法的数学模型简单可靠,基本不需要人工干预即可完成主题信息抽取。可应用于Web数据挖掘系统以及PDA等移动设备的信息获取方面。  相似文献   

14.
该文阐述了W3C标准制订的意义与内容,以及W3C为标准的DIV CSS、XML、DOM网页开发技术,XHTML与HTML的区别,提出了基于W3C技术的网页校验方法。  相似文献   

15.
张瑞雪  宋明秋  公衍磊 《计算机科学》2011,38(4):213-215,225
一般地,从HTML网页中提取正文信息,应先将HTML、网页解析成DOM树,然后遍历DOM树,依据目标信息在DOM树中的分布规律,将信息从DOM树中提取。这种传统方法将解析DOM树和从DOM树中提取信息看成两个独立的过程,制约了提取信息的速度。事实上,在准确提取目标信息的过程中,独立解析整个DOM树是没有必要的。在此,提出了逆序解析DOM树算法,并结合DOM树相似理论和传统的顺序解析算法,从部分目标信息开始分别向后顺序和向前逆序解析DOM树,同时定位并获取其他目标信息。利用该方法提取网页正文信息,一方面只需解析部分DOM树,从而减少了解析树结构花费的时间,另一方面不需要遍历整个DOM树查找目标信息,从而节省了查找时间,大大提高了信息提取速度。最后,通过实验证实了该方法的优越性。  相似文献   

16.
随着科技的不断发展,智能化的移动设备被广泛应用,移动互联网在人们生活中扮演着越来越重要的角色。为了满足人们对智能移动设备的要求,适应不断发展的Web技术的应用需求,各种基于HTML5技术的移动应用大量涌现。本文首先从HTML5技术的新特征入手,介绍了移动应用开发的现状,进而分析HTML5在移动应用开发上的应用,最后将这种技术应用于中小学学习资源平台的建设和开发,指出了HTML5给移动学习和与开发者带来的新机遇与挑战。  相似文献   

17.
XML技术在化学深层网数据提取中的应用   总被引:1,自引:1,他引:0  
Internet上的化学数据库是宝贵的化学信息资源,如何有效地利用这些数据是化学深层网所要解决的问题。本文总结了化学深层网的特点,基于XML技术实现从数据库检索返回的半结构化HTML页面中提取数据的目标,使之成为可供程序直接调用做进一步计算的数据。在数据提取过程中,先采用JTidy规范化HTML,得到格式上完整、内容无误的XHTML文档,利用包含着XPath路径语言的XSLT数据转换模板实现数据转换和提取。其中XPath表达式的优劣决定了XSLT数据转换模板能否长久有效地提取化学数据,文中着重介绍了如何编辑健壮的XPath表达式,强调了XPath表达式应利用内容和属性特征实现对源树中数据的定位,并尽可能地降低表达式之间的耦合度,前瞻性地预测化学站点可能出现的变化并在XSLT数据转换模板中采取相应的措施以提高表达式的长期有效性。为创建化学深层网数据提取的XSLT数据提取模板提供方法指导。  相似文献   

18.
针对网页的正文信息抽取,提出一种基于支持向量机(SVM)的正文信息抽取方法。该方法采取宽进严出的策略。第1步根据网页结构的规律遍历网页DOM树,定位到一个同时包含正文和噪音信息的HTML标签。第2步选择含噪音信息的HTML标签的5个重要特征,并采用SVM训练样本数据。SVM训练得出的数据模型可以有效去除导航、推广、版权等噪音信息,成功保留正文。将该方法应用于几大常用的网站,实验结果表明该方法具有较好的正文抽取效果和降噪效果,对于传统方法中经常误删的短文本、与正文相关的超链接等信息能够准确保留。  相似文献   

19.
基于DOM的Web信息提取   总被引:58,自引:0,他引:58  
当前,Web已经成为人们获取信息的主要渠道之一。然而,用于表达Web页面信息的HTML语言存在着与生俱来的缺点。HTML的“标记”只是告诉浏览器软件如何显示所定义的信息,却不包含任何语义。因此由HTML语言所表述的Web页面经过浏览器分析后只适合人们浏览,不适合作为一种数据交换的方式由机器处理。该文以文档对象模型DOM为基础,把所要提取的信息在DOM层次结构中的路径作为信息抽取的“坐标”,并以这个基本原理为基础设计了一种归纳学习算法来半自动地生成提取规则,然后根据提取规则生成Java类.生成的Java类可以作为Web数据源包装器组成的重要构件。  相似文献   

20.
动态的HTML(超文本标记语言)是一种用来创建Web页的脚本语言,现在IE浏览器和Netscape Navigator都支持的动态的HTML,动态的HTML也称之为DHTML。在Visual C++应用程序中也都支持HTML,在制作程序时可将一个动态的HTML脚本作为资源嵌入到应用程序中。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号