首页 | 本学科首页   官方微博 | 高级检索  
检索     
共有20条相似文献,以下是第1-20项 搜索用时 953 毫秒

1.  基于HTMLParser的Web信息抽取系统的设计与实现  被引次数:2
   李彦刚  魏海平  侯兴华《辽宁石油化工大学学报》,2006年第26卷第2期
   互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接e、mail和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理。介绍了HTMLParser的原理和java正则表达式相关知识,基于HTMLParser包和正则表达式。以提取网站内部email信息为例,提出了Web信息抽取系统设计方案,阐述了email信息抽取的工作原理和关键技术,给出了email抽取算法,并详细介绍了系统的抽取URL、email和存储模块,抽取结果保存于数据库中,供机器检索利用。    

2.  HtmlParser提取网页信息的设计与实现  
   黄颖  黄治平《南方冶金学院学报》,2007年第28卷第6期
   互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接、email和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理.文中详细介绍了如何使用HtmlParser来提取网页当中的超链接信息,将其清洗后存入SQL数据库当中,以备后续工作使用.    

3.  基于本体论的Web信息抽取  被引次数:13
   周明建  高济  李飞《计算机辅助设计与图形学学报》,2004年第16卷第4期
   以本体论为基础,以所要提取的信息的层次结构作为信息提取的路径,定义了Web页面的信息项本体,并自动解析生成Web页面的结构本体.通过对这两个本体进行对比,构造了一种归纳学习算法来半自动地生成信息提取规则,对Web页面的信息提取具有较高的效率.    

4.  基于DOM的网页主题信息的抽取  
   刘军  张净《计算机应用与软件》,2010年第27卷第5期
   随着Internet的发展,Web页面信息量不断加大,信息密集程度不断加强。但Web页面的主题信息通常不太明确,抽取主题信息也比较困难。针对这一难题,提出一种算法:构建文档对象模型DOM(Document Object Model)树,然后针对HTML半结构特征的不足,为DOM添加显示、语义(链接数、非链接文字数、高度、宽度)等属性,并提出一种聚类规则来对其进行分块,最后对其进行剪枝,删除掉无用的信息,提取主题信息。实验表明,该方法能够准确抽取主题信息。    

5.  应用聚类技术分类提取Web页面  
   崔慧超  刘莉《数字社区&智能家居》,2010年第1期
   针对Web中数据密集型的动态页面,文本数据少,网页结构化程度高的特点,介绍了一种基于HTML结构的web信息提取方法。该方法先将去噪处理后的Web页面进行解析,然后根据树编辑距离计算页面之间的相似度,对页面进行聚类,再对每一类簇生成相应的提取规则,对Web页面进行数据提取。    

6.  Web信息抽取系统的设计  
   刘斌  张晓婧《微型电脑应用》,2013年第29卷第3期
   为了获取分散Web页面中隐含信息,设计了Web信息抽取系统。该系统首先使用一种改进的HITS主题精选算法进行信息采集;然后对Web页面的HTML结构进行文档的数据预处理;最后,基于DOM树的XPath绝对路径生成算法来获取被标注结点的XPath表达式,并使用XPath语言结合XSLT技术来编写抽取规则,从而得到结构化的数据库或XML文件,实现了Web信息的定位和抽取。通过一个购物网站的抽取实验证明,该系统的抽取效果良好,可以实现相似Web页面的批量抽取。    

7.  网页结构模板生成新方法研究  
   冯少卿  都云程《北京机械工业学院学报》,2007年第22卷第3期
   Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性.为了高效地抽取基于模板的网页主题信息,提出了一种新的从HTML网页结构分析入手的模板生成方法.该方法以文档对象模型(DOM)为基础,通过对网页对应的DOM树层次结构进行分析,来判断两个网页是否相似,结构上相似的网页可以作为一个样本集.利用生成的样本集可以比较方便的抽象出网页结构模板,实现高效的信息抽取.实验表明,该方法准确率可达97%.    

8.  基于DOM的网页主题信息自动提取  被引次数:38
   王琦  唐世渭  杨冬青  王腾蛟《计算机研究与发展》,2004年第41卷第10期
   Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性,信息提取有助于解决这一问题.基于DOM规范,针对HTML的半结构化特征和缺乏语义描述的不足,提出含有语义信息的STU-DOM树模型.将HTML文档转换为STU-DOM树,并对其进行基于结构的过滤和基于语义的剪枝,能够准确地提取出主题信息.方法不依赖于信息源,而且不改变源网页的结构和内容,是一种自动、可靠和通用的方法.具有可观的应用价值,可应用于PAD和手机上的web浏览以及信息检索系统.    

9.  基于Java的文档对象模型的技术  
   陈晓峰  王世安《辽宁石油化工大学学报》,2002年第22卷第2期
   介绍了作为XML分析的利器DOM (文档对象模型DocumentObjectModel) ,论述了由它提供的一个操作XML和HTML文档并与语言无关的标准接口集 ,以及采用标准规范和与之适应的一个接口和类的集合。其中最重要的是开发语言绑定及其与之相对应的org .w3c .domJava包等。DOM提供了一种用Java创建和修改XML文档的方法 ,把XML文档描述称为一棵树 ,并将整个XML文档读入内存 ,并将所有数据储存在节点中 ,使得整个文档得以快速使用。以ApacheXalan为例 ,阐述了进行XML文档的分析和DOM树的生成及DOM树的遍历的技术    

10.  利用CSS技术创建灵活多变的Web信息  
   郝艳玲《中国计算机用户》,1997年第13期
   WWW技术是以HTML语言为基础的。HTML(HypertextMakeup Language)是一种标记性语言,它定义了一系列标记及其属性。由HTML编写的超文本文档,通过HTTP协议传送至客户端,经过浏览器的解释,就可以得到我们平常所见的WWW信息,有文本、图象、动画、声音等。但HTML定义的标记还不能完全满足创作者的需要,因为每个标记的属性基本上都由系统确定,因而WWW的表现形式有一定限制。为了让作者更好地控制HTML的表现形式,W3C(WorldWide Web Consortium)组织提出了CSS技术。    

11.  基于数据区域发现的信息抽取规则生成方法  被引次数:2
   曲著伟  李敏强《计算机工程》,2009年第35卷第22期
   提出一种自动检测网页中数据记录结构特点并生成Web信息抽取规则的方法,以网页DOM树为基础,自动发现和分离Web数据区域所对应的DOM子树,将其分解为数据记录子树集合,综合数据记录子树的结构特点生成抽取规则。实验结果显示,该方法具有较高的抽取准确率和查全率。    

12.  一种基于分类算法的网页信息提取方法  被引次数:3
   汪建伟  杨冬青  高军  王腾蛟《计算机科学》,2008年第35卷第3期
   在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识.本文提出一种基于分类算法的Web信息提取方法,通过将网页文本按照其显示属性的不同进行分组,以显示属性值为基础对Web页面文本进行分类,获取所关注文本,从而完成对web页面的信息提取.这种提取方法操作简单,易于实现,对网页结构的依赖性小.    

13.  基于VRML技术的第二代Web  被引次数:2
   王树军《今日电子》,1998年第9期
   WWW(World Wide Web)把Internet上的多媒体信息(文本,声音,图形图像以及活动影像)进行有效的集成,供用户查找。我们所称的“第一代Web”由于使用了HTML(超文本标识语言),使用户可以通过一个与HTML兼容的浏览器,比如Netscape Navigator,相同的文档可以很方便地在Macintosh、PC或一台U-NIX工作站上访问或查看。第一代Web主要是访问文档的媒体,正好十分适合计算机屏幕。从根本上讲,它是利用鼠标和键盘作为输入方式的页面感受,这是一种阅读的感受。绝大部分用户只在工作时才访问Web网。Web网还没有成为家庭中的大众媒体。一个全球数字网络的真正优势没有充分发挥,除非它能吸引更广泛的观众并深入到人类生活更丰富的领域。这正是SGI董    

14.  Web数据库技术进展  被引次数:8
   刘东波《中国计算机用户》,1997年第28期
   一、引言 WWW是目前Internet上发展最快的领域,也是Internet网上最重要的信息检索手段。早期的Web页面(Home Page)主要用来传递静态HTML文档,后来由于CGI接口,特别是Java和JavaScript语言的引入,使得Web页面可以方便地传播动态信息。借助Java和JavaScript语言,可以设计出具有动画、声音、图形/图像和各种特殊效果的Web页面。 WWW的主要内容包括超文本传输协议(HTTP)、超文本标记语言(HTML)、通用网关接口(CGI)、Java和JavaScript语言等。 HTTP(Hyper Text Transfer Protocol),是一个专门为Web服务器和Web浏览器之间交换数据而设计的网络协议。它通过规定通用资源定位符(UBLs)使客户端的浏览器与服务器的Web资源建立链接关系,从而奠定    

15.  用JavaScript控制层次对象的技巧  
   林炜 李梅《电脑编程技巧与维护》,1998年第10期
   一、概述 JavaScript是一种跨系统平台、具有面向对象编程能力的脚本语言。它嵌入在标准的HTML语言中,在客户端,由Netscape或与之兼容的浏览器解释执行。JavaScript与Java、CGI程序协作,对Web页面进行控制,实现与用户的动态交互。    

16.  基于DOM的网页信息抽取方法  
   潘超  梁宏伟  李立召《硅谷》,2010年第20期
   随着网络的发展,网页已成为人们获取信息的重要途径。网页中包含着文本,图片,视频,音乐等。不同的人所感兴趣的网页信息不同,那些人们不感兴趣的信息分散在他们感兴趣信息的周围,分散他们对自己感兴趣的信息的注意力,给他们阅读网页带来不便。提出一种基于DOM的网页信息抽取方法,过滤掉人们不感兴趣的网页信息,只保留人们感兴趣的信息。本文的方法不是机械地查找我们感兴趣的信息,而是尽可能的删除不是我们感兴趣的信息。首先使用Eclipse开发工具,利用开源的HTML解析程序NekoHtml将网页解析成DOM树。然后设计抽取算法,使用java语言编程,采用抽取算法,删除我们不感兴趣的网页信息,只保留我们感兴趣的网页信息。    

17.  基于VisualAge for Java的Web数据库应用系统开发  
   胡海滨  吴恒  陈赫贝《武汉理工大学学报(信息与管理工程版)》,1999年第21卷第4期
   介绍了一种新的实现Web交互式页面,即用IBM VisualAge for Java为开发平台,利用它的可视化编程特征,快速地开发Java Applet (Java小应用程序).同时,以IBM UDB DB2 V5.0作为数据库服务器,通过它的DB2 JDBC驱动器可使应用程序与数据库进行数据交换.在浏览器中运行嵌入了这种Applet的HTML程序,可以直接访问数据库,从而在Web页面下实现交互式页面.    

18.  HotJava——一个全新的Web浏览器  
   曹广通《中国计算机用户》,1996年第16期
   Internet是一个信息的海量存储仓库。Internet的信息分散在遍布全球的主机中,这些主机通过World Wide Web连接起来。在Web中的信息采用HTML编写,利用Web浏览器可以在不同平台中浏览一致的信息。提到Web浏览器,你自然会想到Netscape Navigator、Mosaic、Microsoft Internet Explorer等,但最近随着Java语言的出现,HotJava这个全新的Web浏览器正在变得越来越引人注目。 HotJava是Sun公司利用Mosaic的Web浏览器技术,结合Java语言的特性,使用Java语言编写的新的Web浏览器。Sun公司的本意并不是把HotJava作为产品,而只是试验Java语言    

19.  基于链式结构XML文档的生成方法  被引次数:2
   陈再良  徐德智  陈学工  沈海澜《计算机工程》,2006年第32卷第20期
   提出了一种基于链式结构的XML文档生成方法,设计了一个利用Java中的stream tokenizer类实现HTML文档解析的算法,将解析得到的元素内容及文本内容生成的结点插入到相应的位置上,同步生成DOM解析树,对DOM解析树进行遍历,将遍历得到的信息以二叉链表的形式存储,采用改进的先根遍历算法对该二叉链表遍历,提取相应的信息构建DTD,完成整个转换生成的过程。    

20.  基于XML的网页结构化管理和数据检索  
   黄晓  钟琴《计算机仿真》,2004年第21卷第4期
   近年来万维网(World Wide Web)的广泛使用为人们访问大量的数据源提供了一种开放式的途径,而影响web数据访问的一个主要原因就是web页面之间以及web页面内部的信息都缺乏结构化。为了能更加有效的检索web数据,就有必要实现web页面结构化的管理。该文所提出的结构化的管理web页面分为两步:①将超文本标记语言(html)转换为扩展标记语言(xml);②分级导航检索。    

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号