首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
万维网Web是Internet上广泛使用的一种服务,它为因特网用户提供了丰富多样的信息资源。随着Web的发展,初期的静态页面已不能满足用户的需求,活动和动态页面成为Web中不可缺少的内容。本文探讨了在Web应用开发中采用服务器端比较流行的ASP来实现动态页面的方法。  相似文献   

2.
虚拟现实造型语育(VRML)正在把对Web的感受从以页面为中心的模式转变为人们更加喜爱的交互、三维、动态、逼真的世界,这一新事物就是——第二代Web。今天,Web使得那些对Windows风格的PC环境熟悉的人们容易使用Internet,而第二代Web将使那些更多的熟悉电视画面的大众更加容易使用Internet。第二代Web将使用户如身处真实世界,人们将在一个三维的环境里随意探寻全球Internet上无比丰富的巨大信息资源。今天,人们只能使用文本与图像,明天,人们走进的将是一个三维的立体世界。从技术角度来讲,现在的Web使用HTML页来描述声频、…  相似文献   

3.
万维网Web是Internet上广泛使用的一种服务,它为因特网用户提供了丰富多样的信息资源。随着Web的发展,初期的静态页面已不能满足用户的需求,活动和动态页面成为Web中不可缺少的内容:本文探讨了在Web应用开发中采用服务器端比较流行的ASP来实现动态页面的方法。  相似文献   

4.
Microsoft新推出的IIS(InternetInformation Server)是允许在公共Intranet或Internet上发布信息的Web服务器。随着Internet的迅猛发展,Web页面、Web应用程序和数据库技术也飞速发展,IIS的用户也急剧增加,IIS的配置和管理成为人们所关注的问题之一。本文试图从使用的角度来探讨IIS的配置和管理问题。  相似文献   

5.
随着Internet的快速发展,网络已成为人们查询信息的重要渠道。Web作为巨大的数据源,从Web中提取知识是当前研究的热点之一。在这些海量信息中,大多都是基于HTML的。该文提出一种基于HTML结构的Web就业信息抽取模型。  相似文献   

6.
1.引言 随着Internet的广泛应用,越来越多的人利用World Wide Web(全球信息网)来共享文本、图像、声音、数据等信息。随着Internet技术的发展和应用的深入,人们又希望Web页面具有良好的交互性。Netscape Navigator浏览器包含了对JavaScript脚本语言的支持,它就是以建立交互式文档  相似文献   

7.
深层网络爬虫研究综述   总被引:3,自引:1,他引:2  
随着Internet的迅速发展,网络资源越来越丰富,人们如何从网络上抽取信息也变得至关重要,尤其是占网络资源80%的Deep Web信息检索更是人们应该倍加关注的难点问题。为了更好的研究Deep Web爬虫技术,本文对有关Deep Web爬虫的内容进行了全面、详细地介绍。首先对Deep Web爬虫的定义及研究目标进行了阐述,接着介绍了近年来国内外关于Deep Web爬虫的研究进展,并对其加以分析。在此基础上展望了Deep Web爬虫的研究趋势,为下一步的研究奠定了基础。  相似文献   

8.
随着Internet的发展,越来越多的人们走进了Internet世界。尤其是WWW(World Wide Web)的出现,使Internet上的信息传输更加方便易行,更加速了人们对Internet的接受与认可。互联网为人们展示了一个新的生活与工作方式。然而,就在人们还在接受和享用新技术带来的优越与便利之时,一个新的概念又向人们展示了一个更加奇妙、充满诱惑的新世界,这就是SGI公司倡导的“第二代Web”。日前,SGI公司美国总部Web产品部的Lenny Rosenthal先生和网络系统部的Ben Passarelli先生来华,就记者关心的几个问题进行了阐述。  相似文献   

9.
随着网络的发展,越来越多的人们倾向于在网络上查询信息。对信息系统技术的研究与应用也成为人们关注的课题。对建立一个提供毕业生的网站进行了研究,介绍了如何使用ASP技术在Internet上构建一个信息系统,通过WWW动态地访问Web数据库中相关数据。  相似文献   

10.
使用 Web浏览器 有了 Internet,如同建立了全世界计算机之间的信息公路(也就是网络)。然而,阅读和浏览信息公路送来的各种信息( World Wide Web)还需要称之为“浏览器”的基本工具软件。用户可以使用 Internet连接和 Web浏览器访问全世界保存有千百万电子网页的 PC机。无论用户的爱好是音乐、电影、金融、科学、文学、旅游、天文还是健身,都可以找到丰富的资源。   使用最普遍的浏览器有微软公司的 Internet Explorer(简称 IE)和网景公司的 Netscape Navigator,除它们以外,还有各种在不同场合下使用的浏览器。这些浏览器…  相似文献   

11.
Web论坛数据源增量爬虫的研究   总被引:1,自引:0,他引:1       下载免费PDF全文
针对Web论坛站点结构复杂、内容更新快等特点,提出一种针对论坛的增量信息采集算法,使用站点地图重建技术及网页更新频繁度估计方法,根据站点地图选择有效的链接,按照网页更新频度确定网页的采集频度。实验结果表明,该方法是有效的。  相似文献   

12.
文章研究了在渗透测试中Web站点的信息抓取的问题.针对Web渗透测试对于信息抓取的全面性、高效性的需求,本文通过对Web站点进行研究分析,提出了基于导航链接的网络爬虫策略,并通过减少迭代次数对传统的MD5去重算法进行了改进,优化了URL去重的效率.通过实验验证表明,该爬虫策略的信息抓取覆盖率和网页下载效率均有所提高.  相似文献   

13.
一种Deep Web爬虫的设计与实现   总被引:1,自引:0,他引:1  
随着World Wide Web的快速发展,Deep Web中蕴含了越来越多的可供访问的信息.这些信息可以通过网页上的表单来获取,它们是由Deep Web后台数据库动态产生的.传统的Web爬虫仅能通过跟踪超链接检索普通的Surface Web页面,由于没有直接指向Deep Web页面的静态链接,所以当前大多数搜索引擎不能发现和索引这些页面.然而,与Surface Web相比,Deep Web中所包含的信息的质量更高,对我们更有价值.本文提出了一种利用HtmlUnit框架设计Deep Web爬虫的方法.它能够集成多个领域站点,通过分析查询表单从后台数据库中检索相关信息.实验结果表明此方法是有效的.  相似文献   

14.
网页实时分类是聚焦爬虫需要解决的重要问题,现有主题特征提取方法多数是面向离线分类的,性能达不到应用要求。本文首先扩展了标签树表示模型DocView的节点类型,且将其作为加权的重要因素,然后提出一个面向实时网页分类的Web文本和文本集主题特征提取算法。实验结果表明,算法的准确率提高了31%,主题偏移度降低了1倍多,能够满足应用要求。同时,还提出了一个新的主题特征提取性能评价模型。  相似文献   

15.
分析全文搜索引擎的基本结构及原理,并使用开源工具Heritrix作为搜索引擎的爬虫负责下载Web页面、HTMLParser抽取Web页面的内容、Lucene提供索引和搜索服务,采用B/S模式实现一个全文搜索引擎。  相似文献   

16.
杨天奇  周晔 《计算机工程》2006,32(20):97-99
提出了一个基于多线程并行的增量式Web信息采集结构模型,并加以实现,该模型以线程并行的方式对Web页面同时采集,实现了全面、高效并且灵活的信息搜集,在系统实现过程中,采取Java语言中最新的特性、独特的URL调度策略保证了各个线程时间的下载并行与互不相交,页面分析过程为各个线程源源不断地提供下载源,而指纹判别算法保证了并行采集过程中的同步,有效地去除了冗余。对该系统作了测试,实验证明,该系统能有效地提高信息采集性能。  相似文献   

17.
提出一种新的基于概念树的主题网络爬行方法。与传统基于关键词描述主题的方法不同,本文提出基于叙词表来构建一种称为概念树的表示方法来描述主题的概念。在此基础上,本文给出锚文本和HTML页面内容与主题相关度的计算方法。在分析URL的相关度时,首先判断其锚文本的相关度是否达到一定的阈值σ,只有当锚文本的相关度达不到σ时才会去下载URL对应的页面进行分析,否则将锚文本的相关度作为URL的相关度。这样的URL相关度计算方法可以大大减少不必要的计算开销,又可以充分地利用锚文本的信息。为了比较准确合理地获得阈值σ的取值,本文采用了最小均方差(LMS)的方法。  相似文献   

18.
Classical Web crawlers make use of only hyperlink information in the crawling process. However, focused crawlers are intended to download only Web pages that are relevant to a given topic by utilizing word information before downloading the Web page. But, Web pages contain additional information that can be useful for the crawling process. We have developed a crawler, iCrawler (intelligent crawler), the backbone of which is a Web content extractor that automatically pulls content out of seven different blocks: menus, links, main texts, headlines, summaries, additional necessaries, and unnecessary texts from Web pages. The extraction process consists of two steps, which invoke each other to obtain information from the blocks. The first step learns which HTML tags refer to which blocks using the decision tree learning algorithm. Being guided by numerous sources of information, the crawler becomes considerably effective. It achieved a relatively high accuracy of 96.37% in our experiments of block extraction. In the second step, the crawler extracts content from the blocks using string matching functions. These functions along with the mapping between tags and blocks learned in the first step provide iCrawler with considerable time and storage efficiency. More specifically, iCrawler performs 14 times faster in the second step than in the first step. Furthermore, iCrawler significantly decreases storage costs by 57.10% when compared with the texts obtained through classical HTML stripping. Copyright © 2013 John Wiley & Sons, Ltd.  相似文献   

19.
随着网络信息资源的迅速增加,对于主题Web文本信息的搜索与分类日益成为信息处理领域的一个重要问题。本文建立了一个面向化工领域的Web文本搜索与分类系统,该系统在crawler子系统搜集Web文档的基础上,利用支持向量机对网页进行二次分类,找出化工专业中文网页;然后利用向量空间模型,对分类好的专业网页进行多子类分类。与综合搜索引擎相比,具有速度快、搜索信息准确度高和具备学习能力的特点。  相似文献   

20.
改进的PageRank在Web信息搜集中的应用   总被引:7,自引:0,他引:7  
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主题分块的PageRank算法·该算法按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并能根据已访问的链接对块进行相关性反馈·实验表明,所提出的算法能较好地改进搜索结果的精确度·  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号