首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   266篇
  国内免费   27篇
  完全免费   91篇
  自动化技术   384篇
  2022年   1篇
  2021年   2篇
  2020年   4篇
  2019年   23篇
  2018年   21篇
  2017年   26篇
  2016年   20篇
  2015年   14篇
  2014年   43篇
  2013年   22篇
  2012年   40篇
  2011年   27篇
  2010年   48篇
  2009年   34篇
  2008年   27篇
  2007年   14篇
  2006年   9篇
  2005年   1篇
  2004年   4篇
  2003年   3篇
  2002年   1篇
排序方式: 共有384条查询结果,搜索用时 78 毫秒
1.
聚焦爬虫技术研究综述   总被引:51,自引:1,他引:50  
周立柱  林玲 《计算机应用》2005,25(9):1965-1969
因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。至今,聚焦爬虫已成为有关万维网的研究热点之一。文中对这一热点研究进行综述,给出聚焦爬虫(Focused Crawler)的基本概念,概述其工作原理;并根据研究的发展现状,对聚焦爬虫的关键技术(抓取目标描述,网页分析算法和网页搜索策略等)作系统介绍和深入分析。在此基础上,提出聚焦爬虫今后的一些研究方向,包括面向数据分析和挖掘的爬虫技术研究,主题的描述与定义,相关资源的发现,Web数据清洗,以及搜索空间的扩展等。  相似文献
2.
主题网络爬虫研究综述   总被引:34,自引:0,他引:34       下载免费PDF全文
首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方向进行了展望.  相似文献
3.
高性能网络爬虫:研究综述   总被引:14,自引:2,他引:12       下载免费PDF全文
网络爬虫是一种自动下载网络资源的程序,是搜索引擎的基础构件之一.系统地介绍了网络爬虫的工作原理和发展现状,详细地阐述了一个高性能、可伸缩、分布式的网络爬虫的系统架构和所面临的关键问题.  相似文献
4.
主题爬虫的设计与实现   总被引:13,自引:2,他引:11  
汪涛  樊孝忠 《计算机应用》2004,24(Z1):270-272
文章以主题相关度为核心研究了设计主题爬虫的相关技术,通过实验给出了具体实现.实验结果充分论证了其可行性与实用性,为进行主题搜索引擎设计和主题信息采集奠定了良好的基础.  相似文献
5.
主题爬虫的搜索策略研究   总被引:10,自引:2,他引:8  
主题爬虫收集主题相关信息时,需要评价网页的主题相关度,并优先爬取相关度较高的网页,在决定了搜索路径的同时也决定了主题爬虫的搜索效率.针对不同的网页评价算法,对现有的主题爬虫的搜索策略进行分类,指出了各类搜索策略的特点和优缺点,总结了能够提高主题爬虫搜索效率的几方面内容.  相似文献
6.
面向Web的信息收集工具的设计与开发   总被引:9,自引:1,他引:8  
随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系统在综合使用Web页面间的链接关系和页面内容的基础上 ,增加了多层次的页面过滤模块 ,可用来收集特定领域内的Web页面 ;同时可采用多机并行收集的方法提高页面收集的效率 ;采用大型数据库存放元收集信息 ,并对收集到的页面进行压缩 ,能够支持海量数据的收集 ;动态更新机制的实施使得下载到本地的页面信息能够得到及时的更新。  相似文献
7.
Deep Web爬虫爬行策略研究   总被引:6,自引:0,他引:6  
如今Web上越来越多的信息可以通过查询接口来获得,为了获取某Deep Web站点的页面用户不得不键入一系列的关键词集。由于没有直接指向Deep Web页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明Deep Web站点提供的高质量的信息对许多用户来说是非常有价值。这里研究了怎样建立起一个有效的Deep Web爬虫,它可以自动发现和下载Deep Web页面。由于Deep Web惟一“入口点”是查询接口,Deep Web爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询。这里提出一种针对查询接口查询自动产生问题的理论框架。通过在实际Deep Web站点上的实验证明了此方法是非常有效的。  相似文献
8.
广域网分布式Web 爬虫   总被引:5,自引:0,他引:5       下载免费PDF全文
许 笑  张伟哲  张宏莉  方滨兴 《软件学报》2010,21(4):1067-1082
分析了广域网分布式Web 爬虫相对于局域网爬虫的诸多优势,提出了广域网分布式Web 爬虫的3 个核心 问题:Web 划分、Agent 协同和Agent 部署.围绕这3 个问题,对目前学术界和商业界出现的多种实现方案和策略进 行了全面的综述,深入讨论了研究中遇到的问题与挑战,并论述了广域网分布式Web 爬虫的评价模型.最后,对未来 的研究方向进行了总结.  相似文献
9.
链接分析对主题爬虫的改进   总被引:5,自引:0,他引:5  
汪涛  樊孝忠 《计算机应用》2004,24(Z2):174-176
在分析总结两种主题爬虫设计的基础之上,研究了用链接分析改进主题爬虫的方法.通过实验,比较引入链接分析前后的结果,论证了其设计可行性与可操作性,为实现定向信息采集奠定了良好的基础.  相似文献
10.
基于爬虫的XSS漏洞检测工具设计与实现   总被引:4,自引:2,他引:2       下载免费PDF全文
沈寿忠  张玉清 《计算机工程》2009,35(21):151-154
通过对XSS漏洞的研究,剖析其产生、利用的方式,在此基础上针对XSS漏洞的检测机制进行进一步的分析和完善。结合网络爬虫的技术,研究设计并实现了一款XSS漏洞的检测工具(XSS-Scan),并与当前比较流行的一些软件做了分析比较,证明利用该工具可以对Web网站进行安全审计,检测其是否存在XSS漏洞。  相似文献
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号