首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   1篇
  完全免费   2篇
  自动化技术   3篇
  2009年   1篇
  2008年   1篇
  2006年   1篇
排序方式: 共有3条查询结果,搜索用时 31 毫秒
1
1.
网页变化与增量搜集技术   总被引:9,自引:1,他引:8       下载免费PDF全文
孟涛  王继民  闫宏飞 《软件学报》2006,17(5):1051-1067
互联网络中信息量的快速增长使得增量搜集技术成为网上信息获取的一种有效手段,它可以避免因重复搜集未曾变化的网页而带来的时间和资源上的浪费.网页变化规律的发现和利用是增量搜集技术的一个关键.它用来预测网页的下次变化时间甚至变化程度;在此基础上,增量搜集系统还需要考虑网页的变化频率、变化程度和重要性,选择一种最优的任务调度算法来决定不同网页的搜集频率和相对搜集次序.针对网页变化和增量搜集技术这一主题,对最近几年的研究成果作总结,并介绍最新的研究进展.首先论述对网页变化规律的建模、模型参数估计和估计效率等问题;然后介绍几个著名的增量搜集系统,着重分析它们的任务调度算法;最后,从理论上分析和总结增量搜集系统的最佳任务调度算法及其一个基于启发式策略的近似解,并预测其将来的研究趋势.该工作对增量搜集系统的设计和Web演化规律的研究具有参考意义.  相似文献
2.
为了提高网络爬虫的效率,作者针对互联网中的大量格式良好,页面中链接更新频率高的网页,分析这类网页在互联网中发现新信息的重要性,重新定义了网页变化的概念,利用Possion过程和Markov更新过程设计了一种高效监测这类网页中的链接变化情况的模型,并用实验证明了这种模型的有效性.  相似文献
3.
雷凯  王东海 《计算机工程》2008,34(13):78-80,1
针对传统的周期性集中式搜索(Crawler)的弱点和增量式Crawler的难点,提出预测更新策略,给出判别网页更新的MD5算法、URL调度算法和URL缓存算法,描述系统各个模块的分布式构架的实现,建立测试集数据对算法进行评测。该系统在北大天网搜索引擎上运行半年多,更新周期缩短了20天,变化预测命中率达到79.4%,提高了时效性、扩展性和稳定性。  相似文献
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号