首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  完全免费   1篇
  自动化技术   1篇
  2001年   1篇
排序方式: 共有1条查询结果,搜索用时 0 毫秒
1
1.
高效率WWW信息采集   总被引:7,自引:0,他引:7       下载免费PDF全文
随着WWW上的信息日益丰富,对高效率信息采集(IG)工具的需求日益迫切.由于网络资源非常昂贵,因此,信息采集属于资源受限型任务.主要目标是设计面向特定领域的高效率信息采集方法.提出了在不下载页面的情况下推测页面内容的方法,设计了不同的控制策略,并定义了多种页面下载优先级定量指标,建造了一个信息采集系统——TH-Gatherer,并进行了不同的实验以检验此方法.实验证明,可以在不实际下载页面的情况下,近似推测出候选页面的内容,采用混合尺度的基于优先级的采集方法,在采集效率方面比当前许多信息采集工具(包括Crawler和离线浏览工具)常用的宽度优先方法高4倍以上.实验结果表明,所设计的获取方法在获取效率方面比当前常用的宽度优先方法高4倍以上.此方法适用于资源受限条件下、特定领域的信息采集.  相似文献
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号