首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于多Agent系统的定题爬虫算法   总被引:2,自引:1,他引:1       下载免费PDF全文
徐照财  程显毅 《计算机工程》2008,34(16):204-206
定题爬虫的研究是定题搜索引擎的关键技术。该文提出一种基于多Agent系统的爬虫算法,采用本题语义主题关键词过滤的方法来抓取与主题相关的网页,利用本体库语义网络实现本体领域中同近义词的过滤。凭借HTML网页标记对关键字识别的不同权重和超链接锚文本对主题相关网页进行预测,通过黑板的通信机制实现多Agent交互。实验结果表明算法在抓取网页的查准率、查全率方面有一定的改善。  相似文献   

2.
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。  相似文献   

3.
定题搜索引擎Robot的设计与算法   总被引:6,自引:0,他引:6  
定题搜索引擎将信息检索限定在特定主题领域,提供特定主题的信息检索服务,是新一代搜索引擎的发展方向之一。该文介绍了一个定题搜索robot系统NetBat 2.02版,它可以实现在web上爬行下载主题相关网页。定题搜索的关键技术是主题相关信息的搜索及网页相关度分析。该文分析了传统定题搜索算法的优缺点,提出了基于反向链接结合超链文本分析的定题搜索算法。文章还对基于内容的网页相关度分析算法进行了详细的论述。对比搜索实验表明系统有着较好的性能,能准确地爬行到主题相关网页。  相似文献   

4.
聚焦爬虫是搜索引擎的网页自动获取程序,是搜索引擎发现和索引深层网(Deep web)数据的关键一步.介绍了一种聚焦爬虫,该爬虫使用PageRank算法分析网页的重要性,通过网站结构图剪枝技术及页面判断算法过滤与主题无关的URL,有效提高deep web数据集成的质量和效率.  相似文献   

5.
基于遗传算法的定题信息搜索策略   总被引:4,自引:0,他引:4  
定题检索将信息检索限定在特定主题领域,提供主题领域内信息的检索服务。它是新一代搜索引擎的发展方向之一。定题检索的关键技术是主题相关信息的搜索。本文提出了基于遗传算法的定题信息搜索策略,提高链接于内容相似度不高的网页之后的页面被搜索的机会,扩大了相关网页的搜索范围。同时,借助超链Metadata的提示信息预测链接页面的主题相关度,加快了搜索速度。对比搜索试验证明了算法具有较好的性能。  相似文献   

6.
基于贝叶斯分类器的主题爬虫研究*   总被引:4,自引:0,他引:4  
主题爬虫是实现定题搜索引擎的核心技术。提出了基于贝叶斯分类器实现主题爬虫的方法,介绍了基于贝叶斯分类器的主题爬虫的系统结构以及系统关键部分的实现,包括URL队列、爬行历史、页面下载以及页面分析,并重点介绍了基于贝叶斯分类器的主题相关度算法。爬虫使用改进的TF-IDF算法来提取网页内容的特征,并采用贝叶斯分类器计算其主题相关度。实验结果表明,在搜索大量网络资源的情况下,贝叶斯分类器比PageRank算法更适合用于实现主题爬虫。  相似文献   

7.
随着Internet的快速发展,越来越多的用户提出与主题或者领域相关的查询需求,而传统通用搜索引擎已经无法满足这一需求。为了克服传统通用搜索引擎的不足,研究者提出面向主题的爬虫。首先给出主题网络爬虫的定义,接着提出主题爬虫的三个关键技术:抓取目标、网页搜索策略和网页主题相关性算法,最后给出主题爬虫在今后的一些研究方向。  相似文献   

8.
基于时间链接分析的页面排序优化算法*   总被引:1,自引:0,他引:1  
鞠时光  吕霞   《计算机应用研究》2009,26(7):2438-2441
传统的页面排序算法偏重于旧网页,使得一些旧的页面经常出现在检索结果的前面。为了改进此类算法,引入时间链接分析,使用爬虫抓起页面时HTTP协议反馈回来的修改时间作为页面和链接的时间,并综合考虑页面的出入链接个数和时间来计算页面的权重值。开发出的WTPR算法能使新网页集在排序中上升,高质量的旧网页比普通的旧网页能获得较高的排序值。  相似文献   

9.
主题网络爬虫研究综述   总被引:3,自引:0,他引:3       下载免费PDF全文
网络信息资源呈指数级增长,面对用户越来越个性化的需求,主题网络爬虫应运而生。主题网络爬虫是一种下载特定主题网页的程序。利用在采集页面过程获得的特定信息,主题网络爬虫抓取的页面都是与主题相关的。基于主题网络爬虫的搜索引擎以及基于主题网络爬虫构建领域语料库等应用已经得到广泛运用。首先介绍了主题爬虫的定义、工作原理;然后介绍了近年来国内外关于主题爬虫的研究状况,并比较了各种爬行策略及相关算法的优缺点;最后提出了主题网络爬虫未来的研究方向。关键词:  相似文献   

10.
网页抓取器是爬虫系统的一个重要部分,其性能的好坏直接影响着搜索引擎的性能.网页抓取器可以分为网络层和应用层,而网络层是关键.基于选取样本页面、定义规则和网页抓取的三个步骤,在linux下使用epoll技术实现了多线程的网页抓取,方法快速有效.  相似文献   

11.
12.
13.
机车空调逆变电源设计   总被引:1,自引:0,他引:1  
本文讨论的是机车空调逆变电源系统的设计与研究。该电源系统主要是由DC/DC的BOOST升压部分和DC/AC三相逆变部分两部分组成。DC/DC部分所得直流电压通过DC/AC部分逆变成三相交流电,供给空调机组工作。同时,为使电源系统能更可靠的运行,也设计了相应的故障检测、保护等辅助电路。  相似文献   

14.
针对国家烟草管理的现状,有关主管部门在全国推行“行业卷烟生产经营决策管理系统工程”,利用条码等自动识别技术手段实时掌握全国的生产经营信息。但某卷烟厂此前的物流环节已经是“件烟成垛”运输,如何在尽可能保持原有企业管理体系的前提下,达到有关部门的数据统计要求,解决成垛卷烟的物流和信息流的交互与统一问题成为技改的核心。该项目成功的将条码识别与射频识别有机结合起来,为烟草行业信息化提供了生动的应用案例。  相似文献   

15.
张锐 《自动化应用》2014,(12):113-114
对国网宁夏电力检修公司宁安运维站近2年来一次设备喷涂PRTV用量的统计数据进行分析整理,得出各类一次设备按照标准要求喷涂PRTV时的用量估算值,并针对现存作业中存在的问题,提出相应解决方案。  相似文献   

16.
17.
18.
煤矿多功能物联网读写器的设计   总被引:1,自引:1,他引:0  
介绍了物联网的概念和结构组成,分析了物联网在煤矿中的具体应用,详细介绍了一种具有煤矿特色的多功能物联网读写器的设计与实现。该读写器应用在物联网的感知层,能够进行物体识别和各类物理信号与环境参数的传送,为煤矿应用物联网提供了一个很好的感知层解决方案。  相似文献   

19.
20.
机械臂绝对定位精度测量   总被引:2,自引:1,他引:1  
提出了用激光跟踪仪标定机械臂的D-H参数、测量机械臂绝对位姿以及对机械臂的绝对定位精度进行分析的方法;用激光跟踪仪测量机械臂各个关节单独运动时得到的一系列离散点,就可确定机械臂各个关节的轴线,由此建立机械臂的D-H坐标系,并对D-H参数进行标定;然后,给出了由6D激光头位姿确定机械臂末端位姿的方法;最后,推出了由测量位姿值与命令位姿值相比较,得到机械臂绝对定位的位置和姿态偏差的方法;这些方法可以有效、迅速地完成对机械臂绝对定位精度的测量.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号