首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 31 毫秒
1.
在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。文中在分析主题爬虫的结构及特征的基础上,通过引入自己的主题相关度评价方法以及HITS网页排序算法,构建了一个主题爬虫。文中给出了爬虫实现的具体步骤,以云计算为主题,进行了实验。实验结果较好地反映了主题爬虫的实用性。  相似文献   

2.
研究实现了一个分布式网络爬虫系统.系统架构主要分为控制节点和爬行节点两部分,并描述了分布式系统关键技术的解决方案.系统采用二级哈希映射算法进行任务分配以解决基于目标导向、负载均衡的URL分配问题,使用消息通信使节点相互协作,提出利用遗传算法作为该主题爬虫系统的搜索策略,并给出了网页更新策略的改进方法.  相似文献   

3.
主题爬虫的设计与实现   总被引:11,自引:2,他引:11  
汪涛  樊孝忠 《计算机应用》2004,24(Z1):270-272
文章以主题相关度为核心研究了设计主题爬虫的相关技术,通过实验给出了具体实现.实验结果充分论证了其可行性与实用性,为进行主题搜索引擎设计和主题信息采集奠定了良好的基础.  相似文献   

4.
郭世龙  王晨升 《软件》2013,(12):107-109
海量网页的存在及其数量的急速增长使得通用搜索引擎难以满足面向主题或领域的用户需求。本文研究的主题爬虫致力于收集主题相关信息,达到极大降低网页处理量的目的,本文给出了主题爬虫中url处理、文本信息处理、文本特征训练等全部设计流程。实验结果充分论证了其可行性与实用性,为进行主题搜索引擎设计和个性化推荐系统设计提供相关主题信息采集的良好基础。  相似文献   

5.
传统的聚焦爬虫在主题未知或者缺少相应训练集的情况下无法完成主题爬行。为让聚焦爬虫具有更好的主题适应性,提出基于聚类算法的自适应主题模型,指导聚焦爬虫在只有少量相同主题(主题未知)初始url的情况下完成主题爬行。通过对初始页面聚类得到主题中心向量,寻找相关网页更新主题中心位置;基于best-first策略实现url排序;基于该模型实现用户定制主题聚焦爬虫。通过对比实验验证了使用该模型的爬虫具有较高的收获比(havest rate)。  相似文献   

6.
化学主题网络爬虫的设计和实现   总被引:1,自引:0,他引:1  
由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究。结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页。  相似文献   

7.
今年是辛亥革命100周年,该文在普通爬虫的技术基础上以主题相关性为核心构建辛亥革命史主题爬虫,从而保证该主题爬虫所搜集网页与辛亥革命主题相关,返回用户所需,做构建辛亥革命主题搜索引擎的前期工作。  相似文献   

8.
随着互联网技术的飞速发展,网页数量急剧增加,搜索引擎的地位已经不可取代,成为人们使用Internet的入口。网络蜘蛛作为搜索引擎的信息来源是搜索引擎必不可少的组成部分。介绍网络蜘蛛设计中的关键技术。另外,随着用户个性化需求越来越强以及网页数量的急剧增加导致通用搜索引擎无法满足特定用户的需求,专业搜索引擎得到快速的发展。同时对于主题爬虫的研究也有很大的突破和进展。主题爬虫有别于通用爬虫,通用爬虫注重爬取的完整性,而主题爬虫强调网页与特定主题的相关性。同时对主题爬虫的研究现状进行介绍和总结。  相似文献   

9.
通过比较普通爬虫与主题爬虫,以主题相关性为核心设计搜集数码产品信息的主题爬虫。提出相似度和PageRank相结合的排序算法,从而保证所搜集网页的主题相关性,切返用户之需,为主题搜索引擎的实现奠定了良好的基础。  相似文献   

10.
本文通过对分布式技术和主题网络爬虫的研究,设计了一个能处理海量数据的分布式主题爬虫。设计内容主要包括分布式主题网络爬虫的各个功能模块及其实现方法。如页面的主题相关度判定方法、URL去重过滤方法等。主要使用了Hadoop技术和向量空间模型。该分布式主题爬虫的研究与设计为后面分布式主题爬虫的实现奠定了基础。  相似文献   

11.
Ajax技术给传统的爬虫带来了巨大的挑战,为了能够提取出在Ajax程序中隐藏的WEB资源,需要解决两大关键问题:JavaScript脚本解析和每一次脚本事件触发后的页面状态信息的保存。提出一种适合Ajax的爬虫模型,在模型中设计了一个嵌入的脚本解析引擎和使用了有向状态图,有效地解决了上述的两个关键问题。实验结果显示该爬虫模型能够有效地提取出Ajax程序中的隐藏资源。  相似文献   

12.
分布式网络爬虫的设计与实现   总被引:1,自引:0,他引:1  
提出一种可部署于单一网域及多网域间的分布式爬虫DSpider。DSpider能够通过调整节点规模和连接超时阈值,有效部署于LAN和WAN两种网络环境中。首先简要介绍了DSpider的系统结构,然后详细分析了DSpider的任务调度策略,并且在实验中将DSpider爬虫部署在LAN和WAN两种环境中的不同性能作了详细的分析。  相似文献   

13.
民航空管系统运行质量监督是对空管系统实施风险管理、安全绩效监控和安全管理决策的基础。在分析国内外民航监督检查系统现状和质量监督管理职责基础上,通过对业务流程中的业务逻辑关系和接口信息数据路由的深入分析,研究和设计了系统的部署结构和主要的功能模块。该系统由监督检查工作准备,监督检查实施,监督检查结果跟踪,监督检查结果统计、法规标准查询和数据库管理6大功能模块组成,被分解成32个子板块。自2013年1月该系统在民航局空管局、7个地区空管局和37个空管分局(站)推广试用,极大地提高了监管效率和运行质量监督组织实施的规范化,降低了监管成本和工作量。  相似文献   

14.
多线程爬行是高效率网络机器人实现的关键。分析在单个计算机节点上网络机器人多线程爬行的关键流程,并借鉴硬件指令流水线的执行过程研究不同多线程并发调度策略下系统的性能特点。最后,给出实现网络机器人多线程爬行的关键数据结构、并发调度方法及URL消重策略。实验数据表明:有效地控制并发和有选择地消除重复URL可以提高网络机器人的爬行速度。  相似文献   

15.
对民政业务数据的特征进行分析,发现民政业务数据对传输安全要求较高。在分析了常用解决方案优缺点的基础上,提出基于SSL VPN民政数据安全加固的整体设计方案。介绍SSL VPN、LDAP的原理和框架,充分利用SSL VPN、LDAP等的特性和优点,设计并实现交互认证的应用程序。该方案使应用客户端、应用服务端、SSL VPN客户端和网关、LDAP形成了一个安全闭环。通过充分测试验证了系统的可行性,得到了有效的推广和现实应用。该套系统极大地降低了民政部门的费用开支,加固了数据传输安全,方便了行政单位用户的操作,有效提高了工作人员的工作效率,为将该方案向全国推广奠定了坚实的基础。  相似文献   

16.
针对民航突发事件实体自动获取的问题,提出一种将双向长短期记忆网络(BiLSTM)与条件随机场(CRF)结合的民航突发事件实体识别方法。利用领域词典对民航突发事件实体进行自动标注,并将已标注的数据转化为分布式字符向量;采用BiLSTM模型获取序列文本的上下文特征;通过CRF模型获得序列标注结果。实验结果表明,与传统的CRF方法相比,该方法的F值有明显的提升,有效解决了传统方法在识别民航突发事件文本信息中包含复合实体或混合实体方面效率低且大量使用人工定义特征模板的问题,为民航突发事件知识图谱的自动构建提供了更好的方法支撑。  相似文献   

17.
智能CAD系统CADTSB的研制   总被引:2,自引:0,他引:2  
本文介绍了一个智能CAD系统——计算机辅助中小型汽轮机滑动轴承设计系统CADTSB(Computer Aided Designing Turbine’s Sliding Bearing)的设计和实现技术,探讨了智能CAD在专家系统、数值计算、数据库系统和图形系统集成程序设计环境下的系统开发技术。  相似文献   

18.
X终端的设计与实现   总被引:5,自引:0,他引:5  
周恒  何文骁 《计算机学报》1996,19(7):543-547
X终端是运行X服务器的面向网络的图形终端,本文论述了X终端的设计与实现,先介绍了X终端的体系结构,接着着重论述了实现X终端的三个关键技术:基于UNIX的操作系统设计,操作系统自举过程和相关的局域网技术。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号