首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
基于众包的社交网络数据采集模型设计与实现   总被引:1,自引:0,他引:1  
社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统4个模块。通过主题Deep Web爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。  相似文献   

2.
网络爬虫技术是网络信息获取的重要手段,面向Web论坛的信息获取则是网络爬虫技术所面临的新课题.在分析和研究面向Web论坛信息获取技术的基础上,本文设计和实现了一种用于Web论坛信息获取的主题网络爬虫系统,根据Web论坛信息组织结构,提出了基于遍历策略的信息搜索技术;根据正文信息分布及论坛自身特点,提出了基于DOM与分块...  相似文献   

3.
随着社会的飞速发展,互联网上信息容量急剧增加,人们对搜索引擎的依赖愈发强烈。网络爬虫是搜索引擎的关键技术之一,同时也是快速获取网络上可用资源的有效工具。为了能够对网络爬虫更深入的了解并熟练合理的应用于各种的应用和系统中,经过对网络爬虫的框架、基本工作流程、抓取策略的分析和了解,使用Java与HTML解析工具jsoup以及MySQL数据库实现一个网络爬虫,简单爬取京东的图书数据,用于用户喜好的分析及购买倾向的判断,为用户提供个性化的服务。  相似文献   

4.
漏洞库是用来存储漏洞信息的数据库,是信息安全基础设施的重要组成部分。将主题爬虫技术引入漏洞数据库的维护工作,通过主题网络爬虫获取与"漏洞"相关的网页,从中提取漏洞信息来更新漏洞数据库,降低了人工维护的工作量,改善了现有漏洞库存在漏洞覆盖不全面、内容不丰富的问题。分析当前国内外主要漏洞库的结构特征,研究漏洞诸多属性间的关系,运用组群分类描述法构建漏洞库结构模型。在研究主题网络爬虫的基础上,提出一种面向漏洞主题的动态主题构建方案。介绍漏洞库维护系统的总体设计和实现方法。  相似文献   

5.
针对企业内网信息分散、检索困难、信息有效利用率低等问题,设计并实现了企业内网内容检索系统.系统充分利用Scrapy爬虫框架收集内网各个站点信息,存入数据库,并利用Flask创建Web应用,提供全文信息检索服务.不仅提高了工作人员的查询准确率,也提高了站内数据和信息的有效利用率.  相似文献   

6.
随着大数据时代的到来,越来越多的信息涌入互联网.以人工的形式在互联网中获取所需信息费时费力,而以网络爬虫的形式获取所需资源节省则大量人力物力财力.在通过网络爬虫获取所需资源的过程中爬虫需要模拟人工登录从而获取某些资源,网络爬虫的模拟登录是实现网络爬虫的一个重要环节,以Python语言作为开发语言,解决使用网络爬虫过程中所遇到的需要通过模拟OAuth2.0授权登录的问题.剖析了模拟登录整体流程,并且给出了爬虫通过OAuth2.0登录的具体的应用实例.  相似文献   

7.
网页标题分析对主题爬虫的改进   总被引:3,自引:1,他引:2  
随着网络信息资源的爆发式增长,现有的搜索引擎已经无法满足迅速获取准确信息的需要,为搜索引擎引入搜索内容更为精确的主题爬虫显得十分迫切.然而目前的主题爬虫所采用的两种基本抓取网页的方式效率比较低下.提出了一种通过网页标题分析对主题爬虫的改进方案,比较了引人标题分析前后的结果,论证了设计的可行性与可操作性,优化了主题爬虫对同类型特定信息的抓取.  相似文献   

8.
科技成果数据呈现跨领域、跨学科特性,传统的信息查询检索技术已难以满足用户日益增长的智能化、精准化的科技成果信息获取需求。分析了知识图谱领域和信息检索领域的研究现状。采用网络爬虫从互联网中高效地爬取科技成果数据,利用实体识别和关系抽取技术识别和发现科技成果数据中的科技实体,构建科技成果知识图谱,并实现科技成果数据的结构化存储。基于ElasticSearch搜索引擎对科技实体构建高效索引,研究科技成果语义相似度计算方法,实现基于知识图谱的科技成果智能查询系统。实验结果验证了所构建的系统能够实现科技成果的高效查询以及相关主题内容的关联发现。  相似文献   

9.
《软件》2017,(10):83-87
随着互联网技术的飞速发展,互联网信息和资源呈指数级爆炸式增长。如何快速有效的从海量的网页信息中获取有价值的信息,用于搜索引擎和科学研究,是一个关键且重要的基础工程。分布式网络爬虫较集中式网络爬虫具有明显的速度与规模优势,能够很好的适应数据的大规模增长,提供高效、快速、稳定的Web数据爬取。本文采用Redis设计实现了一个主从式分布式网络爬虫系统,用于快速、稳定、可拓展地爬取海量的Web资源。系统实现了分布式爬虫的核心框架,可以完成绝大多数Web内容的爬取,并且节点易于拓展,爬取内容可以定制,主从结构使得系统稳定且便于维护。  相似文献   

10.
邢琦 《计算机与数字工程》2022,(6):1202-1206+1228
针对大学生面临就业难现状,有效管理就业信息,提升就业率,设计基于分布式计算的大学就业信息管理系统。利用网络爬虫技术采集学生、企业与教育管理部门的相关信息,将采集信息存储起来并形成数据库;利用分布式计算框架处理数据库内的信息,提升系统的实时性,挖掘获取处理后数据内隐藏的有价值信息,并设计了基于企业生命周期理论的就业推荐算法为学生推荐合理的职位。实验证明:该系统可有效管理就业信息,系统读取数据效率与信息检索完整度高,具备较好的就业推荐性能。  相似文献   

11.
针对传统创新创业竞赛服务数据采集效率低下,信息过于分散,导致信息质量差的问题,设计一个基于大数据技术与主题网络爬虫技术的创新创业竞赛服务系统。系统主要分为数据采集、消息订阅、智能推荐和大数据存储功能模块。首先采用主题网络爬虫方法进行信息爬取;然后采用大数据技术的向量空间模型VSM算法和改进协同过滤推荐算法对采集数据进行过滤清洗和智能推荐,以此实现各个功能模块的设计。实验结果表明,提出的主题网络爬虫方法对不同信息的平均采集速度均保持在8.6 ms上下,系统数据采集效率显著提升。提出的VSM算法对数据处理后的平均相似度取值为0.833,十分接近标准值0.75,说明本系统提升了数据采集质量。由此可知,设计的系统满足创新创业竞赛服务需求,具有一定的可行性。  相似文献   

12.
网络中的数据蕴藏着大量有价值信息,在实际的项目需求中,为了实现能够自动的在网页上对大量数据的数据信息的收集、解析、格式化存储的过程,提出了基于分布式的网络爬虫技术。采用Nutch爬虫框架和Zookeeper分布式协调服务,配合高性能的Key-Value数据库Redis对数据进行存储,采用Solr引擎将抓取信息进行清晰地索引、展示。运用提取页面信息算法优化提取页面信息流程,通过关键词匹配优化算法根据指标从抓取的数据中获取指标相关数据。通过分布式集群的搭建,Nutch项目的实现,及大量数据的采集,验证了基于Nutch的分布式网络爬虫的可行性。通过页面解析流程实验分析,基于Nutch的分布式爬虫与其他爬虫多组实验数据对比结果表明,基于Nutch的分布式爬虫项目在性能和准确度方面都优于传统其他爬虫。  相似文献   

13.
通过采取高效的分布式网络数据获取方法,结合大数据分析与人工智能技术,能够为传统行业建设与管理提供更加科学精准的分析与预测手段。以江苏省电力建设的投资成本预测为背景,基于主流python语言和分布式爬虫框架scrapy研究深层网络爬虫,根据深层网络结构设计爬虫策略并实现并行网络数据抓取系统,大规模获取江苏省各地市的GDP、人口数量、企业分类、社区建设、交通建设等宏观经济数据。通过自然语言处理和正则表达式等技术,对获取到的结构化和非结构化数据进行数据清洗和文本处理,最终实现数据的可视化展示。  相似文献   

14.
本文通过对分布式技术和主题网络爬虫的研究,设计了一个能处理海量数据的分布式主题爬虫。设计内容主要包括分布式主题网络爬虫的各个功能模块及其实现方法。如页面的主题相关度判定方法、URL去重过滤方法等。主要使用了Hadoop技术和向量空间模型。该分布式主题爬虫的研究与设计为后面分布式主题爬虫的实现奠定了基础。  相似文献   

15.
在智能管家系统中,通过检测人的体重和体脂,再结合客户录入的信息计算出BMI,并将相关数据存储至数据库中以便查询。另外,系统应用网络爬虫技术获取天气状况,搭建C/S模型实现论坛交流功能。系统采用三星4412芯片做为控制核心,搭载Linux操作系统进行开发。  相似文献   

16.
文中揭示了专业信息检索工具的原理及实现方法.网络信息检索技术是检索自动化专业信息的重要方法,也是计算机应用方面的一项重要技术.网络信息工具的实现是一项复杂的技术,在该工具系统的核心部分包含有大型数据库的建立和网络编程实现技术.数据的采集技术维持着大型数据库的数据容量和数据库内容的不断更新,以编程技术的提高来完成检索的准确性目标.  相似文献   

17.
借鉴了国外Twitter的采集方法,目前,国内微博信息的采集方法主要为网络爬虫采集和基于新浪微博开放平台API文档采集。但普通网络爬虫不具备登录功能,而新浪微博开放平台API有一定的限制,无法完全采集。本系统使用Java在Myeclipse平台上进行开发,使用MySQL数据库存储数据。在模拟新浪微博登录后,从数据库中获取待采集新浪微博用户的微博地址,根据获取到的地址采集网页,解析后放入数据库,供分析系统使用。  相似文献   

18.
微博作为优质的数据源,其中的数据非常适合做舆情分析等。新浪官方提供的API限制数据采集速度,而利用模拟登录的网络爬虫采集数据又相对复杂且会降低效率。针对这些问题,设计了一个免登录的微博网络爬虫。通过实验表明,该爬虫可以更快的对微博数据进行完整稳定的采集。随着对数据需求量越来越大,单机网络爬虫已经不足以满足要求,将Hadoop分布式计算平台与免登录爬虫相结合,设计了一个基于MapReduce的分布式网络爬虫系统,利用多台计算机组成的集群,实现短时间内免登录抓取海量微博数据。通过实验证明,该爬虫系统可以每天稳定抓取近千万条微博。  相似文献   

19.
随着移动互联网的普及以及网络信息指数的增长,如何有效地提取和利用这些信息面临巨大挑战。介绍了主题爬虫的工作原理、分类;回顾了近年来国内外关于主题爬虫的研究状况,分析了各种主题相似度的方法以及搜索策略,得出相比于普通的爬虫系统,基于网页内容和基于链接分析的爬虫系统的查准率、查全率都大幅度地提升;最后分析比较了主题网络爬虫两种动态搜索策略并指出了未来研究方向。  相似文献   

20.
随着互联网不断更新换代,信息呈现出井喷式发展。网络信息的获取方式就显得至关重要,采用网络爬虫的方式是一种获取信息的有效手段。本文利用Python对招聘网站的li信息进行网络爬虫,通过使用PyQt库设计图形界面,输出的csv文件以pandas库的格式进行读取和保存,最后对读取到的数据利用matpob库的图像功能进行分析,根据用户需求生成散点图或柱状图便于清晰的展示给用户;通过测试该系统运行稳定,功能实用,网络爬虫获取信息的方式可以有效的帮助求职者了解市场需求,快速定位相符职位,该系统有一定实用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号