首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于众包的社交网络数据采集模型设计与实现   总被引:1,自引:0,他引:1  
社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统4个模块。通过主题Deep Web爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。  相似文献   

2.
本文通过对分布式技术和主题网络爬虫的研究,设计了一个能处理海量数据的分布式主题爬虫。设计内容主要包括分布式主题网络爬虫的各个功能模块及其实现方法。如页面的主题相关度判定方法、URL去重过滤方法等。主要使用了Hadoop技术和向量空间模型。该分布式主题爬虫的研究与设计为后面分布式主题爬虫的实现奠定了基础。  相似文献   

3.
为适应新时代国家关于大学生就业服务的要求,在LeanCloud云服务平台下,基于Scrapy网络爬虫技术和智能推荐算法,研究并设计了一个大学生精准就业服务系统。该系统可根据毕业生的求职意向,实现职位的智能推荐。实验证明,该系统能有效满足毕业生个性化就业需求,提高企业的招聘效率,提升学校精准就业服务的水平。  相似文献   

4.
通过对主题网络爬虫的研究,设计一个对网络中的矿山设备资源进行收集的主题网络爬虫。设计内容主要包括主题网络爬虫的各个功能模块以及各功能模块实现的方法。例如判定网页主题相关度及URL价值评价等。使用的主要技术为向量空间模型和PageRank算法。矿山设备领域主题网络爬虫的研究与设计为矿山设备领域主题爬虫的实现奠定了基础。  相似文献   

5.
随着信息技术和网络的不断迅猛发展,互联网的信息资源急剧增长.信息过载问题促进了个性化推荐技术发展.协同过滤算法通过在用户和信息之间建立联系,被广泛应用于电子商务各个领域.本文提出通过利用微信小程序来获取用户的个性化信息数据,并且通过协同过滤算法,为用户设计的微信小程序智能助手,能够为用户推荐符合用户个性化的生活服务信息.在本文中,介绍了智能助手的设计方法,并详细介绍了系统的功能和个性化推荐功能的实现.  相似文献   

6.
张雁涔 《信息与电脑》2023,(12):154-156
为便于企业进行信息筛选和采集,文章采用网络爬虫技术设计企业大数据采集系统,使企业大数据采集系统更符合时代发展的需求,即要确保采集数据信息的精准性、有效性、及时性,拟在解决数据精准匹配问题的基础上,优化系统的处理和运行效率。  相似文献   

7.
网络爬虫采集互联网信息并提供搜索服务。该设计基于Lucene.NET平台开发网络爬虫,可以对特定的网页进行抓取和分析,提取网页中有用信息,并对抓取的数据进行索引,存储到服务器硬盘,同时过滤掉无用信息。系统界面友好,准确高效。  相似文献   

8.
中文RSS信息自动检索与分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
设计并实现了RSS垂直爬虫算法,利用广度优先算法聚焦于RSS源进行自动采集,并在文本分词基础上,针对RSS源进行词语权重计算方法的改进及词语过滤,利用VSM方法实现RSS自动分类。实验结果表明,RSS系统在较低的负载下,能以较高的效率和正确率实现中文RSS信息自动检索与分类,从而有效进行RSS信息聚合管理。  相似文献   

9.
微博作为优质的数据源,其中的数据非常适合做舆情分析等。新浪官方提供的API限制数据采集速度,而利用模拟登录的网络爬虫采集数据又相对复杂且会降低效率。针对这些问题,设计了一个免登录的微博网络爬虫。通过实验表明,该爬虫可以更快的对微博数据进行完整稳定的采集。随着对数据需求量越来越大,单机网络爬虫已经不足以满足要求,将Hadoop分布式计算平台与免登录爬虫相结合,设计了一个基于MapReduce的分布式网络爬虫系统,利用多台计算机组成的集群,实现短时间内免登录抓取海量微博数据。通过实验证明,该爬虫系统可以每天稳定抓取近千万条微博。  相似文献   

10.
张莉婧  曾庆涛  李业丽  孙华艳  字云飞 《计算机科学》2017,44(Z11):460-463, 469
针对图书信息爬取结果中包含大量无用数据的问题,提出一种面向图书主题的爬虫算法。该算法主要由两部分组成:一部分是基于开放式分类目录系统(ODP)的动态关键词扩充的主题描述方法;另一部分是基于词项语义扩展度的向量空间模型(VSM)主题相关度算法。通过实验对新算法、基于关键词的VSM算法以及基于ODP的VSM算法进行了对比分析,结果表明新算法在图书主题爬虫中更具有优势。  相似文献   

11.
邢琦 《计算机与数字工程》2022,(6):1202-1206+1228
针对大学生面临就业难现状,有效管理就业信息,提升就业率,设计基于分布式计算的大学就业信息管理系统。利用网络爬虫技术采集学生、企业与教育管理部门的相关信息,将采集信息存储起来并形成数据库;利用分布式计算框架处理数据库内的信息,提升系统的实时性,挖掘获取处理后数据内隐藏的有价值信息,并设计了基于企业生命周期理论的就业推荐算法为学生推荐合理的职位。实验证明:该系统可有效管理就业信息,系统读取数据效率与信息检索完整度高,具备较好的就业推荐性能。  相似文献   

12.
网络爬虫是一种计算机程序,可以根据科学计算、数据处理及网页开发等方面的需求,在互联网上进行数据、信息的爬取,高效、精准地进行数据采集.基于此,本文结合络爬虫的技术原理进行分析,了解不同类型网络爬虫特征,明确其功能、应用范围及使用要求.在此基础上,进行数据采集系统、采集系统模型的设计,同时论述了实际生活中的应用.  相似文献   

13.
由于传统系统在实际应用中数据采集速率较低,且丢包率较高,无法取得预期的数据采集效果,提出了基于可编程阵列逻辑(Field Programmable Gate Array,FPGA)的电子设备运行数据智能采集系统。采用客户机和服务器(Client/Server,C/S)结构构建系统架构,将系统划分为应用层、逻辑层、数据层3个部分。系统硬件方面对数据采集器与FPGA进行选型与设计,利用FPGA控制数据采集器实时采集电子设备运行数据;系统软件方面设计了数据传统功能模块与数据智能采集功能模块,实现系统设计。实验证明,设计系统的数据采集速率比值在9.5以上,丢包率在0.5%以下,在电子设备运行数据智能采集方面具有良好的应用前景。  相似文献   

14.
随着互联网大数据技术的不断发展,网络数据采集技术成为热门的研究领域之一。基于Python语言下的数据采集功能库如Urllib、Requests、Selenium等模块效率低、易阻塞,并且目前的数据采集和分析平台都是独立的功能模块,没有形成闭环,用户体验差。为了解决上述问题,提出一种数据采集和分析平台,首先使用Scrapy框架完成数据采集,其次将采集到的数据通过Kettle工具进行数据清洗,再次,将处理好的结果存入MySQL 数据库,最后利用Flask框架,结合Echarts 技术搭建Web 系统,对数据分析结果进行可视化。以北京公交网站数据作为爬虫测试平台,通过对公交线路类型、公交路线等信息进行采集分析及结果展示,分析结果对城市公交的规划具有一定的指导意义,同时,平台具有稳定可靠、操作简单、实时性强等特点。  相似文献   

15.
针对当前移动广告的精准推送需求,结合当前的智能技术,提出一种基于用户画像结合协同推荐的广告精准推送方法.在该方法中,基于网络爬虫技术对网页文本关键词的提取,采用VSM向量空间模型构建用户兴趣模型;然后针对个性化推荐中存在评分项目数据稀疏性问题,通过RBF神经网络的方式对评分矩阵进行预测,然后再通过协同推荐算法进行推荐....  相似文献   

16.
用户个性化推荐系统的设计与实现   总被引:4,自引:0,他引:4  
为实现个性化服务,理解用户兴趣就成了提供服务的关键任务,因此,提出了隐性采集用户浏览内容、用户浏览时间和用户操作时间的信息方法,通过对网络爬虫程序抓取的网页进行内容清洗提取出主要内容之后,利用VSM建立文档模型,并采用SVM分类方法建立推荐库.基于从客户端采集的用户兴趣信息建模,以及根据该模型和推荐库的相似度,给用户推荐信息.此外,给出了基于该模型的推荐原型系统的实现,使用查准率来评价该系统.试验结果表明,系统较好地实现了基于用户兴趣来推荐阅读的信息.  相似文献   

17.
一般的网络安全应用软件,只对网络中的某类报文进行处理,基于通用的网卡采集网络数据,会收到大量的无用报文,降低系统效率。本文基于FPGA和零拷贝技术,设计并实现了一种智能网卡,将报文分类过滤工作下移到网卡硬件中实现,智能网卡完成了网络数据包报文捕获、报文分析、规则匹配等工作,可以过滤掉无用报文,只把应用关心的报文提交给到主机系统。与普通网卡相比,智能网卡可以有效提升网络数据采集的效率。  相似文献   

18.
智能隧道穿越算法研究   总被引:1,自引:0,他引:1  
在深入研究传统的主题网络爬虫爬行策略的基础上,提出了一种全新的智能隧道穿越算法。该算法将快速在线Q(λ)学习算法引入普通隧道技术中,通过在线学习积累爬行过程中的经验,引导主题网络爬虫以最小的时空代价穿越主题相关度低的区域到达主题相关度高的区域。模拟实验表明,与普通隧道相比,智能隧道算法降低了时空复杂度,提高了主题网络爬虫的性能与运行效率。  相似文献   

19.
为了提高目前爬虫算法抓取结果的有效性, 提出了一种旨在获取有效信息的改进网络爬虫算法, 主要设计了信息的分层结构保留策略和URL过滤模式。在改进算法中, 网络资源定位符被分层存储, 在保留信息全部拓扑关系的基础上, 将交错复杂的URL网络系统从一个图结构变为一个层次分明的树结构。在执行结构模式下, 实现了增量爬虫算法。仿真实验以实际网站的BBS为测试数据, 结果表明, 改进算法比现有网络爬虫算法在爬行速度、下载效率与信息有效性等方面有较大的优势。因此, 分层结构策略与URL过滤模式可以在增加少量计算时间的前提下极大提高爬虫抓取页面的有效性。  相似文献   

20.
李善涛  肖波 《软件》2013,(12):41-45
随着互联网的快速发展,从海量信息中获取感兴趣的信息越来越困难。推荐系统正是解决这一难题最热门的技术之一。数据稀疏性问题是当前推荐系统所面临的主要问题之一。为了缓解数据稀疏性的问题,本文借助社交网络,提出了一种融合用户社交网络的推荐算法,将用户在社交网络中的亲密度引入推荐系统。在实验部分,本文采用百度电影推荐算法创新大赛的数据集,设计实验验证了提出算法的有效性。实验结果表明,本文提出的算法能够有效地缓解传统协同过滤算法面临的数据稀疏性问题,明显提高预测的准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号