首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
卓秀然  赵伯听  郭国洪  林欣 《福建电脑》2012,28(4):134-135,111
本文针对当前舆情信息系统信息采集的情况,提出了一种基于网络爬虫的网络舆情信息采集系统的架构,并对其予以了实现。通过对该系统的测试,验证基于该架构的网络舆情信息采集系统,可以有效地对网络中的舆情信息进行抓取和采集,并支持数据库存储,为网络中舆情信息的管理和监控提供数据支持。  相似文献   

2.
传统的聚焦爬虫在主题未知或者缺少相应训练集的情况下无法完成主题爬行。为让聚焦爬虫具有更好的主题适应性,提出基于聚类算法的自适应主题模型,指导聚焦爬虫在只有少量相同主题(主题未知)初始url的情况下完成主题爬行。通过对初始页面聚类得到主题中心向量,寻找相关网页更新主题中心位置;基于best-first策略实现url排序;基于该模型实现用户定制主题聚焦爬虫。通过对比实验验证了使用该模型的爬虫具有较高的收获比(havest rate)。  相似文献   

3.
殷美桂 《现代计算机》2023,(20):104-108
大数据背景下,构建网络舆情系统能有效、及时地对舆情进行监督和引导。利用Python Django+Vue前后端分离技术方案搭建基于B/S的网络舆情系统。服务器端采用Scrapy框架爬取新浪微博的学校舆情数据,数据预处理后进行情感倾向分析;客户端展示网络舆情分析的结果。系统具有扩展性强、操作简单等特点,解决了学校网络舆情监管问题。  相似文献   

4.
网络热点信息发现系统应用网络多媒体内容采集、数据分析等技术,完成针对校园网络舆情信息的有效提取与分析研究.分析了网络爬虫技术发现系统应解决的基本问题及涉及的元数据管理等关键技术,提出了相关的解决方案.  相似文献   

5.
现在移动互联网已经普及到人们的生活之中,互联网作为信息的载体,随着现在信息量的增加,用户想要搜索到有用的信息变得更加困难,在这种情况之下,学习资源爬虫是解决这类问题的关键,爬虫系统的关键是对于互联网的资源进行划分,从概念、类型、形态等方面,然后设计爬虫系统的一些解析与下载功能,根据所处的环境实现搜索结果的准确性.并且结合浏览器的功能,解决网站的数据丢失问题,进行完整且高效的内容下载,优化整个学习资源的下载准确性,从而获取更有价值的学习资源  相似文献   

6.
互联网技术的迅速发展,使得其在当今社会中承载传递的信息日趋增大,在给人们的生活带来方便的同时,也给相关领域的网络舆情管理工作带来了一定压力。爬虫技术是互联网搜索引擎通过一定的指令性程序,对网页进行信息提取技术,是当前有针对性地进行舆情的基础要素。以网络爬虫技术在舆情分析中的应用为中心展开讨论,介绍了互联网舆情检索技术的基本构成,分析了爬虫技术的特点,提出了优化网络爬虫技术的相关方案,同时通过实例进行了验证,具有一定的借鉴价值。  相似文献   

7.
为了解决校园网用户信息的记录和跟踪,以便对各种网络安全事件进行自动定位和分析,本文分析了IP地址追踪方法,如何建立攻击路径.以识破网络攻击者的IP地址欺骗等解决校园网用户上网自动记录和追踪的关键技术。  相似文献   

8.
舆情监测对政府及相关部门在发现和处理社会舆论方面有重要的指导意义.介绍了舆情监测系统开发的相关技术,分析了系统的主要功能,对系统功能模块进行了设计,实现了网络舆情监测系统,并进行了系统测试.结果表明,该系统能够通过短时间的数据采集和分析,及时发现网络上存在的负面新闻.  相似文献   

9.
网络舆情对政治生活秩序和社会稳定的影响与日俱增,一些重大网络舆情事件使人们开始认识到网络对社会监督发挥的巨大作用,如何实时监控舆情并及时处理尤为重要。基于此,介绍了舆情监控系统的相关技术,根据业务需求分析了系统功能模块,实现了系统设计。结果表明,该系统能有效采集、分析数据,及时发现舆情信息并实施预警。  相似文献   

10.
为了解决校园网用户信息的记录和跟踪,以便对各种网络安全事件进行自动定位和分析,本文分析了IP地址追踪方法,如何建立攻击路径,以识破网络攻击者的IP地址欺骗等解决校园网用户上网自动记录和追踪的关键技术。  相似文献   

11.
《软件》2017,(10):83-87
随着互联网技术的飞速发展,互联网信息和资源呈指数级爆炸式增长。如何快速有效的从海量的网页信息中获取有价值的信息,用于搜索引擎和科学研究,是一个关键且重要的基础工程。分布式网络爬虫较集中式网络爬虫具有明显的速度与规模优势,能够很好的适应数据的大规模增长,提供高效、快速、稳定的Web数据爬取。本文采用Redis设计实现了一个主从式分布式网络爬虫系统,用于快速、稳定、可拓展地爬取海量的Web资源。系统实现了分布式爬虫的核心框架,可以完成绝大多数Web内容的爬取,并且节点易于拓展,爬取内容可以定制,主从结构使得系统稳定且便于维护。  相似文献   

12.
指定一个课件下载网站,利用网络爬虫技术,自动下载该网站中的所有课件并自动获取该课件对应的介绍文字,自动按照课件类别进行分类存储;实现任务定制下载、定时下载等多种下载方式;实现多进程、多线程并发下载;通过描述该系统设计中遇到的问题,提出解决这些问题的网络爬虫设计方案,并用Java语言设计实现.  相似文献   

13.
随着网络和智能手机的发展,两微一端逐渐成为网络信息的主要渠道.为了更好地运用信息化手段提高网络舆情的管理,设计并实现微博网络舆情监控系统,开发了微博热搜舆情搜集、关键字舆情搜集、舆情筛选和舆情溯源等功能,极大地丰富了网络舆情搜集的手段,为网络舆情的分析与管理提供了帮助.  相似文献   

14.
首先通过研究网络爬虫以及新浪微博的开放平台,设计实现新浪微博专用爬虫,获取研究数据。其次,通过实验得到重要用户节点指标,提出贝叶斯-PageRank算法筛选重要用户节点,并实验验证重要用户节点的有效性。最后通过对重要用户节点的监测实现网络舆情发现并给出相关舆情引导策略。  相似文献   

15.
社交网络的兴起为人们提供了一个新的情感空间,但是在网络中出现心理健康问题的人们通常得不到应有的关注和帮助,甚至受到其他网民的恶意攻击。为便于在网络空间向需要的人群提供及时有效的心理辅导和救助,提出一个基于爬虫技术的网络负面情绪挖掘系统CyberCare。在Scrapy爬虫框架下,对目标网络进行周期性的自动抓取,对网页内容的负面情绪进行度量,并为心理工作者的及时介入提供接口。针对国内数个知名网站的实验结果显示,CyberCare能够将心理工作者的关注范围缩小到网站新帖的千分之一左右,显著提高了工作效率。对于情感类特定版块,实验结果的精度和召回率分别达到60%和80%,显示了该系统的有效性。  相似文献   

16.
针对微博网络舆情信息量大、无规则、随机变化的特点,提出TFIDF-NB(Term Frequency Inverse Document Frequency-Naive Bayes)用于微博情感分析,设计与实现了一个基于Scrapy框架的微博评论爬虫,将某热点事件的若干条微博评论进行爬取并存进数据库,然后进行文本分割、L...  相似文献   

17.
18.
网络爬虫是目前比较流行的一种网页检索工具,其设计和实现也需要不断优化和改进。通过描述网络爬虫设计与实现中所碰到的问题,提供解决这些问题的方法,并给出实现这些目标的网络爬虫设计方法,提供该设计的Java语言版实现。  相似文献   

19.
20.
本文介绍了移动互联网舆情预警系统的系统结构及其设计和实现。该系统能够借助移动终端上的舆情监测客户端及实现舆情信息的实时浏览、实时自动推送预警等功能,可以让用户24小时随时随地不间断获取最新舆情,而无需专人值守,突破了舆情预警的难点。本文描述了移动互联网舆情预警系统的功能和优势,并给出了实际应用中的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号