首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 661 毫秒
1.
本文初探舆情监控系统的设计与实现,从开源框架Heritrix技术着手,对互联网新闻、论坛、微博、网站等数据源进行数据抓取;研究了正则表达式技术,基于DOM规范的网页树实现对网页数据的噪音过滤,抓取有价值的结构化数据;随着爬取数据的不断递增,研究当前大数据环境下的Lucene全文搜索引擎技术,实现海量非结构化数据的高速检索.  相似文献   

2.
数据的抓取是数据分析工作的基础,没有了数据一些研究分析工作也就无法进行。网络爬虫可以快速抓取互联网各类信息,本文以抓取二手房信息为例,实现基于Python的网络爬虫信息系统,完成了目标数据的高效获取。实验结果表明:本程序提供了一种快速获取网页数据的方法,为后续的数据挖掘研究提供支持。  相似文献   

3.
随着互联网的日益壮大,网页抓取技术飞速发展。网页抓取已成为人们在浩瀚的网络世界中获取信息必不可少的工具,如何有效进行网页抓取成为专业搜索引擎中网络爬虫研究的主要问题。文章介绍了爬虫控制器和工作原理,并讨论了爬虫控制器的URL队列管理、页面抓取线程、索引队列管理等的抓取策略,并对其未来发展趋势进行了展望。  相似文献   

4.
面向主题的网络蜘蛛技术研究及系统实现   总被引:3,自引:0,他引:3  
首先研究了面向主题的网络蜘蛛的关键技术:抓取目标描述、网页分析算法和网页搜索策略等,在此基础上,设计并实现了一个面向主题的网络蜘蛛系统(简称主题蜘蛛),采用向量空间模型来计算网页的主题相关度,使用改进的Shark-Search网页搜索策略来决定待抓取链接的访问次序,从种子网页开始,只爬行具有较高预测相关度的链接,仅采集与主题相关的网页,多线程对网页进行下载和分析,提高了主题网页采集的精度.  相似文献   

5.
随着信息技术的发展,网络的迅速普及,搜索引擎在网络用户的生活中扮演着越来越重要的角色,在网络时代,信息检索主要通过Internet搜索引擎进行.Internet提供了多种不同的信息发布和检索方式.讨论新型智能信息搜索技术,使用户成为搜索引擎的主导者,搜索引擎既可以按照既定的算法海量搜索,还可以根据用户输入来抓取信息,达到实时搜索功能,就如何智能分析用户输入,如何抓取网页,怎样获取网页源码,以及关键字的获取与过滤进行了描述与分析.  相似文献   

6.
《现代电子技术》2020,(4):83-86
教学质量的评估可推动教学机构教学工作全面改进与提升,促进教学改革纵深发展。而针对以往教学质量评估大多通过学生单方面反馈来判定,评估结果较为片面,且评估精度不高。将网页设计作为评估领域,设计一种基于社区搜索模块排序算法网页设计教学质量评估系统,通过数据采集模块获取有关网页主题、网页栏目规划、网页内容、网页版面设计及网页技术的数据,传输至社区搜索模块;社区搜索模块将评估数据分为教师社区评估数据、学生社区评估数据及管理员社区评估数据,从多个角度分析教学质量,并采用多因素排序算法完成网页设计教学质量评估。实验结果表明,所设计系统可有效评估多个高校网页设计教学质量,且评估精度高达99.89%。  相似文献   

7.
伴随着垂直搜索引擎领域的全面发展,为了满足人们对搜索引擎系统的高质量需求,通过深入剖析了Google经典的PageRank算法,针对其单纯的考虑网页链接结构方面的不足,提出了改进的PageRank算法。分析了网页文本结构、网页被抓取时间、网页内容相关度等问题,在此基础上对PageRank算法进行改进,理论分析和仿真实验表明,改进后的算法具有更高的查准率和用户满意度。  相似文献   

8.
本文使用Python开发语言、Scrapy爬虫框架以及MySQL数据库设计抓取新闻网页中的新闻数据,并存储到数据库中。新闻语言文本自身的真实性和时代性,具有非常重要的研究意义和价值。网络爬虫技术使网上新闻数据得以获取、利用,为新闻信息研究提供了数据支持,保证了相关研究工作的顺利开展。  相似文献   

9.
本刊讯近日,成都联通新推出"掌上股市同花顺"(BREW、UniJa、WinCE)和"掌上股市钻石版"(BREW)两个应用,并诚邀股民朋友免费试用。凡国  相似文献   

10.
在网络信息监控系统中,利用正则表达式和HTMLparser对网页HTML代码进行递规匹配,实现了对网站的整体解析.实际应用表明,新信息从发布到抓取的时间小于5分钟,没有出现信息漏抓、不抓和重复抓取的现象.系统利用Java语言实现,准确率和遗漏率分别达到99%和0.  相似文献   

11.
张锦  罗钊 《信息通信》2014,(2):37-38
网络爬虫作为搜索引擎重要的组成部分,其抓取网页资源主题相关性的高低直接决定爬虫性能的好坏。文章在VSM模型的基础上引入关键词的同义、继承、属性等关系的相关词汇来增强VSM模型的语义,通过实验进行验证,改进能够取得较好的抓取效果。  相似文献   

12.
随着互联网的快速发展,互联网信息呈指数增长,对信息的收集变得越来越困难,如何从大量的数据中快速高效提取用户感兴趣的信息,是迫切需要解决的问题。网络爬虫技术能够自动收集信息并对网页数据进行抓取,提升了搜索引擎的能力。文章通过对网络爬虫技术的原理、Python钒钛词库爬虫进行设计与分析,实现信息的高效处理。  相似文献   

13.
一种改进的T-Spider分布式爬虫   总被引:2,自引:0,他引:2  
为了提高互联网网页的抓取速度,提出了一个改进的T-Spider分布式爬虫模型.该爬虫在解析URL阶段将页面进行切割以并行解析,在页面调度阶段使用改进的链接优先权计算方法,提高爬虫的抓取速度和稳定性.通过实验结果分析,验证了该方法的有效性.  相似文献   

14.
一、WebGrab 1.3—精确下载网页或文件的离线浏览工具 WebGrab是一个2.6M的共享软件,它兼具浏览器与文件下载两种功能,使你可以更精确地下载选定的网页及文件,能够有效地节省带宽,而且下载网页的时间也比较短,还能离线浏览这些抓取下来的网页。它的操作也相当简捷:将浏览画面和HTML文件并列在不同的视窗中,你可以一边浏览网页,一边选取需要下载的文  相似文献   

15.
随着移动互联网和高校校园网的日趋完善,大学生已成为网络社会最主要的社会群体之一。网络已成为大学生校园生活和日常生活不可缺少的重要工具之一,对高校学生网络行为进行分析、管理和引导具有重要的作用和深远的意义。文章重点对网络访问数据预处理、网络访问数据清洗、网页分类等核心环节进行了阐述,并构建了网络行为分析与管理系统,为高校网络部门优化校园网络服务、保障网络安全提供了参考。  相似文献   

16.
《通信管理与技术》2009,(3):I0021-I0021
暗网(Hidden Web)指目前搜索引擎所无法抓取的网页、不能检索到的信息,即“看不见”的网站。它的存在主要有两个原因。  相似文献   

17.
面向互联网视频的话题分析技术研究   总被引:1,自引:0,他引:1  
本文提出了一种互联网视频话题分析方法,在利用自动网页抓取技术获取的视频信息数据集合基础上,首先利用中文分词技术对视频文本信息进行自动分词,并采用基于不同时间周期的关键词词频过滤算法进行关键词选择,然后采用基于频繁项挖掘的话题聚类方法对热点视频话题进行检测,最后采用贝叶斯分类方法对视频话题进行分类。  相似文献   

18.
新浪微博作为国内最大的社交网站,蕴含着丰富的信息。本文实现了一个微博数据分析网站,该网站的后端利用爬虫实时抓取数据并存储到redis数据库中,前端利用ajax轮询技术和数据可视化技术将统计分析后的数据展示到网页。相对于直接调用新浪微博的API,网络爬虫获取数据的方式有更大的灵活性,可以获取到的数据也相对较多,但是也存在一些限制,其中最大的阻碍就是新浪微博的反爬虫技术,本文也将对如何突破反爬虫限制进行探讨。  相似文献   

19.
爬虫软件是现今互联网环境下,高效准确地获取数据的重要方式之一.针对传统的初级爬虫技术易于被目标网站拦截访问的问题,简述爬虫的工作原理和方式,讨论爬虫、反爬虫与反反爬虫之间的相互关系.分析应对目标网站的反反爬虫机制,包括伪装用户代理,设置IP地址代理、使用自动化测试工具调用浏览器等技术要点,并分析了基于Python语言中Requests库,构建了对网页的多种请求方式和数据获取方法的解决方案.结合反反爬虫机制与数据分析技术,以哔哩哔哩视频网为案例,分析其网页基本结构与调用的应用程序接口,使用Python与Requests库抓取网站所有视频的相关数据.数据清洗后分析播放量最高视频的相关信息,并将结论以数据可视化的方式呈现,实现对数据的获取、挖掘与分析.  相似文献   

20.
知识窗     
暗网(Hidden Web)暗网(Hidden Web)指目前搜索引擎所无法抓取的网页、不能检索到的信息,即"看不见"的网站。它的存在主要有两个原因。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号