共查询到20条相似文献,搜索用时 661 毫秒
1.
本文初探舆情监控系统的设计与实现,从开源框架Heritrix技术着手,对互联网新闻、论坛、微博、网站等数据源进行数据抓取;研究了正则表达式技术,基于DOM规范的网页树实现对网页数据的噪音过滤,抓取有价值的结构化数据;随着爬取数据的不断递增,研究当前大数据环境下的Lucene全文搜索引擎技术,实现海量非结构化数据的高速检索. 相似文献
2.
3.
4.
面向主题的网络蜘蛛技术研究及系统实现 总被引:3,自引:0,他引:3
首先研究了面向主题的网络蜘蛛的关键技术:抓取目标描述、网页分析算法和网页搜索策略等,在此基础上,设计并实现了一个面向主题的网络蜘蛛系统(简称主题蜘蛛),采用向量空间模型来计算网页的主题相关度,使用改进的Shark-Search网页搜索策略来决定待抓取链接的访问次序,从种子网页开始,只爬行具有较高预测相关度的链接,仅采集与主题相关的网页,多线程对网页进行下载和分析,提高了主题网页采集的精度. 相似文献
5.
随着信息技术的发展,网络的迅速普及,搜索引擎在网络用户的生活中扮演着越来越重要的角色,在网络时代,信息检索主要通过Internet搜索引擎进行.Internet提供了多种不同的信息发布和检索方式.讨论新型智能信息搜索技术,使用户成为搜索引擎的主导者,搜索引擎既可以按照既定的算法海量搜索,还可以根据用户输入来抓取信息,达到实时搜索功能,就如何智能分析用户输入,如何抓取网页,怎样获取网页源码,以及关键字的获取与过滤进行了描述与分析. 相似文献
6.
《现代电子技术》2020,(4):83-86
教学质量的评估可推动教学机构教学工作全面改进与提升,促进教学改革纵深发展。而针对以往教学质量评估大多通过学生单方面反馈来判定,评估结果较为片面,且评估精度不高。将网页设计作为评估领域,设计一种基于社区搜索模块排序算法网页设计教学质量评估系统,通过数据采集模块获取有关网页主题、网页栏目规划、网页内容、网页版面设计及网页技术的数据,传输至社区搜索模块;社区搜索模块将评估数据分为教师社区评估数据、学生社区评估数据及管理员社区评估数据,从多个角度分析教学质量,并采用多因素排序算法完成网页设计教学质量评估。实验结果表明,所设计系统可有效评估多个高校网页设计教学质量,且评估精度高达99.89%。 相似文献
7.
伴随着垂直搜索引擎领域的全面发展,为了满足人们对搜索引擎系统的高质量需求,通过深入剖析了Google经典的PageRank算法,针对其单纯的考虑网页链接结构方面的不足,提出了改进的PageRank算法。分析了网页文本结构、网页被抓取时间、网页内容相关度等问题,在此基础上对PageRank算法进行改进,理论分析和仿真实验表明,改进后的算法具有更高的查准率和用户满意度。 相似文献
8.
本文使用Python开发语言、Scrapy爬虫框架以及MySQL数据库设计抓取新闻网页中的新闻数据,并存储到数据库中。新闻语言文本自身的真实性和时代性,具有非常重要的研究意义和价值。网络爬虫技术使网上新闻数据得以获取、利用,为新闻信息研究提供了数据支持,保证了相关研究工作的顺利开展。 相似文献
9.
本刊讯近日,成都联通新推出"掌上股市同花顺"(BREW、UniJa、WinCE)和"掌上股市钻石版"(BREW)两个应用,并诚邀股民朋友免费试用。凡国 相似文献
10.
11.
网络爬虫作为搜索引擎重要的组成部分,其抓取网页资源主题相关性的高低直接决定爬虫性能的好坏。文章在VSM模型的基础上引入关键词的同义、继承、属性等关系的相关词汇来增强VSM模型的语义,通过实验进行验证,改进能够取得较好的抓取效果。 相似文献
12.
13.
一种改进的T-Spider分布式爬虫 总被引:2,自引:0,他引:2
为了提高互联网网页的抓取速度,提出了一个改进的T-Spider分布式爬虫模型.该爬虫在解析URL阶段将页面进行切割以并行解析,在页面调度阶段使用改进的链接优先权计算方法,提高爬虫的抓取速度和稳定性.通过实验结果分析,验证了该方法的有效性. 相似文献
14.
15.
随着移动互联网和高校校园网的日趋完善,大学生已成为网络社会最主要的社会群体之一。网络已成为大学生校园生活和日常生活不可缺少的重要工具之一,对高校学生网络行为进行分析、管理和引导具有重要的作用和深远的意义。文章重点对网络访问数据预处理、网络访问数据清洗、网页分类等核心环节进行了阐述,并构建了网络行为分析与管理系统,为高校网络部门优化校园网络服务、保障网络安全提供了参考。 相似文献
16.
17.
18.
新浪微博作为国内最大的社交网站,蕴含着丰富的信息。本文实现了一个微博数据分析网站,该网站的后端利用爬虫实时抓取数据并存储到redis数据库中,前端利用ajax轮询技术和数据可视化技术将统计分析后的数据展示到网页。相对于直接调用新浪微博的API,网络爬虫获取数据的方式有更大的灵活性,可以获取到的数据也相对较多,但是也存在一些限制,其中最大的阻碍就是新浪微博的反爬虫技术,本文也将对如何突破反爬虫限制进行探讨。 相似文献
19.
爬虫软件是现今互联网环境下,高效准确地获取数据的重要方式之一.针对传统的初级爬虫技术易于被目标网站拦截访问的问题,简述爬虫的工作原理和方式,讨论爬虫、反爬虫与反反爬虫之间的相互关系.分析应对目标网站的反反爬虫机制,包括伪装用户代理,设置IP地址代理、使用自动化测试工具调用浏览器等技术要点,并分析了基于Python语言中Requests库,构建了对网页的多种请求方式和数据获取方法的解决方案.结合反反爬虫机制与数据分析技术,以哔哩哔哩视频网为案例,分析其网页基本结构与调用的应用程序接口,使用Python与Requests库抓取网站所有视频的相关数据.数据清洗后分析播放量最高视频的相关信息,并将结论以数据可视化的方式呈现,实现对数据的获取、挖掘与分析. 相似文献