首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问互联网上的网页与相关的链接,获取所需要的信息,与通用爬虫不同的是,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
  本文设计了聚焦网络爬虫系统的四个模块的进行设计研究,系统结构基于Heritrix架构,采用广度优先爬行策略和多线程调度策略,实现了用户对于特定信息的检索。  相似文献   

2.
分析了高校网络舆情监控的现状,提出了基于高校网络舆情监控系统的设计方案。该系统通过网络爬虫将相关网络新闻、博客和论坛的信息采集下来,采用关键词和敏感词匹配的方式对信息进行过滤,将用户关注的信息呈现出来,从而实现对舆情信息及时准确的发现。  相似文献   

3.
基于文本写作常采用一个意思由多个不同写法的单词来表述,研究词义文本分类法被用来替代使用关键词分类算法以提高分类准确率.分析wordNet内Synset架构,认为一个兼顾词义以及词义间关系的词义文本分类系统可应用到网页分类中.该系统同时注意到固定的文本类别结构以及结构内不断增长的文件数目间的区别,加入了基于类别信息聚类方法的类别拓展的功能.仿真实验证明,该分类系统与现有的基于语义的分类系统相比,在分类准确度性能上能提高13%.基于类别信息类聚的文本拓展功能与采用基于相似度的类聚方法的系统相比获得了一个质量更高的新增类别.  相似文献   

4.
首先概述了搜索引擎的发展,再对搜索引擎发现技术进行介绍,选择其中一种算法即网页爬虫实现对某个网站关于网页信息的提取与存储,最后进行了总结与展望.  相似文献   

5.
基于HTML结构特征的网页信息提取   总被引:1,自引:0,他引:1  
Web上的信息很多存储在HTML页面上,传统的网页数据抽取方法是使用包装器(Wrapper)来抽取网页中感兴趣的数据。包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。避开了使用Wrapper,针对新闻类网页的结构特点,从视觉角度对网页页面空间的构成进行了噪声与信息实体的划分与判断。讨论了一种根据新闻类网页层次结构和各层节点统计信息进行新闻主体提取的方法。改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,并对其节点添加了统计信息,利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反向降噪抽取新闻类网页得到结构化数据的方法。实验结果表明,用这种方法进行新闻类网页主体信息提取的有效性。  相似文献   

6.
垂直搜索引擎需要对网页的内容进行提取,信息提取算法是研究的关键内容之一,文章提出一种新的基于行模式的索引网页的信息提取算法,该算法基于网页结构,具有较高的分析速度与准确率,使信息的分析与提取变得简单高效。  相似文献   

7.
根据RSS/XML文本格式的博客信息特点,进行了文本解析、中文分词和索引建立,以及基于PageRank算法的搜索排序等研究工作,利用Heritrix爬虫、Lucene全文索引检索工具包开发了RSS博客搜索引擎,并将系统实际应用于Android系统的手机终端。实验证明,该系统能实时、高效的在手机终端进行博客搜索,使用户获得优于传统博客检索的体验。  相似文献   

8.
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接、email和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理.文中详细介绍了如何使用HtmlParser来提取网页当中的超链接信息,将其清洗后存入SQL数据库当中,以备后续工作使用.  相似文献   

9.
基于ZigBee的森林火险信息采集系统的设计   总被引:1,自引:0,他引:1  
提出了把ZigBee技术应用于森林防火的新思路,研究设计了森林火险信息采集系统,论述了基于MSP430F1232和CC2420的无线传感器网络的节点设计,介绍了基于ARM7系列S3c44B0X、GPRS模块SIM100的网关设计,搭建了平面型网络拓扑结构.  相似文献   

10.
为了将信息清晰地呈现并实时跟踪数据的变化,数据可视化可以更准确地发现数据背后的问题。而数据可视化系统具有数据接入、数据处理、可视化展示等功能,能够帮助人们更轻松地实现可视化过程。文中以Python爬虫获取疫情数据为例,利用Matplotlip和Numpy库工具对疫情数据进行分析,借用ECharts图表库以及JS前端框架将数据以直方图、饼图、柱形图等图表的形式进行展示,设计出一款疫情数据分析及可视化系统。通过测试使用,该系统界面友好、易操作,数据更新及时,方便查看世界疫情的实时数据以及疫情在中国的状态,及时了解当前各地疫情的动态信息,起到提醒和警示作用。  相似文献   

11.
针对Heritrix抓取速度很慢的问题,运用ELFHash算法对Heritrix进行了多线程的优化,增加爬取线程数,实现了对指定网页精确的抓取,从而提高网页抓取的速度.实验表明本文的优化技术可行.  相似文献   

12.
信息技术领域术语提取的初步研究   总被引:10,自引:0,他引:10  
本文介绍了对信息技术领域术语自动提取方法进行的一项实验,所采用的是“领域相减”的术语提取方法,即根据流通度理论,利用术语在不同领域中的不同流通度值进行术语提取,并对此项实验的结果作出了评价。  相似文献   

13.
基于全信息的中文信息抽取系统及应用   总被引:4,自引:3,他引:4  
从全信息理论的思想出发,综合建立、分析和使用语法、语义和语用信息知识库,研究实现了一个面向特定应用领域——财经新闻领域的中文信息抽取实验系统. 在此基础上,探索了信息抽取技术在移动信息服务中的一种应用模式,即“信息抽取+手机短信”,将信息抽取结果的简洁、清晰、明确的优点与手机短信的移动性、灵巧性、普及性等优点很好地结合起来,提供智能化的移动信息服务. 实验系统验证了这种模式的可行性.  相似文献   

14.
面向结构的Web表格数据抽取系统   总被引:2,自引:0,他引:2  
针对Web数据挖掘预处理中,Web表格无结构化描述及缺乏清晰语义信息的问题,构建了面向结构的Web表格数据提取系统.利用HTMLParser库的解析原理,设计启发式规则对Web表格结构进行定位、识别、提取并剔除非数据型结构;以Xml规范化模型对提取表格数据进行存储.最后抽取9个中文网站171个数据表格进行验证试验,结果表明对于结构化完整的表格具有较高的识别率并有一定的容错能力.  相似文献   

15.
网络信息与日俱增,网页数量已经超过万亿,建立主题网络信息资源库,永久保存主题相关信息资料十分必要。本文以建设高铁网络信息资源库为例,提出了主题信息资源库的建设目标和内容,研究了用网络爬虫软件建设网络信息资源库,提出了系统的流程模型,指出了系统建设的关键点。  相似文献   

16.
如何对Internet上的服装网页进行自动识别是服装资源挖掘研究的重要内容.本文研究了KNN算法和Bayes算法对服装网页测试集进行自动分类的效果.实验表明KNN和Bayes的分类准确率相当;特征提取的维数可以控制在一定的范围;过高的特征数目不一定有较高的分类准确率;针对领域特点进行算法或特征提取调整才能进一步提高分类的准确率.  相似文献   

17.
目前的网络舆情分析系统一般采用输入的关键词进行检索,无法及时发现未知的热点事件。针对这一问题,设计实现了一个具有实用意义的舆情信息分析系统,并将改进的K-MEANS算法应用于文本聚类来自动发现当前的热点主题。运行结果表明,系统可以及时发现热点话题并对事件实时追踪。  相似文献   

18.
基于分类语义的Web信息检索系统   总被引:2,自引:0,他引:2  
在海量数据空间中快速、准确地获取用户所需Web信息成为检索系统研究的焦点.将一种全新的网页自动分类技术引入WWW信息抽取领域来解决网上信息有效获取的问题。设计一个基于分类语义的搜索引擎系统——SESC系统.通过Web数据抽取机制以及Web信息分类技术实现检索结果的分类和层次化展示,使得用户快捷地从WWW上获取所需信息.  相似文献   

19.
为了给北京市知识产权预警能力研究提供基础数据,通过检索美国专利商标局(USPTO)网络专利数据库可以得到动态网页形式的专利信息.基于XML相关技术,提出了将这些网页形式的专利数据抽取到关系数据库的技术和方法.使用正则表达式匹配的方法进行页面过滤,将网页解析为文档对象模型(DOM)进行清洗,通过可扩散样式表转换语言(XSLT)模板抽取专利信息,并通过对象映射的方法将专利信息存入关系数据库,实现了专利信息抽取原型系统.实验结果表明,该原型系统具有较高的召回率和准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号