首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
网络爬虫技术是网络信息获取的重要手段,面向Web论坛的信息获取则是网络爬虫技术所面临的新课题.在分析和研究面向Web论坛信息获取技术的基础上,本文设计和实现了一种用于Web论坛信息获取的主题网络爬虫系统,根据Web论坛信息组织结构,提出了基于遍历策略的信息搜索技术;根据正文信息分布及论坛自身特点,提出了基于DOM与分块...  相似文献   

2.
热点事件     
网商大会信息社会50人论坛启程及新商业文明论坛 日前,预热网商大会.由中国信息经济学会、中国社会科学院信息化研究中心和阿里研究中心主办的信息社会50人论坛及新商业文明论坛在杭州召开,各方在新商业模式和文明、农村电商和社交网络对于社会生活影响做了论述。同时,通过该论坛,广大专家、学者对于新商业文明达成了信息社会共识,即信息革命推动了人民进人信息社会,信息化是化解各类现实矛盾、推动社会转型的关键。  相似文献   

3.
WWW论坛中的动态网页采集   总被引:5,自引:0,他引:5       下载免费PDF全文
网络论坛已经成为互联网信息发布的主要形式,对论坛信息的检索和挖掘都涉及到论坛信息的获取,然而传统的针对静态网页的广度优先采集工具,不能有效地获取论坛信息。该文利用论坛的结构特点,提出了一种“版面-主题关联判断”(BTCJ)算法,采用一种基于版面扩展的采集策略。实验证明,该方法在论坛采集准确率和覆盖率方面显著优于广度优先策略;具有良好的泛化能力,应用在实践中已覆盖各种类型的论坛12 000余个。  相似文献   

4.
地方性网络论坛热点舆情话题传播机制研究   总被引:1,自引:0,他引:1       下载免费PDF全文
地方性网络论坛是网络热点舆情话题信息传播的一个重要平台.对其传播机制的研究有助于对网络舆情进行管控.但是,现有的信息传播机制的研究都是基于对信息的"转发"行为进行的,无法适用于网络论坛中信息传播机制的研究.针对这一问题,通过普通的大型论坛和地方性论坛进行数据对比分析,得到了地方性论坛信息传播机制的三个特点.根据论坛中信息传播与帖子回复量呈正相关的特点,在SIR模型的基础上,加入新的浏览者(Browser)节点,引入兴趣指数函数P(m),建立了UBIR(Unknow-Browser-Infected-Removed)模型.根据地方性论坛信息传播的三个特点,对模型的参数进行修改.使用该模型进行仿真实验,对地方性网络论坛中热点舆情话题的传播机制进行了研究.结果表明,该模型能够较好地拟合实际数据并描述地方性网络论坛的热点舆情话题传播机制.  相似文献   

5.
面向网上论坛的信息抽取技术   总被引:5,自引:0,他引:5  
在分析了网上论坛内部的信息组织模式和链接结构的基础上,提出了一套面向网上论坛的语义话题线索抽取框架、叙述了其具体实现。为信息抽取定义了完善的抽取规则规范,提供了用户定制规则的可视化工具和论坛站点中语义信息单元自动下载抽取的后台引擎。  相似文献   

6.
随着网络的发展,Web论坛成为Web用户信息共享和分组合作的新平台.Web论坛上积累了海量的知识,由此成为互联网上进行数据挖掘的宝贵资源.在Web论坛上的应用常受到论坛上低质量帖子(垃圾贴)的影响.因此针对在Web论坛上进行垃圾贴过滤的问题,提出了基于隐含狄利克雷分布的CJTM和CAJTM模型,CJTM和CAJTM模型利用了论坛帖子的文本内容,帖子间的回复链接信息和作者信息,和传统的分类方法及基于规则的方法相比,CJTM和CAJTM模型不需要训练集和规则集.在实际Web论坛数据中进行的实验显示出较好的效果.  相似文献   

7.
随着互联网的发展,网络论坛中蕴涵着数量巨大且质量较好的知识资源。因此对论坛信息进行有效地检索具有重要应用价值。该文研究适合于论坛数据的检索模型,以期能够充分利用论坛平台累积的海量数据来满足用户的信息需求。针对论坛页面和普通新闻页面的区别,该文提出关键帖抽取算法和论坛线索重构算法来选择论坛中信息含量丰富的帖子,并利用得到的帖子构建检索系统。实验表明该文提出的方法能够有效地提升论坛检索系统的效果。  相似文献   

8.
基于网页布局相似度的Web论坛数据抽取   总被引:1,自引:0,他引:1  
Web论坛中蕴含着丰富的信息资源,充分利用这些信息资源依赖于论坛数据抽取技术。该文解决了从Web论坛抽取什么数据和如何抽取的问题,提出了一种基于网页布局相似度的Web论坛数据抽取方法,有效弥补了目前方法的自动化程度低,或准确率低的不足。该方法充分利用Web论坛网页布局结构上的特点,采用分级处理的方式,先识别出主题信息块、再利用待抽取数据的统计规律在主题信息块中完成抽取,整个过程不需要任何人工干预。实验结果表明,新方法对不同的BBS站点有很好的通用性,且具有较高的准确率和召回率。  相似文献   

9.
北京市人民政府新闻办公室、千龙新闻网日前举办了“2001北京互联网发展论坛”,该论坛旨在推进信息网络技术的应用和发展。本次论坛议题注重政策性、前瞻性与实用性,包括信息网络化建设与发展、信息网络安全与管理等。  相似文献   

10.
针对现有网上论坛信息抽取的不足,提出一种基于后缀树的论坛信息抽取方法.将标准化后的HTML文档转换为后缀树,查找出其中的重复模式并产生分装器,将分装器转换为NFA(非确定型有穷自动机)达到抽取论坛信息的目的.该方法运用构造后缀树的技术来抽取论坛信息,较好地解决了现有的抽取方法准确性较差、通用性不强的问题.实验结果表明,该方法具有较高的准确性和实用性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号