共查询到10条相似文献,搜索用时 15 毫秒
1.
网络爬虫技术是网络信息获取的重要手段,面向Web论坛的信息获取则是网络爬虫技术所面临的新课题.在分析和研究面向Web论坛信息获取技术的基础上,本文设计和实现了一种用于Web论坛信息获取的主题网络爬虫系统,根据Web论坛信息组织结构,提出了基于遍历策略的信息搜索技术;根据正文信息分布及论坛自身特点,提出了基于DOM与分块... 相似文献
2.
3.
4.
地方性网络论坛是网络热点舆情话题信息传播的一个重要平台.对其传播机制的研究有助于对网络舆情进行管控.但是,现有的信息传播机制的研究都是基于对信息的"转发"行为进行的,无法适用于网络论坛中信息传播机制的研究.针对这一问题,通过普通的大型论坛和地方性论坛进行数据对比分析,得到了地方性论坛信息传播机制的三个特点.根据论坛中信息传播与帖子回复量呈正相关的特点,在SIR模型的基础上,加入新的浏览者(Browser)节点,引入兴趣指数函数P(m),建立了UBIR(Unknow-Browser-Infected-Removed)模型.根据地方性论坛信息传播的三个特点,对模型的参数进行修改.使用该模型进行仿真实验,对地方性网络论坛中热点舆情话题的传播机制进行了研究.结果表明,该模型能够较好地拟合实际数据并描述地方性网络论坛的热点舆情话题传播机制. 相似文献
5.
6.
随着网络的发展,Web论坛成为Web用户信息共享和分组合作的新平台.Web论坛上积累了海量的知识,由此成为互联网上进行数据挖掘的宝贵资源.在Web论坛上的应用常受到论坛上低质量帖子(垃圾贴)的影响.因此针对在Web论坛上进行垃圾贴过滤的问题,提出了基于隐含狄利克雷分布的CJTM和CAJTM模型,CJTM和CAJTM模型利用了论坛帖子的文本内容,帖子间的回复链接信息和作者信息,和传统的分类方法及基于规则的方法相比,CJTM和CAJTM模型不需要训练集和规则集.在实际Web论坛数据中进行的实验显示出较好的效果. 相似文献
7.
8.
基于网页布局相似度的Web论坛数据抽取 总被引:1,自引:0,他引:1
Web论坛中蕴含着丰富的信息资源,充分利用这些信息资源依赖于论坛数据抽取技术。该文解决了从Web论坛抽取什么数据和如何抽取的问题,提出了一种基于网页布局相似度的Web论坛数据抽取方法,有效弥补了目前方法的自动化程度低,或准确率低的不足。该方法充分利用Web论坛网页布局结构上的特点,采用分级处理的方式,先识别出主题信息块、再利用待抽取数据的统计规律在主题信息块中完成抽取,整个过程不需要任何人工干预。实验结果表明,新方法对不同的BBS站点有很好的通用性,且具有较高的准确率和召回率。 相似文献
9.
10.
针对现有网上论坛信息抽取的不足,提出一种基于后缀树的论坛信息抽取方法.将标准化后的HTML文档转换为后缀树,查找出其中的重复模式并产生分装器,将分装器转换为NFA(非确定型有穷自动机)达到抽取论坛信息的目的.该方法运用构造后缀树的技术来抽取论坛信息,较好地解决了现有的抽取方法准确性较差、通用性不强的问题.实验结果表明,该方法具有较高的准确性和实用性. 相似文献