首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
基于PageRank与Bagging的主题爬虫研究   总被引:3,自引:0,他引:3  
为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法.将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块.利用一种改进的PageRank算法改善了爬虫的搜索策略,进行网页遍历与抓取.用向量空间模型表示网页主题,使用Bagging算法构造网页主题分类器进行主题相关性分析,过滤与主题无关网页.实验结果表明,该方法在网页抓取的性能上和主题网页的查准率上都取得较好的效果.  相似文献   

2.
链接分析对主题爬虫的改进   总被引:5,自引:0,他引:5  
汪涛  樊孝忠 《计算机应用》2004,24(Z2):174-176
在分析总结两种主题爬虫设计的基础之上,研究了用链接分析改进主题爬虫的方法.通过实验,比较引入链接分析前后的结果,论证了其设计可行性与可操作性,为实现定向信息采集奠定了良好的基础.  相似文献   

3.
互联网上的海量信息,至今还在快速发展,面向主题的信息检索已成为当前的研究热点之一.在提高信息检索的精度方面,一般认为本体技术是解决方法之一.在对领域本体技术和传统的基于主题的信息采集技术的基础上,设计了-个基于领域本体的信息采集模型,给出了模型的体系结构,提出了一种关键词加权的词性相关性计算方法以及利用领域本体及对应的词典判定主题相关度的算法.通过实验验证了所提出的方法在提高检索的准确率方面具有明显的优势.  相似文献   

4.
传统的社团发现算法利用链接关系对社团进行划分,不利于发现社团之间的非链接关系,从而影响划分精度。研究分析了节点蕴含的文本信息,挖掘了文本信息蕴含了节点的主题信息,根据这些主题信息判断社团在主题上的关系。研究设计了优化的潜在狄利克雷分配模型对社团进行主题划分,应用优化的模块度社团发现算法对社团进行链接划分,合并成为一个能对社团进行主题划分和链接划分的主题社团发现算法。此外,还针对主题社团设计了一种评估方法,并且使用多个数据集在主题社团发现的各个阶段对算法进行了实验验证。实验结果证明,基于主题检测的社团发现算法能够正确地对社团进行主题划分和链接划分。  相似文献   

5.
为适应主题的动态性和完整性,本文提出了一种基于网络日志分析的混合策略主题爬虫.首先,它通过对网络日志的分析,一方面发现种子页面,有效扩充主题群落;另一方面挖掘用户兴趣,进一步精确描述主题.然后,爬虫从新种子集出发,结合用户兴趣,采用混合策略,对页面进行筛选.实验证明,该爬虫能够有效地采集更多的主题页面.  相似文献   

6.
本文通过对分布式技术和主题网络爬虫的研究,设计了一个能处理海量数据的分布式主题爬虫。设计内容主要包括分布式主题网络爬虫的各个功能模块及其实现方法。如页面的主题相关度判定方法、URL去重过滤方法等。主要使用了Hadoop技术和向量空间模型。该分布式主题爬虫的研究与设计为后面分布式主题爬虫的实现奠定了基础。  相似文献   

7.
本文不是设计一种新的主题挖掘机,而是借助分层思想,为每层赋予特定的任务,采用容器管理机制,提出了一种针对主题挖掘的通用设计框架,该设计框架旨在规范和指导主题挖掘机的研发设计步骤;同时提供了相应的评估框架,其中包括几个重要的评估参数,根据这些参数的实验值可以估量挖掘机的性能,以此推动高效挖掘机的研发设计。  相似文献   

8.
在网页设计中,一个优秀的主题动画能更好地烘托网站主题.由于Flash生成的动画体积小、表现手法丰富,被广泛应用于网页设计和多媒体创作等领域.本文分三部分,详细介绍了使用Flash为气象网站做主题动画的步骤,具有较强的实用性和参考价值.  相似文献   

9.
受限领域中文文本主题标引系统研究   总被引:1,自引:0,他引:1  
文中介绍了受限领域中文文本主题标引系统的设计原理。该系统基于领域知识库进行主题特征识别,根据知识库中概念间的关系进行特征项权重的计算。实现了基于词汇分析技术和基于领域知识计算相结合的方式下,受限领域中文文本内容主题概念的识别。实验结果显示,主题识别平均正确率为79%。  相似文献   

10.
萧婧婕  陈志云 《计算机科学》2018,45(Z11):146-148, 166
为了解决主题爬虫在全局搜索中难以实现最优解的问题,提高主题爬虫的准确率和召回率,文中设计了一个结合灰狼算法的主题爬虫搜索策略。实验结果表明,与传统的广度优先搜索策略以及同样是群体智能算法的遗传算法相比,基于灰狼算法的主题爬虫的性能有了很大的提高,能爬取到更多的主题相关的网页。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号