首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
在多个Web主题爬虫并行爬行中,如何避免重复访问网页并高效地获取与主题相关网页,成为搜索引擎主题爬行的热点研究内容之一。为完成系统爬行任务充分发挥每个爬虫自身能力,文章立足于每个爬虫相对独立爬行、共同协作、彼此竞争的思想,将爬虫的历史爬行网页作为背景知识,分析这些网页文本内容,提取网页中“概念”和概念间的语义关系,探讨不同爬虫背景知识之间的语义相似性,提出基于分层概念背景图的爬虫之间理解方法、协作和竞争策略。该策略包括4个方面的内容:主题爬虫背景知识的分层概念背景图的表示模型、基于分层概念背景图的爬虫语义理解方法、在语义理解模型下同组多个网络爬虫之间协作与竞争机制及实现、在语义理解模型下异组多个爬虫之间协作与竞争机制及实现。  相似文献   

2.
网络爬虫是搜索引擎的重要组成部分.分析了主题网络爬虫的工作原理,研究了主题相关度的计算方法,提出了基于本体的主题网络爬虫解决方案,设计实现了评估实验系统.最后对实验的结果进行了比较,论证了其可行性.  相似文献   

3.
一种图像主题网络爬虫的实现方法研究   总被引:1,自引:0,他引:1  
针对一种图像主题爬虫进行了设计研究,采用了基于文字内容的启发式方法,实现了借助图像文件的锚文本及其上下文进行主题相关性判定,能更准确的抓取相关图像资源.还对网页实现了主题相关性判定,以便更有效地引导爬虫的爬行路经.经实验证明,本系统可起到一定的优化效果,为实现定向主题的图像信息采集奠定了良好的基础.  相似文献   

4.
聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问互联网上的网页与相关的链接,获取所需要的信息,与通用爬虫不同的是,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
  本文设计了聚焦网络爬虫系统的四个模块的进行设计研究,系统结构基于Heritrix架构,采用广度优先爬行策略和多线程调度策略,实现了用户对于特定信息的检索。  相似文献   

5.
对目前流行的搜索引擎技术进行分析、比较,采用面向主题的优化网络爬虫算法,设计能更好地满足用户不同专业和爱好需求的主题搜索引擎。该搜索引擎具有高效、实用、低成本等优点,可对国内各大知名网站进行搜索测试。实验结果表明,该搜索引擎的数据查全率和查准率都高于普通搜索引擎,可以进一步推广应用到各类办公、商务网站上。  相似文献   

6.
针对蒙古文主题爬虫主要面临的预测采集URL和发现隧道2个核心问题,提出一种基于主题团的站点聚类、排序和隧道发现的采集模型.通过站点的主题识别,将待爬行URL分为站点链接和非站点链接,使用文本相似度和超链图分析建立了预测URL优先级排序算法,基于站点粒度设计了站点自适应隧道发现算法,最后,构建了一个面向蒙古文主题的网络爬虫系统.实验结果表明:该算法在采准率、信息总量与采集速率上都得到了提高,明显优于基线算法.  相似文献   

7.
在网络文字、图像视频、音频数量日益增长的网络世界中,网络爬虫爬取结果变得越来越差,主要表现在爬取网页的精确率低、召回率低和重复率高等方面。为解决这些问题,结合市场匹配基本原理和网络爬虫的特点,提出一种基于市场匹配算法的多Agent智能爬虫系统。基于市场匹配算法,设计了多Agent智能爬虫系统,以雅虎一级目录12个主题为测试数据对网络爬虫爬取网页的精确率、召回率和重复率进行了分析。结果表明,与未使用市场匹配算法的系统相比较,基于市场匹配算法的多Agent智能爬虫系统的精确率提高了9%、召回率提高了8%、重复率降低了5%,其爬虫性能有较大改善。  相似文献   

8.
从商品评论抽取算法出发,使用开放应用编程接口调用和链接跟踪的方法,分别设计了基于通用爬虫原理和开放应用编程接口(OpenAPI)的商品评论聚焦爬虫算法。在此基础上实现了淘宝网和京东网商品评论收集程序。最后将两者与通用爬虫算法进行比较,证实了二者的程序设计具有针对性强、数据采集实时性好、易嵌入开发等优点,为实时评论数据采集技术的研究提供了新思路。  相似文献   

9.
网络信息与日俱增,网页数量已经超过万亿,建立主题网络信息资源库,永久保存主题相关信息资料十分必要。本文以建设高铁网络信息资源库为例,提出了主题信息资源库的建设目标和内容,研究了用网络爬虫软件建设网络信息资源库,提出了系统的流程模型,指出了系统建设的关键点。  相似文献   

10.
针对传统爬虫方法存在搜索易陷入局部最优,且很少考虑结合历史爬行经验对爬行路径进行修正的缺陷,提出一种基于WL抽样的主题爬行方法。该方法分别使用向量空间模型(VSM)和PageRank算法对链接的相关性和重要性进行评价,采用区域竞争策略从具有主题相关或潜在价值的链接集合中选出目标链接。基于概率密度函数,WL抽样算法对侯选集中选出的目标链接进行抽样判断,根据历史统计经验指导爬虫的后续爬行,从而优化搜索路径。实验结果表明,提出的基于WL抽样的主题爬虫方法比其他主题爬虫方法能搜索到更多主题相关的网页,其爬准率和所有下载网页主题相关度的标准差具有明显优势。  相似文献   

11.
由于我国《消费者权益保护法》(以下简称消法)未明确“消费者”的概念,不同利益主体对其做出了不同的解释.文章通过阐释消费者的主客体要件来明晰我国消法中关于“消费者”的法律内涵.  相似文献   

12.
不同坝型重力坝水下接触爆炸特性研究   总被引:1,自引:0,他引:1       下载免费PDF全文
近半个世纪以来,中国成为世界上建坝数量最多的国家。需要评估爆炸荷载对于大坝的安全的影响。本文为研究水下不同炸点接触爆炸对混凝土重力坝上游有折坡段和上游无折坡段两种坝型的动力响应以及破坏状态影响,进行了两种坝型的混凝土重力坝水下接触爆炸的动力响应及损伤破坏特性的对比分析。利用数值模拟方法计算了炸药在空气中爆炸对于混凝土板的损伤破坏,并与物理实验的结果进行对比。通过计算结果对比验证了所使用数值模型的正确性和可靠性。以混凝土重力坝上游有折坡段和上游无折坡段两种坝型为研究对象,考虑炸药-库水-空气-混凝土重力坝结构之间的动力耦合关系,对比分析了水下接触爆炸冲击荷载作用下,两种坝型的挡水坝段坝体的动态响应及损伤破坏分布特性。通过对比分析可知:混凝土重力坝上游有折坡段的挡水坝段减小了水下接触爆炸对坝体的加速度、速度及位移的动力响应。混凝土重力坝上游无折坡比有折坡坝型的挡水坝段在水下接触爆炸冲击荷载作用下损伤范围更大、更为严重。通过以上结果可得到结论:混凝土重力坝上游折坡段可以有效地散射爆炸产生的应力波,减小混凝土重力坝的损伤破坏程度。  相似文献   

13.
在消费者的消费行为中,消费者的购买行为往往是彼此影响的连续性行为,而非相互独立的单一购买行为。从消费者心理账户的视角,以服装消费为例,对消费者的连续购买行为进行实证研究。研究发现,与控制中的损失相比,服装消费者在面对控制外的损失时具有更强的后续消费意愿;与控制中的节省相比,服装消费者面对控制外的节省有更强烈的后续消费意愿。  相似文献   

14.
如何处理人脸识别中的多态性一直是人脸识别领域的一个难题。传统的图嵌入算法忽视了同类中多态子类间的同属关系,而且也没有恰当地处理异类间的区别信息。该文提出一种鲁棒的图嵌入人脸识别算法,该算法可以恰当地模拟同类中的多态间关系,而且能在局部流形结构与全局区别信息间实现平衡。基于多个公开数据库的人脸识别实验证明了该方法的有效性。  相似文献   

15.
从广义上讲,一个典型的人脸识别系统有人脸检测、特征提取、人脸鉴别、表情分析和物理分析等五个方面。人脸识别技术是计算机模式识别领域非常活跃的研究课题,在法律、商业等领域有着广泛的应用背景。由于人脸图像的特殊性,人脸识别问题也是模式识别领域一个相当困难的问题,要使这一技术趋于成熟还有许多工作需要做。  相似文献   

16.
基于卡尔曼滤波的人脸跟踪算法   总被引:1,自引:1,他引:0  
针对实时视频监控领域中传统的Camshift算法不能自动跟踪人脸和容易受到肤色相近遮挡等问题,采用Ad-aboost算法实现了人脸的自动检测,同时对于跟踪丢失等情形,通过卡尔曼预测对跟踪偏差进行实时改进。实验表明跟踪的准确性有较大提高,具有较好的实时性;在相近肤色遮挡时仍能实现正确跟踪,并对侧脸也有较好的效果;算法具有较好的鲁棒性。  相似文献   

17.
多元统计方法在天津市城市居民住房消费分析中的应用   总被引:3,自引:0,他引:3  
在抽样调查的基础上,针对天津市目前商品住房结构不合理的现状,采用多元统计分析中的相关分析、因子分析和对应分析方法对2005年天津市城市居民的住房消费问题进行了实证分析.结果表明:家庭年总收入是影响购房标准的主要因素,年总收入为8万-10万元的消费者倾向于购买90—120m。房型.所得结论为房地产企业开发适销对路的住房产品提供科学的参考依据.  相似文献   

18.
当代伦理学的关注点受到多元交往实践的需要以及现代性、后现代性思路的转变影响,伦理学的对象已经逐渐从道德主体中的“我”转向了道德主体中的他性问题.伴随着生态问题逐渐激化,人类也开始面临着不具备理性的主体“自然界”.当代普遍认可的“生态圈”理念,要求伦理学的视域不得不扩展到“人”之外,将我们生存于其间并且赖以生存的自然界纳入关注的范围.  相似文献   

19.
居住环境问题与人们的生活休戚相关,长期以来,一直是学术界关心的重要课题.但是,随着人们赖以生存的全球环境问题日趋严峻,我们将面临如何节约能源,创造可持续发展的建筑.笔者针对长春三佳湖小区设计阶段的生态环境设计及节能设计,进行了探索和研究.  相似文献   

20.
研究了用单片机控制点钞机系统,用软件程序解决了干扰信号对传感器造成的影响.并能自动处理卡张等机械故障,使点钞机具有可识别半张、重张、连张、伪张等功能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号