首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
在领域主题爬虫中,为提高网页爬取的效率和准确性,将扩展主题特征库(extended topic feature library,ETFL)引入进爬虫的网页过滤算法中。将网页抽象为标签块节点集,通过主题特征库扩展算法对静态特征项进行扩充生成扩展主题特征库,利用网页主题特征项提取算法从页面中抽取出特征项,在爬虫抓取网页的过程中,通过基于扩展主题特征库的网页相关性判断方法对页面进行过滤。该算法弥补了传统的基于静态关键词项的网页过滤算法对页面语义层次处理的缺失。实际项目运行结果表明,在领域主题爬虫中引入扩展主题库能够有效提高网页抓取精度,具有较高可用性。  相似文献   

2.
基于遗传算法的主题爬行技术研究   总被引:3,自引:0,他引:3  
针对目前主题搜索策略的不足,提出了基于遗传箅法的主题爬行策略,提高了链接于内容相似度不高的网页之后的页面被搜索的机会,扩大了相关网页的搜索范围.同时,在网页相关度分析方面,引入了基于本体语义的主题过滤策略.实验结果表明,基于遗传算法的主题爬虫抓取网页中的主题相关网页数量多,在合理选择种子集合时,能够抓取大量的主题相关度高的网页.  相似文献   

3.
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。  相似文献   

4.
定题搜索引擎是新一代搜索引擎的发展方向之一,而定题爬虫是定题搜索引擎的构建关键.本文提出了一个定题爬虫系统的设计框架,详细介绍了其实现的关键技术.针对传统主题过滤算法Hopfield网页分析算法的不足,提出了自主学习的网页分析算法,提高链接于不相关页面后的相关页面被搜索的机会,同时提出了简单高效的镜像页面检测算法,最后, 用原型系统FC测试表明系统有较好的性能.  相似文献   

5.
基于PageRank与Bagging的主题爬虫研究   总被引:3,自引:0,他引:3  
为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法.将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块.利用一种改进的PageRank算法改善了爬虫的搜索策略,进行网页遍历与抓取.用向量空间模型表示网页主题,使用Bagging算法构造网页主题分类器进行主题相关性分析,过滤与主题无关网页.实验结果表明,该方法在网页抓取的性能上和主题网页的查准率上都取得较好的效果.  相似文献   

6.
针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法。首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征向量,然后采用向量空间模型计算网页的主题相关度。在此基础上,计算锚文本主题相关度以及链接指向网页的PR值,综合分析链接优先度。另外,为了避免爬虫陷入局部最优,设计了基于ITS的主题爬虫,优化爬行队列。以暴雨灾害和台风灾害为主题,在相同的实验环境下,基于On-ITS的主题爬虫方法比对比算法的爬准率最多高58%,最少高8%,其他评价指标也很好。基于On-ITS的主题爬虫方法能有效提高获取领域信息的准确性,抓取更多与主题相关的网页。  相似文献   

7.
为解决传统主题爬虫抓取特定领域的网页信息效率低下问题,在分析主题爬虫算法T-Graph的基础上,提出一种改进的T-Graph主题爬虫算法.利用维基百科的相关知识,采用语义分析的特征项提取算法提取特征项,在词的语义层次上对文本进行相似度计算,且综合考虑了网页中不同位置文本的权重问题.将改进前后的算法进行实验对比,实验结果表明,在提高主题爬行质量方面,改进后的算法效果更好.  相似文献   

8.
在研究了现存的主题爬虫的基础上,提出了一种基于统计模型的主题爬虫,它对抓取过程中可获得的信息进行分析,并运用统计模型计算的结果过滤URL,有效地解决了偏好特定主题的用户检索和Web信息的索引等相关问题.实验结果表明,与基于链接和网页内容分析的主题爬虫相比,该主题爬虫能够在检索较少的网页时,抓取到较多的与主题相关的网页,提高了抓取精度.  相似文献   

9.
针对传统通用网络爬虫的自身固有的缺陷,结合本体的相关理论,提出了一种基于语义本体的网络爬虫的相关模型。该模型以本体构建领域知识概念集,结合知网,从语义的角度,利用扩展的元数据,在词的语义层次,对抓取的页面链接进行语义相关性计算,预测与主题相关的URL,提高采集的网络资源信息与设定主题的相关度。实验结果表明,该模型同其它通用网络爬虫模型相比具有较高的信息抓取准确率。  相似文献   

10.
基于动态主题库的主题爬虫   总被引:1,自引:0,他引:1  
通过对基于不同策略过滤URL的主题爬虫的研究,提出了一种基于动态主题库的主题爬虫.它能够在运行期间实时地更新主题库,提高了对URL过滤的准确度.实验表明,所提的主题爬虫能够在相对较少的时间中,检索尽量少的网络空间,抓取到较多与主题相关的网页.  相似文献   

11.
针对垂直搜索引擎研究领域的关键技术问题,提出了一个结合本体筛选和文本挖掘的垂直搜索引擎构建思想.首先探讨了作为研究基础的本体和文本挖掘技术,讨论了两者的作用;之后阐述了垂直搜索引擎构建的关键技术,包括基于本体筛选的智能搜索器、结合文本挖掘的网页信息分析及抽取、索引器及查询处理器的构造;最后,对提出的思想进行了实现验证,构造一个面向高校毕业生招聘的垂直搜索引擎原型.  相似文献   

12.
Focused crawling is aimed at selectively seeking out pages that are relevant to a predefined set of topics. Since an ontology is a well-formed knowledge representation, ontology-based focused crawling approaches have come into research. However, since these approaches utilize manually predefined concept weights to calculate the relevance scores of web pages, it is difficult to acquire the optimal concept weights to maintain a stable harvest rate during the crawling process. To address this issue, we proposed a learnable focused crawling framework based on ontology. An ANN (artificial neural network) was constructed using a domain-specific ontology and applied to the classification of web pages. Experimental results show that our approach outperforms the breadth-first search crawling approach, the simple keyword-based crawling approach, the ANN-based focused crawling approach, and the focused crawling approach that uses only a domain-specific ontology.  相似文献   

13.
Inherit/Feedback:一种新的Web主题挖掘方法   总被引:4,自引:0,他引:4  
经典链接分析方法(如PageRank和HITS)更多地关注的是网页的权威度,而不是其主题相关度,所以在引导主题搜索的过程中,很快就发生主题漂移.为此,在构建主题关联拓扑模型的基础上,提出了Inherit/Feedback方法,以用于Web主题挖掘.基本思想是:在搜索路径上,一个结点继承其父辈结点的主题相关度,并且将其主题相关度反馈给父辈结点.同时,提出了基于Inhefit/feedback的主题搜索算法(IFC).实验结果表明,这种方法能有效地引导主题搜索,适用于对领域型网站做深层次的搜索和挖掘.  相似文献   

14.
A web user who falsely accesses a compromised website is usually redirected to an adversary’s website and is forced to download malware after being exploited. Additionally, the adversary steals the user’s credentials by using information-leaking malware. The adversary may also try to compromise public websites owned by individual users by impersonating the website administrator using the stolen credentials. These compromised websites then become landing sites for drive-by download malware infection. Identifying malicious websites using crawling techniques requires a large amount of resources and time. To monitor the web-based attack cycle for effective detection and prevention, we propose a monitoring system called HoneyCirculator based on a honeytoken, which actively leaks bait credentials and lures adversaries to our decoy server that behaves like a compromised web content management system. To recursively analyze attack phases on the web-based attack cycle, our proposed system involves collecting malware, distributing bait credentials, monitoring fraudulent access, and inspecting compromised web content. It can instantly discover unknown malicious entities without conducting large-scale web crawling because of the direct monitoring behind the compromised web content management system. Our proposed system enables continuous and stable monitoring for about one year. In addition, almost all the malicious websites we discovered had not been previously registered in public blacklists.  相似文献   

15.
互联网的崛起为地理信息更新检索提供了一条新的途径,具有实时性强、成本低的优势。文中从实际出发,针对现有爬虫算法的缺陷,提出一种基于链接回溯的地理信息更新主题爬虫方法。首先,结合支持向量机分类技术,能够快速有效地找出一个网站中最有可能包含主题相关内容的链接方向;然后,回溯到这些链接后继续进行爬取,并通过地理信息变化要素知识库确定主题内容,从而优化爬取路径,减少低效率的爬取过程。实验结果表明,该方法可以找出最有可能包含地理信息的链接方向,大幅提高主题爬取效率,在其他主题方向也具有一定的可推广性。  相似文献   

16.
SOA的关键是服务,它为WebService提供了一个架构,使用该架构组织家庭服务可以实现跨平台的服务访问。然而SOA架构大多数规范如SOAP、UDDI和WSDL等均是基于XML的,所描述的服务缺乏语义信息,因此在检索过程无法有效处理一词多义和多词一义等语法问题。通过引入本体技术,建立家庭服务领域本体,从服务的功能、内容和设备三个方面利用功能概念本体、内容本体和设备本体进行语义标注,并扩展WSDL为S-WSDL来描述家庭服务。基于本体的家庭服务发现过程分为三个阶段:查找功能、过滤服务和参数类型匹配,充分利用本体的语义优势实现了智能数字家庭服务发现。  相似文献   

17.
在传统检索模型的基础上,结合本体的概念,提出一种基于本体语义树的主题空间向量模型,该模型能够用语义概念树描述一个主题,与传统基于关键词描述主题的方法不同,它能够描述概念之间的简单语义关系.在此基础上,给出HTML页面内容与主题相关度的计算方法.在分析URL的相关度时,不仅分析链接锚文本与主题相关度,还结合了改进的Pag...  相似文献   

18.
近年来人们提出了很多新的搜集思想,他们都使用了一个共同的技术——集中式搜集。集中式搜集通过分析搜索的区域,来发现与主题最相关的链接,防止访问网上不相关的区域,这可以大量地节省硬件和网络资源,使网页得到尽快的更新。为了达到这个搜索目标,本文提出了两个算法:一个是基于多层分类的网页过滤算法,试验结果表明,这种算法有较高的准确率,而且分类速度明显高于一般的分类算法;另一个是基于Web结构的URL排序算法,这个算法充分地利用了Web的结构特征和网页的分布特征。  相似文献   

19.
The on-line auction is one of the most successful types of electronic marketplace and has been the subject of many academic studies. In recent years, empirical research on on-line auctions has been flourishing because of the availability of large amounts of high-quality bid data from on-line auction sites. However, the increasingly large volumes of bid data have made data collection ever more complex and time consuming, and there are no effective resources that can adequately support this work. So this study focuses on the parallel crawling and filtering of on-line auctions from the social network perspective to help researchers collect and analyze auction data more effectively. The issues raised in this study include parallel crawling architecture, crawling strategies, content filtering strategies, prototype system implementation, and a pilot test of social network analysis. Finally we conduct an empirical experiment on eBay US and Ruten Taiwan to evaluate the performance of our crawling architecture and to understand auction customers?? bidding behavior characteristics. The results of this study show that our parallel crawling and filtering methods are able to work in the real world, and are significantly more effective than manual web crawling. The collected data are useful for drawing social network maps and analyzing bidding problems.  相似文献   

20.
以本体构造中文信息过滤中的需求模型   总被引:3,自引:0,他引:3  
在信息过滤系统中,用户模板是机器可理解的用户需求表示形式,是否能准确地反映出用户的真实需求将直接影响着过滤系统的性能。在向量空间模型中,用户的模板表现为一组带权重的特征词集,但由于在这样的用户模板中缺少必要的语义信息,很难准确地反映出用户的需求。本文提出了以本体构造需求模板的方法,以本体的形式定义需求中概念间的语义关联关系,将向量空间模型中的特征向量定义为本体中的实例,通过实例间的关联路径计算特征项间的语义关联,并通过特征项间的语义关联计算出文档与模板的语义关联度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号