期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于自动分类的网页机器人 总被引：2，自引：0，他引：2

康平波王文杰《计算机工程》2003,29(21):123-124,127

随着互联网的普及和发展，网络上的信息资源越来越丰富，它需要高效智能的工具来完成信息资源的采集。WWW上的网页抓取器，又称Robot讨论了抓取器与文本自动分类器相结合，对用户要求领域网页的收集。抓取器找到相关链接进行抓取，而避免对非相关链接的抓取。这样可以节省硬件、网络资源和提高抓取器的效率。相似文献

2.

基于PageRank与Bagging的主题爬虫研究 总被引：3，自引：0，他引：3

张翔周明全李智杰董丽丽《计算机工程与设计》2010,31(14)

为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法.将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块.利用一种改进的PageRank算法改善了爬虫的搜索策略,进行网页遍历与抓取.用向量空间模型表示网页主题,使用Bagging算法构造网页主题分类器进行主题相关性分析,过滤与主题无关网页.实验结果表明,该方法在网页抓取的性能上和主题网页的查准率上都取得较好的效果. 相似文献

3.

基于链接结构和内容相似度的聚焦爬虫系统

倪贤贵蔡明《计算机工程与设计》2008,29(7):1709-1711

介绍了基于链接结构和内容相似度的主题Web Crawler系统结构,重点介绍了其中的联合网页链接结构和内容相似度来计算网页相关度算法.该算法计算种子网页集到抓取网页的链接数目和抓取网页到种子网页集的链接数目,及Web内容与主题的内容相似度,综合计算该网页的相关度权值,从中选择权威网页或hub网页作为种子网页,从而提高主题爬虫系统的爬行效率和抓取网页的查准率. 相似文献

4.

智能化网页资源收集工具的设计与实现

康平波田永鸿黄铁军《计算机工程》2004,30(4):88-89,92

随着互联网的普及和发展，网络上的信息资源越来越丰富，它需要高效智能的工具来完成信息资源的采集。介绍了智能化网页收集工具系统的实现方法，它把抓取器与超链分析器、文本自动分类器相结合，完成对用户要求领域的网页的收集，避免对用户不感兴趣领域的抓取。这样可以节省硬件、网络资源和提高资源采集效率。相似文献

5.

一种高效的动态脚本网站有效页面获取方法 总被引：1，自引：0，他引：1

夏冰高军王腾蛟杨冬青《软件学报》2009,20(Z1):176-183

随着Web2.0时代的到来,越来越多的网站采用了动态脚本的方式与用户进行交互.页面的转换不再仅仅通过点击“”标签进行,URL也不再是页面的唯一标识.传统网络爬虫无法应对含动态脚本的网页,如Google等搜索引擎即对这些网页采取回避的态度.对这些网页的抓取方法的研究仍处在起步阶段,提出了一种高效的动态脚本网站有效页面的获取方法,首先通过训练获得哪些页面元素触发的哪些事件将引向我们所需的页面,并总结出这些页面元素的XPath特征及触发的事件类型.在以后的抓取中,只触发这些页面元素上的特定事件,从而提升抓取效率.此外,通过实验证明了我们方法的效率和性能. 相似文献

6.

WEB文献资料采集系统

马创新《计算机系统应用》2012,21(7):9-12,37

为了能够充分利用WEB上丰富的文献资源,设计了一个专业的WEB文献资料采集系统WLES。该系统集成了网页抓取和网页清洗两方面技术,并且引入机器学习方法到网页清洗中,通过机器对训练语料的学习得到一个清洗模型,然后用该模型来实施网页清洗。实验证明该系统在网页抓取和网页清洗方面都具有优良的性能,能够满足使用者的文献采集需求。相似文献

7.

基于HMM的主题垂直搜索引擎技术研究

张弛《自动化技术与应用》2014,33(10):37-39

计算机网络技术的飞速发展,对于搜索引擎技术也提出了更高的要求.文章主要以垂直搜索引擎的主题网页抓取策略为研究内容,从提高主题网页抓取的准确度和效率出发,引入隐马尔科夫模型,并重点讨论了该模型具体应用策略和过程,该模型的应用方法不仪分析了网页内容,还考虑网页上下文链接距离结构,在一定程度上提高了主题页面抓取的精度. 相似文献

8.

用VC++编程实现Web文本资料的抓取

马创新《电脑编程技巧与维护》2012,(7):73-75

用VC++编程实现了Web文本资料的抓取.它能够获取指定网页上的所有链接,并把这些链接的网页抓取下来,以文本文件形式保存在指定文件夹中. 相似文献

9.

基于在线增量学习的自适应聚焦爬虫研究

朱婷滕桂法陆浩张长利曾大军《计算机应用与软件》2009,26(5)

在原始分类器聚焦爬虫的基础上设计并实现在线增量学习的自适应聚焦爬虫.该聚焦爬虫包括一个基础网页分类器和一个在线增量学习自适应链接分类器.基础页面分类器根据领域知识对抓取到的页面内容主题相关性进行分类.在线增量学习自适应链接分类器能即时根据爬虫爬得网页和网页链接信息作出分类模型调整以更合理方式计算链接的主题相关度.系统中链接排序模块采用TopicalRank主题相关度计算方法分析链接优先抓取顺序.把基于增量学习的自适应聚焦爬虫应用到农业领域,实验结果和分析证明在线增量学习的自适应聚焦爬虫在农业领域爬行性能比仅基于网页相关性和链接重要度的原始分类器聚焦爬虫具有更好的性能. 相似文献

10.

针对模型驱动的Web应用测试的Web CraWler的设计和实现

下载免费PDF全文

张晴李诺吴际刘超《计算机工程与科学》2006,28(Z2):113-117

模型驱动的Web应用测试的第一步是建立被测Web应用的模型,作为生成测试用例的基础.但是,通常Web应用开发过程中相关文档较少,所以为在工程实践中应用模型驱动的Web应用测试,需要逆向建立被测Web应用模型.而逆向建立被测Web应用模型的基础之一是网页抓取技术(Web Crawler).本文首先介绍了网页抓取技术及其研究现状;然后分析了模型驱动的Web应用测试对网页抓取技术的需求;在阐述系统设计、实现之后,进行了总结与展望. 相似文献

11.

基于协程模型的分布式爬虫框架

杨济运刘建勋姜磊彭桃文一凭卢厅《计算技术与自动化》2014,(3):126-133

网络爬虫主要受到网络延迟和本地运行效率的限制,传统的基于多线程的网络爬虫架构主要为了消除网络延迟而没有考虑到本地运行效率。在高并发的条件下,多线程架构爬虫由于上下文切换开销增大而导致本地运行效率降低,同时使得网络利用率下降,如何能够在最大化利用网络资源的情况下减小系统本地开销是一个需要研究的问题。针对以上问题,本文提出基于协程的分布式网络爬虫框架来解决,从开销、资源利用率、网络利用率上对协程框架和多线程框架进行了分析,并基于协程实现了一个分布式网络爬虫。实验表明该框架无论从开销、资源利用率和网络利用率上相对于多线程框架有比较明显的优势。相似文献

12.

网络爬虫对网络安全的影响及其对策分析 总被引：2，自引：0，他引：2

梁雪松张容《计算机与数字工程》2009,37(12):86-88,166

网络爬虫已经广泛应用于互联网,能完成许多有用的工作,同时也会对网络安全产生一定的负面影响。文章论述了网络爬虫对网络安全构成的威胁,并重点提出对其不利影响的应对策略。相似文献

13.

多线程网络爬虫的设计与实现

张超闫宏印《电脑开发与应用》2012,25(6):65-67,70

针对互联网信息急剧增多,为了改善网络爬虫的爬行性能和提高爬虫程序的通用性,分析了网络爬虫的原理与架构,设计实现了一种高速多线程网络爬虫程序。该爬虫程序采用多个线程并行处理网页,采用宽度优先和深度优先结合的方式来控制网页爬取深度。实验证明该爬虫程序减少了网页下载过程中的平均等待时间,具有较好的性能。相似文献

14.

基于本体的网页数据抽取技术的研究

常丽君《数字社区&智能家居》2014,(6):3726-3728

随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识,在此基础上提出并实现了一种基于领域本体的网页数据抽取方法。在该文中,利用领域本体的关键词、概念及关系来生成抽取规则,采用语法分析模块对输入的文档进行预处理,最后根据语法分析的机构和生成的抽取规则来对文档实现数据抽取。实验证明,该方法具有良好的性能。相似文献

15.

增量更新Crawler进行Web收集方法研究

程菲汪建海罗键《计算机工程与科学》2006,28(12):28-30

本文针对目前Web信息挖掘中存在的各种问题，对网络爬虫系统进行研究，提出了一种基于HTTP协议原理、旨在减少网络爬虫系统运行时网络流量的Web页面收集方法--增量更新Crawler方法。该方法通过Web预取技术对现有的Web链接数据库进行演化更新，可以在减少网络流量的同时获得接近现有网络爬虫系统的效果。相似文献

16.

Implementation of hybrid P2P networking distributed web crawler using AWS for smart work news big data

Kim Yong-Young Kim Yong-Ki Kim Dae-Sik Kim Mi-Hye 《Peer-to-Peer Networking and Applications》2020,13(2):659-670

Web crawlers collect and index the vast amount of data available online to gather specific types of objective data such as news that researchers or practitioners need. As big data are increasingly used in a variety of fields and web data are exponentially growing each year, the importance of web crawlers is growing as well. Web servers that currently handle high traffic, such as portal news servers, have safeguards against security threats such as distributed denial-of-service (DDoS) attacks. In particular, the crawler, which causes a large amount of traffic to the Web server, has a very similar nature to DDoS attacks, so the crawler’s activities tend to be blocked from the web server. A peer-to-peer (P2P) crawler can be used to solve these problems. However, the limitations with the pure P2P crawler is that it is difficult to maintain the entire system when network traffic increases or errors occur. Therefore, in order to overcome these limitations, we would like to propose a hybrid P2P crawler that can collect web data using the cloud service platform provided by Amazon Web Services (AWS). The hybrid P2P networking distributed web crawler using AWS (HP2PNC-AWS) is applied to collecting news on Korea’s current smart work lifestyle from three portal sites. In Portal A where the target server does not block crawling, the HP2PNC-AWS is faster than the general web crawler (GWC) and slightly slower than the server/client distributed web crawler (SC-DWC), but it has a similar performance to the SC-DWC. However, in both Portal B and C where the target server blocks crawling, the HP2PNC-AWS performs better than other methods, with the collection rate and the number of data collected at the same time. It was also confirmed that the hybrid P2P networking system could work efficiently in web crawler architectures.

相似文献

17.

Web聊天室探测系统的网页获取和改进研究

孙群漆正东《计算机光盘软件与应用》2012,(3):184+187

网络聊天以它低成本,高效率的优势给网络用户提供了在线实时通信的功能,从而成为目前互联网使用最广泛的网络服务。以网络聊天室的探测为载体深入研究网页获取和预处理的技术问题。主要探讨网络爬虫的原理和工作流程,在网络爬虫器中引入网络并行多线程处理技术。讨论WebLech的技术特点和实现技术,对WebLech做出了改进。相似文献

18.

Learning to crawl deep web

Qinghua Zheng Zhaohui Wu Xiaocheng Cheng Lu Jiang Jun Liu 《Information Systems》2013

Deep web or hidden web refers to the hidden part of the Web (usually residing in structured databases) that remains unavailable for standard Web crawlers. Obtaining content of the deep web is challenging and has been acknowledged as a significant gap in the coverage of search engines. The paper proposes a novel deep web crawling framework based on reinforcement learning, in which the crawler is regarded as an agent and deep web database as the environment. The agent perceives its current state and selects an action (query) to submit to the environment (the deep web database) according to Q-value. While the existing methods rely on an assumption that all deep web databases possess full-text search interfaces and solely utilize the statistics (TF or DF) of acquired data records to generate the next query, the reinforcement learning framework not only enables crawlers to learn a promising crawling strategy from its own experience, but also allows for utilizing diverse features of query keywords. Experimental results show that the method outperforms the state of art methods in terms of crawling capability and relaxes the assumption of full-text search implied by existing methods. 相似文献

19.

基于主题相似度指导网络蜘蛛穿越隧道的爬行算法 总被引：1，自引：0，他引：1

陈小海周娅《计算机工程与科学》2009,31(10)

隧道穿越一直是主题网络蜘蛛爬行研究的难点,本文在分析了网页主题特征和普通隧道技术爬行算法缺点的基础上,提出了使用主题相似度指导网络蜘蛛穿越隧道的爬行算法,并用朴素贝叶斯分类器方法提高主题相似度计算精度。实验表明,本文提出的隧道穿越技术在查准率和查全率方面都比普通隧道技术有很大提高。相似文献

20.

一种基于C4.5决策树的Web页面分类算法

曹薇张乃洲《计算机系统应用》2010,19(10):195-198

WEB文本自动分类在很多方面都有着重要的应用,如信息检索,新闻分类等。决策树算法是一种简单并且广泛使用的分类方法,具有很多优点如：分类精度高,分类速度快等。主要研究了运用C4．5决策树构建Web页面分类器的基本方法和过程,并提出了一个基于C4．5决策树的Web页面分类器的框架。在此基础上实现了一个运用于网络爬虫的Web页面分类器,实验结果表明该算法是非常有效的。相似文献