首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
基于潜在语义索引的Web信息预测采集过滤方法   总被引:6,自引:0,他引:6  
Web信息急速膨胀使有效定向采集特定领域信息成为网上信息检索中一个日益重要的研究方向.提出一种基于潜在语义索引的Web信息预测采集过滤方法.在样本文档集潜在语义索引对文档相似计算的基础上,构造出用户兴趣模型,判断页面相关性进行文本过滤.通过对Web站点结构分析、对未知网页的相关性预测来控制信息采集过程.在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源。  相似文献   

2.
合作缓存机制是集群系统提高整体性能的一种有效方法,其利用高速网络将各个结点的缓存进行合作管理与访问,大幅度提高了缓存的命中率.但传统的合作缓存技术没有考虑到广为应用的高效用户层通信机制的特点.提出一种新的用户层通信与合作缓存技术相融合的缓存机制——集群统一缓存.这一机制充分利用了用户层通信的特点,包括协议精简、零拷贝、虚拟内存映射通信(VMMC)技术等,将缓存与结点通信相融合,减少了集群系统应用程序IO模块的层次与复杂度,提高了系统性能.同时这一机制也顺应了IO子系统日益独立化的发展趋势.该技术已经应用于自行开发的面向对象的Internet服务存储平台——TODS上,具有高效、扩展性好与软件设计简单等特点.  相似文献   

3.
基于主题的Web信息采集系统的设计与实现   总被引:13,自引:0,他引:13  
基于主题的Web信息采集是信息检索领域内一个新兴且有实用价值的方向,也是信息处理技术中的一个研究热点。文章分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。  相似文献   

4.
集群系统的现状与挑战   总被引:8,自引:0,他引:8  
一、集群系统成为构建高性能计算系统的主流方式由于具有低成本、高性能和良好的可扩展性,集群系统已经日益成为构建高性能计算系统的主要方式。从2003年11月发布的TOP 500的情况来看,以系统个数计算,集群系统占41.6%;从Linpack性能来看,集群系统占TOP 500的49.8%。在前10名的系统中,集群系统更是占到了7个。由此可见,在构建超大规模计算系统时,集群系统已经成为主流。集群系统的一个重要特点是尽量使用商用部件以降低成本。用来构建集群系统的各个部件,包括计算结点和通信网络,都可以在市场上很方便地得到而无需专门定制。而使用开放源…  相似文献   

5.
为提高网络信息检索系统的查全率和查准率,引入空间向量模型设计网络信息检索系统。首先,基于网络信息检索系统结构基本框架采集和预处理网络信息文档。其次,引入空间向量模型计算文本段与查询式相似度。再次,根据相似度计算公式设置不同网络信息文档的相似度门槛值。最后,基于相似度门槛值过滤网络信息检索,将过滤后的网络信息作为检索结果显示给系统用户。通过对比实验的方式证明,新的检索系统可根据用户输入内容给出查全率和查准率较高的检索结果。  相似文献   

6.
夏丽华  张丽晓 《计算机工程与设计》2007,28(19):4603-4605,4615
开发适合集群系统的并行数值算法,可以解决更多的科学与工程计算问题.在PC集群环境下,提出对Cannon算法的改进方案,采用重叠技术,使数据的计算和通信在时间上重叠,达到时延隐藏的目的,克服了网络传输的通信瓶颈问题;还提出一种自适应负载反馈平衡策略,很好地解决了集群负载平衡.该算法在PC集群系统环境下测试,取得了较好的并行效率,在4个结点上和8个结点上,加速比分别达到3.77和7.93.  相似文献   

7.
超级服务器(即集群计算机)利用高速通用网络将一组高性能服务器或PC机,按某种结构连接起来,在并行程序设计以及可视化人机交互集成开发环境的支持下统一调度、协调处理,实现高效并行处理的系统。 从结构和结点间的通信方式来看,它属于分布存储系统,主要利用消息传递方式实现各主机之间的通信,由建立在一般操作系统之上的并行编程环境完成系统的资源管理及相互协作,同时也屏蔽了服务器及网络的异构性;对程序员和用户来说,集群系统是一个整体的并行系统。集群系统中的主机和网络可  相似文献   

8.
Google是Web上最流行的搜索引擎之一,其采用的软硬件先进技术获得了业界的多次大奖。集群是并行计算领域出现的一个新热点,是构造高性能计算系统的一种新技术,它由完整而独立的计算机互连而成,再配置上全局软件,对用户提供单一系统形象的松散耦合的多机系统。Google公司选择集群作为其系统平台有多方面的考虑。其一群集系统能提供几乎无限制的缩放能力,有较好的规模扩展性,能满足Google以整个地球上的网页为搜索对象的应用需求;其二由于集群的结点和互连网络都采用商品化的计算机产品构成,能大批量生产,成本较低,在相同的峰值性能情况下,集群的价格比传统的PVP、MPP低一至二个数量级,而且由于Google主要依靠容错软件提供可靠性,故可选择性价比较高的中档配置的PC机作为其结点计算机来降低系统成本;  相似文献   

9.
可逆信息采集系统为单向采集模块,其采集范围不可控,导致采集丢包率增加。为此,设计基于C/S架构的双重加密可逆信息采集系统。搭建STM32F103VET6主控制器,接入Wi-Fi加密芯片,建立双重加密及采集指令集群,利用Web应用软件的综合C/S架构,建立可逆信息采集功能模块,关联C/S架构无线传输数据库,采集双重加密可逆信息。测试结果表明:设计系统的采集丢包率在2%以下,信息的采集和维护效率较高,具有较高的应用价值。  相似文献   

10.
本文从公众信息查询需求的变化出发,介绍了触摸查询系统的最新特点,提出了一套既能支持全方位动态更新和网络方式查询,又能采集公众意见的新一代触摸查询与信息采集系统方案,并给出了具体实现。  相似文献   

11.
With the Internet growing exponentially, search engines are encountering unprecedented challenges. A focused search engine selectively seeks out web pages that are relevant to user topics. Determining the best strategy to utilize a focused search is a crucial and popular research topic. At present, the rank values of unvisited web pages are computed by considering the hyperlinks (as in the PageRank algorithm), a Vector Space Model and a combination of them, and not by considering the semantic relations between the user topic and unvisited web pages. In this paper, we propose a concept context graph to store the knowledge context based on the user's history of clicked web pages and to guide a focused crawler for the next crawling. The concept context graph provides a novel semantic ranking to guide the web crawler in order to retrieve highly relevant web pages on the user's topic. By computing the concept distance and concept similarity among the concepts of the concept context graph and by matching unvisited web pages with the concept context graph, we compute the rank values of the unvisited web pages to pick out the relevant hyperlinks. Additionally, we constitute the focused crawling system, and we retrieve the precision, recall, average harvest rate, and F-measure of our proposed approach, using Breadth First, Cosine Similarity, the Link Context Graph and the Relevancy Context Graph. The results show that our proposed method outperforms other methods.  相似文献   

12.
中文RSS信息自动检索与分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
设计并实现了RSS垂直爬虫算法,利用广度优先算法聚焦于RSS源进行自动采集,并在文本分词基础上,针对RSS源进行词语权重计算方法的改进及词语过滤,利用VSM方法实现RSS自动分类。实验结果表明,RSS系统在较低的负载下,能以较高的效率和正确率实现中文RSS信息自动检索与分类,从而有效进行RSS信息聚合管理。  相似文献   

13.
分布式Web信息采集系统的研究与设计   总被引:6,自引:0,他引:6  
Web信息的急速膨胀,使得Web信息采集面临一个巨大的挑战。针对这一情况,实现了一个分布式Web信息采集系统,以提高一般Web信息采集的能力。文章论述了分布式信息采集的基本原理、分类、难点以及相应的对策,并就该分布式Web信息采集系统进行了仔细的剖析。最后,对分布式Web信息采集的发展作了一个展望。  相似文献   

14.
The number of vertical search engines and portals has rapidly increased over the last years, making the importance of a topic-driven (focused) crawler self-evident. In this paper, we develop a latent semantic indexing classifier that combines link analysis with text content in order to retrieve and index domain-specific web documents. Our implementation presents a different approach to focused crawling and aims to overcome the limitations imposed by the need to provide initial data for training, while maintaining a high recall/precision ratio. We compare its efficiency with other well-known web information retrieval techniques.  相似文献   

15.
董禹龙  杨连贺  马欣 《计算机科学》2018,45(Z6):428-432
针对当前分布式网络爬虫方法遇到的处理效率、扩展性、可靠性、任务分配和负载平衡等问题,提出了一种主动获取任务式的分布式网络爬虫方法。该方法在子机节点中加入分控模块,评估节点负载及运行状况,并主动向中控节点申请任务队列。在此基础上,结合动态双向优先级任务分配算法,设计了一种具有负载平衡、任务分级分配、节点异常敏捷识别、节点安全退出等特性的分布式网络爬虫模型。实际测试表明,该主动获取式的分布式网络爬虫方法可有效地利用通用平台建立大型分布式爬虫集群。  相似文献   

16.
网络爬虫效率瓶颈的分析与解决方案   总被引:3,自引:0,他引:3  
尹江  尹治本  黄洪 《计算机应用》2008,28(5):1114-1116
网络爬虫的效率,直接关系到搜索引擎系统为用户提的供服务质量。如何设计高效、快速的网络爬虫,成为目前网络爬虫研究的热点。要提高网络爬虫的爬行效率,除了需要改进网络爬虫的爬行策略之外,还需要优化网络爬自身的设计,改进网络爬虫自身的结构,消除效率瓶颈。通过对网络爬虫结构、应用环境以及用户要求的分析,提出一个通用网络爬虫的改进设计方案,并通过实验得到较好的测试结果。  相似文献   

17.
The current web IR system retrieves relevant information only based on the keywords which is inadequate for that vast amount of data. It provides limited capabilities to capture the concepts of the user needs and the relation between the keywords. These limitations lead to the idea of the user conceptual search which includes concepts and meanings. This study deals with the Semantic Based Information Retrieval System for a semantic web search and presented with an improved algorithm to retrieve the information in a more efficient way.This architecture takes as input a list of plain keywords provided by the user and the query is converted into semantic query. This conversion is carried out with the help of the domain concepts of the pre-existing domain ontologies and a third party thesaurus and discover semantic relationship between them in runtime. The relevant information for the semantic query is retrieved and ranked according to the relevancy with the help of an improved algorithm. The performance analysis shows that the proposed system can improve the accuracy and effectiveness for retrieving relevant web documents compared to the existing systems.  相似文献   

18.
We describe a search robot (crawler) intended to collect information regarding outgoing hyperlinks from a given set of web sites related to a certain topic. The crawler’s adaptive behavior is formulated in terms of a multi-armed bandit problem. Our experiments show that the choice of an adaptive algorithm for the crawler’s rational behavior depends on the actual topic of the underlying set of web sites.  相似文献   

19.
随着网络的发展和普及, 人们对于安全性、匿名性、反审查等信息安全的需求快速增强, 越来越多的人开始关注和研究Tor 匿名通信网络。目前针对 Tor 网络内容监控的研究工作大部分存在功能少、性能弱等劣势, 如缺乏为暗网设计的专用爬虫, 网络连接速度较慢, 本文设计开发了一套综合性的 Tor 网络内容动态感知及情报采集系统, 包含数据采集爬虫以及网页内容分类两个部分。其中爬虫部分使用了分布式架构, 包括了任务管理模块、爬虫调度模块、网页下载模块、页面解析模块、数据存储模块, 同时创新性地优化了 Tor 连接链路以提高爬取速度和稳定性; 网页内容分类部分使用了自然语言处理技术, 建立训练模型并对抓取到的信息进行精准高效分类, 解决分类的准确度和复杂性问题, 最后根据结果分析暗网的内容结构和敏感信息。我们也相应地为保障系统运行设计了容错模块和预警模块, 从而对系统各个组件的当前状态进行实时监控, 并将系统的状态数据进行整合、收集和展示。最后我们将该系统放到了实际 Tor 网络环境中进行了测试, 从系统网页爬取效果、内容分类效果及系统性能等三方面进行了评估和分析, 并与国内外 7 中现有的框架的功能进行了对比, 证明本文提出的方案在暗网域名、网页、数据爬取的量级和速度性能方面均为最佳。  相似文献   

20.
This work addresses issues related to the design and implementation of focused crawlers. Several variants of state-of-the-art crawlers relying on web page content and link information for estimating the relevance of web pages to a given topic are proposed. Particular emphasis is given to crawlers capable of learning not only the content of relevant pages (as classic crawlers do) but also paths leading to relevant pages. A novel learning crawler inspired by a previously proposed Hidden Markov Model (HMM) crawler is described as well. The crawlers have been implemented using the same baseline implementation (only the priority assignment function differs in each crawler) providing an unbiased evaluation framework for a comparative analysis of their performance. All crawlers achieve their maximum performance when a combination of web page content and (link) anchor text is used for assigning download priorities to web pages. Furthermore, the new HMM crawler improved the performance of the original HMM crawler and also outperforms classic focused crawlers in searching for specialized topics.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号