共查询到20条相似文献,搜索用时 156 毫秒
1.
基于潜在语义索引的Web信息预测采集过滤方法 总被引:6,自引:0,他引:6
Web信息急速膨胀使有效定向采集特定领域信息成为网上信息检索中一个日益重要的研究方向.提出一种基于潜在语义索引的Web信息预测采集过滤方法.在样本文档集潜在语义索引对文档相似计算的基础上,构造出用户兴趣模型,判断页面相关性进行文本过滤.通过对Web站点结构分析、对未知网页的相关性预测来控制信息采集过程.在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源。 相似文献
2.
合作缓存机制是集群系统提高整体性能的一种有效方法,其利用高速网络将各个结点的缓存进行合作管理与访问,大幅度提高了缓存的命中率.但传统的合作缓存技术没有考虑到广为应用的高效用户层通信机制的特点.提出一种新的用户层通信与合作缓存技术相融合的缓存机制——集群统一缓存.这一机制充分利用了用户层通信的特点,包括协议精简、零拷贝、虚拟内存映射通信(VMMC)技术等,将缓存与结点通信相融合,减少了集群系统应用程序IO模块的层次与复杂度,提高了系统性能.同时这一机制也顺应了IO子系统日益独立化的发展趋势.该技术已经应用于自行开发的面向对象的Internet服务存储平台——TODS上,具有高效、扩展性好与软件设计简单等特点. 相似文献
3.
4.
集群系统的现状与挑战 总被引:8,自引:0,他引:8
一、集群系统成为构建高性能计算系统的主流方式由于具有低成本、高性能和良好的可扩展性,集群系统已经日益成为构建高性能计算系统的主要方式。从2003年11月发布的TOP 500的情况来看,以系统个数计算,集群系统占41.6%;从Linpack性能来看,集群系统占TOP 500的49.8%。在前10名的系统中,集群系统更是占到了7个。由此可见,在构建超大规模计算系统时,集群系统已经成为主流。集群系统的一个重要特点是尽量使用商用部件以降低成本。用来构建集群系统的各个部件,包括计算结点和通信网络,都可以在市场上很方便地得到而无需专门定制。而使用开放源… 相似文献
5.
为提高网络信息检索系统的查全率和查准率,引入空间向量模型设计网络信息检索系统。首先,基于网络信息检索系统结构基本框架采集和预处理网络信息文档。其次,引入空间向量模型计算文本段与查询式相似度。再次,根据相似度计算公式设置不同网络信息文档的相似度门槛值。最后,基于相似度门槛值过滤网络信息检索,将过滤后的网络信息作为检索结果显示给系统用户。通过对比实验的方式证明,新的检索系统可根据用户输入内容给出查全率和查准率较高的检索结果。 相似文献
6.
开发适合集群系统的并行数值算法,可以解决更多的科学与工程计算问题.在PC集群环境下,提出对Cannon算法的改进方案,采用重叠技术,使数据的计算和通信在时间上重叠,达到时延隐藏的目的,克服了网络传输的通信瓶颈问题;还提出一种自适应负载反馈平衡策略,很好地解决了集群负载平衡.该算法在PC集群系统环境下测试,取得了较好的并行效率,在4个结点上和8个结点上,加速比分别达到3.77和7.93. 相似文献
7.
8.
Google是Web上最流行的搜索引擎之一,其采用的软硬件先进技术获得了业界的多次大奖。集群是并行计算领域出现的一个新热点,是构造高性能计算系统的一种新技术,它由完整而独立的计算机互连而成,再配置上全局软件,对用户提供单一系统形象的松散耦合的多机系统。Google公司选择集群作为其系统平台有多方面的考虑。其一群集系统能提供几乎无限制的缩放能力,有较好的规模扩展性,能满足Google以整个地球上的网页为搜索对象的应用需求;其二由于集群的结点和互连网络都采用商品化的计算机产品构成,能大批量生产,成本较低,在相同的峰值性能情况下,集群的价格比传统的PVP、MPP低一至二个数量级,而且由于Google主要依靠容错软件提供可靠性,故可选择性价比较高的中档配置的PC机作为其结点计算机来降低系统成本; 相似文献
9.
可逆信息采集系统为单向采集模块,其采集范围不可控,导致采集丢包率增加。为此,设计基于C/S架构的双重加密可逆信息采集系统。搭建STM32F103VET6主控制器,接入Wi-Fi加密芯片,建立双重加密及采集指令集群,利用Web应用软件的综合C/S架构,建立可逆信息采集功能模块,关联C/S架构无线传输数据库,采集双重加密可逆信息。测试结果表明:设计系统的采集丢包率在2%以下,信息的采集和维护效率较高,具有较高的应用价值。 相似文献
10.
杨帆 《计算机应用与软件》2002,19(7):29-30,49
本文从公众信息查询需求的变化出发,介绍了触摸查询系统的最新特点,提出了一套既能支持全方位动态更新和网络方式查询,又能采集公众意见的新一代触摸查询与信息采集系统方案,并给出了具体实现。 相似文献
11.
With the Internet growing exponentially, search engines are encountering unprecedented challenges. A focused search engine selectively seeks out web pages that are relevant to user topics. Determining the best strategy to utilize a focused search is a crucial and popular research topic. At present, the rank values of unvisited web pages are computed by considering the hyperlinks (as in the PageRank algorithm), a Vector Space Model and a combination of them, and not by considering the semantic relations between the user topic and unvisited web pages. In this paper, we propose a concept context graph to store the knowledge context based on the user's history of clicked web pages and to guide a focused crawler for the next crawling. The concept context graph provides a novel semantic ranking to guide the web crawler in order to retrieve highly relevant web pages on the user's topic. By computing the concept distance and concept similarity among the concepts of the concept context graph and by matching unvisited web pages with the concept context graph, we compute the rank values of the unvisited web pages to pick out the relevant hyperlinks. Additionally, we constitute the focused crawling system, and we retrieve the precision, recall, average harvest rate, and F-measure of our proposed approach, using Breadth First, Cosine Similarity, the Link Context Graph and the Relevancy Context Graph. The results show that our proposed method outperforms other methods. 相似文献
12.
13.
分布式Web信息采集系统的研究与设计 总被引:6,自引:0,他引:6
Web信息的急速膨胀,使得Web信息采集面临一个巨大的挑战。针对这一情况,实现了一个分布式Web信息采集系统,以提高一般Web信息采集的能力。文章论述了分布式信息采集的基本原理、分类、难点以及相应的对策,并就该分布式Web信息采集系统进行了仔细的剖析。最后,对分布式Web信息采集的发展作了一个展望。 相似文献
14.
The number of vertical search engines and portals has rapidly increased over the last years, making the importance of a topic-driven (focused) crawler self-evident. In this paper, we develop a latent semantic indexing classifier that combines link analysis with text content in order to retrieve and index domain-specific web documents. Our implementation presents a different approach to focused crawling and aims to overcome the limitations imposed by the need to provide initial data for training, while maintaining a high recall/precision ratio. We compare its efficiency with other well-known web information retrieval techniques. 相似文献
15.
16.
17.
《Expert systems with applications》2014,41(18):8225-8233
The current web IR system retrieves relevant information only based on the keywords which is inadequate for that vast amount of data. It provides limited capabilities to capture the concepts of the user needs and the relation between the keywords. These limitations lead to the idea of the user conceptual search which includes concepts and meanings. This study deals with the Semantic Based Information Retrieval System for a semantic web search and presented with an improved algorithm to retrieve the information in a more efficient way.This architecture takes as input a list of plain keywords provided by the user and the query is converted into semantic query. This conversion is carried out with the help of the domain concepts of the pre-existing domain ontologies and a third party thesaurus and discover semantic relationship between them in runtime. The relevant information for the semantic query is retrieved and ranked according to the relevancy with the help of an improved algorithm. The performance analysis shows that the proposed system can improve the accuracy and effectiveness for retrieving relevant web documents compared to the existing systems. 相似文献
18.
We describe a search robot (crawler) intended to collect information regarding outgoing hyperlinks from a given set of web sites related to a certain topic. The crawler’s adaptive behavior is formulated in terms of a multi-armed bandit problem. Our experiments show that the choice of an adaptive algorithm for the crawler’s rational behavior depends on the actual topic of the underlying set of web sites. 相似文献
19.
随着网络的发展和普及, 人们对于安全性、匿名性、反审查等信息安全的需求快速增强, 越来越多的人开始关注和研究Tor 匿名通信网络。目前针对 Tor 网络内容监控的研究工作大部分存在功能少、性能弱等劣势, 如缺乏为暗网设计的专用爬虫, 网络连接速度较慢, 本文设计开发了一套综合性的 Tor 网络内容动态感知及情报采集系统, 包含数据采集爬虫以及网页内容分类两个部分。其中爬虫部分使用了分布式架构, 包括了任务管理模块、爬虫调度模块、网页下载模块、页面解析模块、数据存储模块, 同时创新性地优化了 Tor 连接链路以提高爬取速度和稳定性; 网页内容分类部分使用了自然语言处理技术, 建立训练模型并对抓取到的信息进行精准高效分类, 解决分类的准确度和复杂性问题, 最后根据结果分析暗网的内容结构和敏感信息。我们也相应地为保障系统运行设计了容错模块和预警模块, 从而对系统各个组件的当前状态进行实时监控, 并将系统的状态数据进行整合、收集和展示。最后我们将该系统放到了实际 Tor 网络环境中进行了测试, 从系统网页爬取效果、内容分类效果及系统性能等三方面进行了评估和分析, 并与国内外 7 中现有的框架的功能进行了对比, 证明本文提出的方案在暗网域名、网页、数据爬取的量级和速度性能方面均为最佳。 相似文献
20.
This work addresses issues related to the design and implementation of focused crawlers. Several variants of state-of-the-art crawlers relying on web page content and link information for estimating the relevance of web pages to a given topic are proposed. Particular emphasis is given to crawlers capable of learning not only the content of relevant pages (as classic crawlers do) but also paths leading to relevant pages. A novel learning crawler inspired by a previously proposed Hidden Markov Model (HMM) crawler is described as well. The crawlers have been implemented using the same baseline implementation (only the priority assignment function differs in each crawler) providing an unbiased evaluation framework for a comparative analysis of their performance. All crawlers achieve their maximum performance when a combination of web page content and (link) anchor text is used for assigning download priorities to web pages. Furthermore, the new HMM crawler improved the performance of the original HMM crawler and also outperforms classic focused crawlers in searching for specialized topics. 相似文献