首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
网页信息的更新是网络一个非常重要的性质。同网络的其他应用类似,随着WWW信息内容更新的不断加快,如何有效地跟踪特定网站和页面的更新情况日渐成为人们关心的课题。论文讨论一个自适应的网页信息跟踪系统ChangeSpider,研究其体系结构、关键技术等方面的内容。实验表明ChangeSpider能够有效地跟踪网页的信息变化,及时地将变化的内容提交给用户。  相似文献   

2.
随着Web的迅猛发展,许多用户开始关注如何有效跟踪特定网站和页面的更新情况.介绍一个基于Intranet的Web页面跟踪系统,该系统采用动态跟踪调度算法DSA;利用线程池技术提高带宽利用率;设计了一套分布式信息存储机制;并实现及时的信息分发.  相似文献   

3.
网络信息的爆炸式增长,使得当前任何搜索引擎都只可能索引到Web上一小部分数据,而其中又充斥着大量的低质量信息.如何在用户查询无关的条件下找到Web上高质量的关键资源,是Web信息检索面临的挑战.基于大规模网页统计的方法发现,多种网页非内容特征可以用于关键资源页面的定位,利用决策树学习方法对这些特征进行综合,即可以实现用户查询无关的关键资源页面定位.在文本信息检索会议(TREC)标准评测平台上进行的超过19G文本数据规模的实验表明,这种定位方法能够利用20%左右的页面覆盖超过70%的Web关键信息;在仅为全部页面24%的关键资源集合上的检索结果,比在整个页面集合上的检索有超过60%的性能提高.这说明使用较少的索引量获取较高的检索性能是完全可能的.  相似文献   

4.
网络中的数据蕴藏着大量有价值信息,在实际的项目需求中,为了实现能够自动的在网页上对大量数据的数据信息的收集、解析、格式化存储的过程,提出了基于分布式的网络爬虫技术。采用Nutch爬虫框架和Zookeeper分布式协调服务,配合高性能的Key-Value数据库Redis对数据进行存储,采用Solr引擎将抓取信息进行清晰地索引、展示。运用提取页面信息算法优化提取页面信息流程,通过关键词匹配优化算法根据指标从抓取的数据中获取指标相关数据。通过分布式集群的搭建,Nutch项目的实现,及大量数据的采集,验证了基于Nutch的分布式网络爬虫的可行性。通过页面解析流程实验分析,基于Nutch的分布式爬虫与其他爬虫多组实验数据对比结果表明,基于Nutch的分布式爬虫项目在性能和准确度方面都优于传统其他爬虫。  相似文献   

5.
王军 《信息与电脑》2022,(22):160-162
网络信息采集的效率直接影响着用户查询信息的时新性,为了满足人们海量的数据需求,研究基于数据挖掘的网络信息采集系统。在系统总体结构设计中,基于hadoop分布式集群,形成中心化拓扑主从结构,负责网络信息的采集任务。获取网页源代码,计算网页更新概率,得到大规模平行网页信息;基于数据挖掘寻找信息关联关系,过滤无用信息;建立网络信息采集模块、变更管理模块和网站登录模块,利用爬取技术完成网络信息采集,实现系统设计。经实验论证分析,设计系统信息采集较快。  相似文献   

6.
随着网络技术和电力信息化业务的不断发展,网络信息越发膨胀,将导致互联网和电力信息网中存在海量网页冗余的现象,这类现象将会使数据挖掘、快速检索的复杂度加大,从而对网络设备和存储设备的性能带来了巨大的挑战,因此研究海量网页快速去重是非常有必要的。网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,其中基于同源网页的URL去重的研究已经取得了很大的发,但是针对海量网页去重问题,目前还没有很好的解决方案,本文在基于MD5指纹库网页去重算法的基础上,结合Counting Bloom filter算法的特性,提出了一种快速去重算法IMP-CMFilter。该算法通过减少I/0频繁操作,来提高海量网页去重的效率。实验表明,IMP-CMFilter算法的有效性。  相似文献   

7.
近年来为减少无线视频传感器网络的通信数据量从而节约能耗,一些研究引入高效分布式算法对目标进行跟踪。然而,常用的分布式跟踪算法采用信息矩阵进行数据融合来提高跟踪精度,数据通信量虽然比传递图像小,但依然比较耗能。针对这种情况,提出一种基于残差编码的一致性卡尔曼滤波跟踪方法,对信息矩阵采用符号编码策略,从而大量减少视频传感器节点之间数据交换量,实验证明:该方法在保证跟踪效果的同时可减少70%左右的能量消耗。  相似文献   

8.
链路约束的分布式网络监测模型   总被引:2,自引:0,他引:2  
分布式网络监测系统能够实时有效地收集网络性能数据,但收集过程受到链路延迟和路由跳数的约束.链路约束的分布式网络监测模型研究如何在链路约束下用最小的代价部署整个分布式网络监测系统;链路约束的演化网络监测模型研究在网络演化的情况下,如何用最小的更新代价重新部署监测系统使之满足链路约束.求取这两个模型的最优解的问题都是NP难的.通过指定权函数的形式,两个模型对应的最优化问题能够映射成带权的集合覆盖问题,采用贪婪策略能够得到近似比不超过ln n+1的近似算法,其中n是被监测节点的数目.通过仿真实验还讨论了如何选择恰当的链路延迟约束值.  相似文献   

9.
遗传算法与蚂蚁算法的融合   总被引:156,自引:2,他引:156  
遗传算法具有快速随机的全局搜索能力,但对于系统中的反馈信息利用却无能为力,当求解到一定范围时往往做大量无为的冗余迭代,求精确解效率低.蚂蚁算法是通过信息素的累积和更新收敛于最优路径上,具有分布式并行全局搜索能力,但初期信息素匮乏,求解速度慢,算法是将遗传算法与蚂蚁算法融合,采用遗传算法生成信息素分布,利用蚂蚁算法求精确解,优势互补,仿真表明取得了非常好的效果。  相似文献   

10.
大型网站是网络信息的核心,其信息规模之大,更新速度之快是中小型网站不可比拟的,对大型网站网页搜索的好坏直接影响搜索引擎的整体性能。本文在分析分类网页更新策略的基础上,根据大型网站本身的特点提出了一种增量式信息更新方法。实验分析表明,这种增量式信息更新方法很大程度上提高了大型网站搜索引擎网页的更新效率。  相似文献   

11.
面向Web的信息收集工具的设计与开发   总被引:8,自引:1,他引:8  
随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系统在综合使用Web页面间的链接关系和页面内容的基础上 ,增加了多层次的页面过滤模块 ,可用来收集特定领域内的Web页面 ;同时可采用多机并行收集的方法提高页面收集的效率 ;采用大型数据库存放元收集信息 ,并对收集到的页面进行压缩 ,能够支持海量数据的收集 ;动态更新机制的实施使得下载到本地的页面信息能够得到及时的更新。  相似文献   

12.
网络舆情分析系统中,网页信息预处理方案的实现采用了基于网页结构分析的信息抽取技术和数据存储技术。结合HTML网页的内部结构,设计了一种基于HTMLDOM结构节点路径的网页信息解析模板,用于网页信息抽取。通过网页U1KL的特征研究建立了网页之间的联系机制,应用于数据库存取提高了效率。  相似文献   

13.
针对传统网页采集分析系统在实时性上的不足,提出了一种基于消息中间件的网页实时处理技术。该技术利用消息中间件在消息队列驱动流程中引入并行调度策略,既继承了传统网页处理系统的可靠性,又实现信息抽取、话题聚类和网页分类等模块的分布式并行处理,增强了系统的实时处理能力。实验证明该文提出的技术在舆情实时采集、处理中较传统方法实时性高。  相似文献   

14.
Data-intensive web-based information systems usually employ database systems to store the contents forming the basis for web page construction. Generating web pages on the fly, especially in peak times, can lead to severe performance problems. Thus, pre-generation of web pages has been suggested to be ready for prime time, allowing to reliably deliver several hundred pre-generated pages per second. Maintaining the consistency of these web pages with respect to changes within the database in an efficient way, however, represents a major challenge. This paper presents a novel approach for “self-maintaining” web pages that is, different to previous approaches, characterized by a simple (and thus, easy to maintain) database-to-web page mapping and very low page re-generation costs. This is achieved by utilizing fragmentation techniques from distributed databases, by allocating parameterized fragment classes to web page classes (rather than individual fragments to single web pages), and using the Extensible Markup Language (XML) as an intermediate layer between the database and the final web pages.  相似文献   

15.
本文通过对中文网页采集流程、网络爬虫工作基本原理的分析,再结合彝文网页的特点,对彝文网页信息的采集技术进行了研究,通过聚焦网络爬虫来实现彝文网页信息的采集,并依此来建立一个内容全面的彝文网页信息资源库。  相似文献   

16.
Internet信息收集系统是搜索引擎的信息来源,它决定了搜索引擎的内容是否丰富,更新是否及时。文章提出了一种分布式并行信息收集系统,分析了它相对于传统集中式搜索的优越性,并描述了它的体系结构和实现方法。  相似文献   

17.
The most fascinating advantage of the semantic web would be its capability of understanding and processing the contents of web pages automatically. Basically, the semantic web realization involves two main tasks: (1) Representation and management of a large amount of data and metadata for web contents; (2) Information extraction and annotation on web pages. On the one hand, recognition of named-entities is regarded as a basic and important problem to be solved, before deeper semantics of a web page could be extracted. On the other hand, semantic web information extraction is a language-dependent problem, which requires particular natural language processing techniques. This paper introduces VN-KIM IE, the information extraction module of the semantic web system VN-KIM that we have developed. The function of VN-KIM IE is to automatically recognize named-entities in Vietnamese web pages, by identifying their classes, and addresses if existing, in the knowledge base of discourse. That information is then annotated to those web pages, providing a basis for NE-based searching on them, as compared to the current keyword-based one. The design, implementation, and performance of VN-KIM IE are presented and discussed.  相似文献   

18.
基于SPI与VSM的Web访问控制与过滤系统的研究与设计   总被引:1,自引:0,他引:1  
对用户请求的Web文本信息进行实时控制与过滤是信息安全的一个重要研究分支.基于Winsock SPI技术实现了一个Web访问控制与过滤系统.系统利用VSM模型计算网页间的相似度,采用URL规则和Web页内容审计的混合策略进行过滤.系统既能过滤新Web页,又能自动维护URL规则库,经多次测试效果良好.  相似文献   

19.
袁莹静  陈婷  陈龙  周芷仪  谢鹏辉 《软件》2020,(4):195-199
随着经济社会的不断发展,数据信息呈现出爆炸式增长的特点,每个领域都包含了非常广泛的数据信息。在现在社会中,网页设计与数据库的结合密不可分。在网页设计上通过运用SQL语句与数据库的连接中,实现了信息的添加、删除、修改、查询等的功能,使得我们对网页设计有一定的了解。本文主要介绍通过运用Visual Studio软件和数据库软件,实现了二手车交易系统的网页设计,并对网页中相关功能的介绍。  相似文献   

20.
It is common to browse web pages via mobile devices. However, most of the web pages were designed for desktop computers equipped with big screens. When browsing on mobile devices, a user has to scroll up and down to find the information they want because of the limited screen size. Some commercial products reformat web pages. However, the result pages still contain irrelevant information. We propose a system to personalize users’ mobile web pages. A user can determine which blocks in a web page should be retained. The sequence of these blocks can also be altered according to individual preferences.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号