期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘凡陈康郑纬民《计算机工程与应用》2003,39(34):160-164

网页信息的更新是网络一个非常重要的性质。同网络的其他应用类似,随着WWW信息内容更新的不断加快,如何有效地跟踪特定网站和页面的更新情况日渐成为人们关心的课题。论文讨论一个自适应的网页信息跟踪系统ChangeSpider,研究其体系结构、关键技术等方面的内容。实验表明ChangeSpider能够有效地跟踪网页的信息变化,及时地将变化的内容提交给用户。相似文献

2.

Web页面跟踪系统的设计与实现

刘凡陈康郑纬民《小型微型计算机系统》2005,26(9):1652-1656

随着Web的迅猛发展，许多用户开始关注如何有效跟踪特定网站和页面的更新情况．介绍一个基于Intranet的Web页面跟踪系统，该系统采用动态跟踪调度算法DSA；利用线程池技术提高带宽利用率；设计了一套分布式信息存储机制；并实现及时的信息分发．相似文献

3.

基于非内容信息的网络关键资源有效定位

刘奕群张敏马少平《智能系统学报》2007,2(1):45-52

网络信息的爆炸式增长，使得当前任何搜索引擎都只可能索引到Web上一小部分数据，而其中又充斥着大量的低质量信息．如何在用户查询无关的条件下找到Web上高质量的关键资源，是Web信息检索面临的挑战．基于大规模网页统计的方法发现，多种网页非内容特征可以用于关键资源页面的定位，利用决策树学习方法对这些特征进行综合，即可以实现用户查询无关的关键资源页面定位．在文本信息检索会议（TREC）标准评测平台上进行的超过19G文本数据规模的实验表明，这种定位方法能够利用20％左右的页面覆盖超过70％的Web关键信息；在仅为全部页面24％的关键资源集合上的检索结果，比在整个页面集合上的检索有超过60％的性能提高．这说明使用较少的索引量获取较高的检索性能是完全可能的．相似文献

4.

分布式爬虫的研究与实现

马蕾冯锡炜窦予梓高天铸朱睿吴衍兵《计算机技术与发展》2020,(2):192-196

网络中的数据蕴藏着大量有价值信息,在实际的项目需求中,为了实现能够自动的在网页上对大量数据的数据信息的收集、解析、格式化存储的过程,提出了基于分布式的网络爬虫技术。采用Nutch爬虫框架和Zookeeper分布式协调服务,配合高性能的Key-Value数据库Redis对数据进行存储,采用Solr引擎将抓取信息进行清晰地索引、展示。运用提取页面信息算法优化提取页面信息流程,通过关键词匹配优化算法根据指标从抓取的数据中获取指标相关数据。通过分布式集群的搭建,Nutch项目的实现,及大量数据的采集,验证了基于Nutch的分布式网络爬虫的可行性。通过页面解析流程实验分析,基于Nutch的分布式爬虫与其他爬虫多组实验数据对比结果表明,基于Nutch的分布式爬虫项目在性能和准确度方面都优于传统其他爬虫。相似文献

5.

基于数据挖掘的网络信息采集系统设计

王军《信息与电脑》2022,(22):160-162

网络信息采集的效率直接影响着用户查询信息的时新性,为了满足人们海量的数据需求,研究基于数据挖掘的网络信息采集系统。在系统总体结构设计中,基于hadoop分布式集群,形成中心化拓扑主从结构,负责网络信息的采集任务。获取网页源代码,计算网页更新概率,得到大规模平行网页信息;基于数据挖掘寻找信息关联关系,过滤无用信息;建立网络信息采集模块、变更管理模块和网站登录模块,利用爬取技术完成网络信息采集,实现系统设计。经实验论证分析,设计系统信息采集较快。相似文献

6.

基于Counting Bloom Filter的海量网页快速去重研究

吴家奇《电力大数据》2018,21(12)

随着网络技术和电力信息化业务的不断发展,网络信息越发膨胀,将导致互联网和电力信息网中存在海量网页冗余的现象,这类现象将会使数据挖掘、快速检索的复杂度加大,从而对网络设备和存储设备的性能带来了巨大的挑战,因此研究海量网页快速去重是非常有必要的。网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,其中基于同源网页的URL去重的研究已经取得了很大的发,但是针对海量网页去重问题,目前还没有很好的解决方案,本文在基于MD5指纹库网页去重算法的基础上,结合Counting Bloom filter算法的特性,提出了一种快速去重算法IMP-CMFilter。该算法通过减少I/0频繁操作,来提高海量网页去重的效率。实验表明,IMP-CMFilter算法的有效性。相似文献

7.

基于视频传感器网络的高效分布式跟踪方法

方武王典洪王勇《传感器与微系统》2014,(7):17-19,23

近年来为减少无线视频传感器网络的通信数据量从而节约能耗,一些研究引入高效分布式算法对目标进行跟踪。然而,常用的分布式跟踪算法采用信息矩阵进行数据融合来提高跟踪精度,数据通信量虽然比传递图像小,但依然比较耗能。针对这种情况,提出一种基于残差编码的一致性卡尔曼滤波跟踪方法,对信息矩阵采用符号编码策略,从而大量减少视频传感器节点之间数据交换量,实验证明:该方法在保证跟踪效果的同时可减少70%左右的能量消耗。相似文献

8.

链路约束的分布式网络监测模型 总被引：2，自引：0，他引：2

蔡志平殷建平刘湘辉刘芳吕绍和《计算机研究与发展》2006,43(4):601-606

分布式网络监测系统能够实时有效地收集网络性能数据,但收集过程受到链路延迟和路由跳数的约束．链路约束的分布式网络监测模型研究如何在链路约束下用最小的代价部署整个分布式网络监测系统;链路约束的演化网络监测模型研究在网络演化的情况下,如何用最小的更新代价重新部署监测系统使之满足链路约束．求取这两个模型的最优解的问题都是NP难的．通过指定权函数的形式,两个模型对应的最优化问题能够映射成带权的集合覆盖问题,采用贪婪策略能够得到近似比不超过ln n＋1的近似算法,其中n是被监测节点的数目．通过仿真实验还讨论了如何选择恰当的链路延迟约束值．相似文献

9.

遗传算法与蚂蚁算法的融合 总被引：156，自引：2，他引：156

丁建立陈增强袁著祉《计算机研究与发展》2003,40(9):1351-1356

遗传算法具有快速随机的全局搜索能力，但对于系统中的反馈信息利用却无能为力，当求解到一定范围时往往做大量无为的冗余迭代，求精确解效率低．蚂蚁算法是通过信息素的累积和更新收敛于最优路径上，具有分布式并行全局搜索能力，但初期信息素匮乏，求解速度慢，算法是将遗传算法与蚂蚁算法融合，采用遗传算法生成信息素分布，利用蚂蚁算法求精确解，优势互补，仿真表明取得了非常好的效果。相似文献

10.

基于大型网站的搜索引擎网页更新方法研究

谭艳霞徐珂《微计算机信息》2005,(26)

大型网站是网络信息的核心,其信息规模之大,更新速度之快是中小型网站不可比拟的,对大型网站网页搜索的好坏直接影响搜索引擎的整体性能。本文在分析分类网页更新策略的基础上,根据大型网站本身的特点提出了一种增量式信息更新方法。实验分析表明,这种增量式信息更新方法很大程度上提高了大型网站搜索引擎网页的更新效率。相似文献

11.

面向Web的信息收集工具的设计与开发 总被引：8，自引：1，他引：8

潘春华常敏武港山《计算机应用研究》2002,19(6):144-147

随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系统在综合使用Web页面间的链接关系和页面内容的基础上 ,增加了多层次的页面过滤模块 ,可用来收集特定领域内的Web页面 ;同时可采用多机并行收集的方法提高页面收集的效率 ;采用大型数据库存放元收集信息 ,并对收集到的页面进行压缩 ,能够支持海量数据的收集 ;动态更新机制的实施使得下载到本地的页面信息能够得到及时的更新。相似文献

12.

网络舆情分析中网页信息预处理方案的实现

李舒晨刘云李勇《广东电脑与电讯》2008,(10):30-33

网络舆情分析系统中,网页信息预处理方案的实现采用了基于网页结构分析的信息抽取技术和数据存储技术。结合HTML网页的内部结构,设计了一种基于HTMLDOM结构节点路径的网页信息解析模板,用于网页信息抽取。通过网页U1KL的特征研究建立了网页之间的联系机制,应用于数据库存取提高了效率。相似文献

13.

一种基于消息中间件的网页实时处理技术

周城葛斌蒋林承《数字社区&智能家居》2011,(10)

针对传统网页采集分析系统在实时性上的不足,提出了一种基于消息中间件的网页实时处理技术。该技术利用消息中间件在消息队列驱动流程中引入并行调度策略,既继承了传统网页处理系统的可靠性,又实现信息抽取、话题聚类和网页分类等模块的分布式并行处理,增强了系统的实时处理能力。实验证明该文提出的技术在舆情实时采集、处理中较传统方法实时性高。相似文献

14.

Self-maintaining web pages

M. Schrefl M. Bernauer E. Kapsammer B. Prll W. Retschitzegger T. Thalhammer 《Information Systems》2003,28(8):1005-1036

Data-intensive web-based information systems usually employ database systems to store the contents forming the basis for web page construction. Generating web pages on the fly, especially in peak times, can lead to severe performance problems. Thus, pre-generation of web pages has been suggested to be ready for prime time, allowing to reliably deliver several hundred pre-generated pages per second. Maintaining the consistency of these web pages with respect to changes within the database in an efficient way, however, represents a major challenge. This paper presents a novel approach for “self-maintaining” web pages that is, different to previous approaches, characterized by a simple (and thus, easy to maintain) database-to-web page mapping and very low page re-generation costs. This is achieved by utilizing fragmentation techniques from distributed databases, by allocating parameterized fragment classes to web page classes (rather than individual fragments to single web pages), and using the Extensible Markup Language (XML) as an intermediate layer between the database and the final web pages. 相似文献

15.

彝文网页信息采集技术研究

张建营王嘉梅汤雪胡刚《网络安全技术与应用》2014,(12):6-8

本文通过对中文网页采集流程、网络爬虫工作基本原理的分析,再结合彝文网页的特点,对彝文网页信息的采集技术进行了研究,通过聚焦网络爬虫来实现彝文网页信息的采集,并依此来建立一个内容全面的彝文网页信息资源库。相似文献

16.

分布式Internet信息收集系统的设计与实现

张书杰高清霞郭祥昊《计算机工程与应用》2001,37(8):47-48,55

Ｉｎｔｅｒｎｅｔ信息收集系统是搜索引擎的信息来源,它决定了搜索引擎的内容是否丰富,更新是否及时。文章提出了一种分布式并行信息收集系统,分析了它相对于传统集中式搜索的优越性,并描述了它的体系结构和实现方法。相似文献

17.

VN-KIM IE: Automatic Extraction of Vietnamese Named-Entities on the Web

Truc-Vien T. Nguyen Tru H. Cao 《New Generation Computing》2007,25(3):277-292

The most fascinating advantage of the semantic web would be its capability of understanding and processing the contents of web pages automatically. Basically, the semantic web realization involves two main tasks: (1) Representation and management of a large amount of data and metadata for web contents; (2) Information extraction and annotation on web pages. On the one hand, recognition of named-entities is regarded as a basic and important problem to be solved, before deeper semantics of a web page could be extracted. On the other hand, semantic web information extraction is a language-dependent problem, which requires particular natural language processing techniques. This paper introduces VN-KIM IE, the information extraction module of the semantic web system VN-KIM that we have developed. The function of VN-KIM IE is to automatically recognize named-entities in Vietnamese web pages, by identifying their classes, and addresses if existing, in the knowledge base of discourse. That information is then annotated to those web pages, providing a basis for NE-based searching on them, as compared to the current keyword-based one. The design, implementation, and performance of VN-KIM IE are presented and discussed. 相似文献

18.

基于SPI与VSM的Web访问控制与过滤系统的研究与设计 总被引：1，自引：0，他引：1

陈世强贺刚谢坤武《计算机应用与软件》2009,26(7):126-128

对用户请求的Web文本信息进行实时控制与过滤是信息安全的一个重要研究分支.基于Winsock SPI技术实现了一个Web访问控制与过滤系统.系统利用VSM模型计算网页间的相似度,采用URL规则和Web页内容审计的混合策略进行过滤.系统既能过滤新Web页,又能自动维护URL规则库,经多次测试效果良好. 相似文献

19.

基于Web的二手车交易系统的设计与实现

袁莹静陈婷陈龙周芷仪谢鹏辉《软件》2020,(4):195-199

随着经济社会的不断发展,数据信息呈现出爆炸式增长的特点,每个领域都包含了非常广泛的数据信息。在现在社会中,网页设计与数据库的结合密不可分。在网页设计上通过运用SQL语句与数据库的连接中,实现了信息的添加、删除、修改、查询等的功能,使得我们对网页设计有一定的了解。本文主要介绍通过运用Visual Studio软件和数据库软件,实现了二手车交易系统的网页设计,并对网页中相关功能的介绍。相似文献

20.

A personal Web page tailoring toolkit for mobile devices

Yung-Wei Kao Tzu-Han Kao Chi-Yang Tsai Shyan-Ming Yuan 《Computer Standards & Interfaces》2009,31(2):437-453

It is common to browse web pages via mobile devices. However, most of the web pages were designed for desktop computers equipped with big screens. When browsing on mobile devices, a user has to scroll up and down to find the information they want because of the limited screen size. Some commercial products reformat web pages. However, the result pages still contain irrelevant information. We propose a system to personalize users’ mobile web pages. A user can determine which blocks in a web page should be retained. The sequence of these blocks can also be altered according to individual preferences. 相似文献