共查询到20条相似文献,搜索用时 625 毫秒
1.
分布式Web信息采集系统的研究与设计 总被引:6,自引:0,他引:6
Web信息的急速膨胀,使得Web信息采集面临一个巨大的挑战。针对这一情况,实现了一个分布式Web信息采集系统,以提高一般Web信息采集的能力。文章论述了分布式信息采集的基本原理、分类、难点以及相应的对策,并就该分布式Web信息采集系统进行了仔细的剖析。最后,对分布式Web信息采集的发展作了一个展望。 相似文献
2.
3.
4.
5.
随着Internet的飞速发展,Web已经发展成为一个巨大的信息资源库,但是目前Web数据大都以HTML形式出现,这使得应用程序无法直接利用Web上的海量信息。针对这一问题,出现了Web信息采集技术。该文对信息采集技术进行了探讨,并在此基础上实现了一个基于Web的新闻采集系统,该系统可根据用户使用正则表达式编写的采集规则快速而精确的采集目标网页中的信息,保存在本地数据库中,用于内部使用或外网发布。 相似文献
6.
随着Intemet的飞速发展,Web已经发展成为一个巨大的信息资源库,但是目前Web数据大都以HTML形式出现,这使得应用程序无法直接利用Web上的海量信息。针对这一问题,出现了Web信息采集技术。该文对信息采集技术进行了探讨,并在此基础上实现了一个基于Web的新闻采集系统.该系统可根据用户使用正则袁达式编写的采集规则快速而精确的采集目标网页中的信息,保存在本地数据库中,用于内部使用或外网发布。 相似文献
7.
基于潜在语义索引的Web信息预测采集过滤方法 总被引:6,自引:0,他引:6
Web信息急速膨胀使有效定向采集特定领域信息成为网上信息检索中一个日益重要的研究方向.提出一种基于潜在语义索引的Web信息预测采集过滤方法.在样本文档集潜在语义索引对文档相似计算的基础上,构造出用户兴趣模型,判断页面相关性进行文本过滤.通过对Web站点结构分析、对未知网页的相关性预测来控制信息采集过程.在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源。 相似文献
8.
9.
ZHANG Kai 《数字社区&智能家居》2008,(32)
嵌入式Web Server(Embedded Web Server,EWS)技术是网络技术、Web技术和嵌入式技术相结合的产物。EWS系统与传统的Web应用系统相比,大大简化了系统的结构,并将信息采集和信息发布都集成到现场的测控设备中。EWS系统通过Web和嵌入式技术使接入Internet的各种设备或其它类型的子网具有远程监控、诊断和管理的功能。因此,嵌入式Web Server技术得以推广,并广泛应用于工业控制领域。 相似文献
10.
设计了基于ARM的嵌入式技术和Boa服务器实现的家用厨房信息Web监控系统,该系统包括前端厨房环境信息采集、控制端、网络传输和远程监控四个部分,利用因特网动态Web技术实现远程对家庭厨房安全状态的监控。 相似文献
11.
李娟 《电脑与微电子技术》2014,(5):77-80
当今万维网已成为一个庞大的资源库,其中包含海量的信息,同时也充斥大量垃圾信息。所以,如何有效地采集Web信息是当前研究的热点问题。通过研究Web信息采集技术和NekoHTML,介绍如何使用NekoHTML进行Web信息采集的方法。 相似文献
12.
基于元搜索引擎的个性化Web信息采集 总被引:4,自引:0,他引:4
为了减少传统Web采集系统网络资源的耗费,并增强其个性化支持,结合用户兴趣向量模型,将元搜索引擎技术应用到Web信息采集领域中,设计一个基于元搜索引擎的个性化Web信息采集系统.该系统通过调用成员搜索引擎发现与用户兴趣相关的目标Web站点,通过爬虫程序采集目标站点上的Web页面内容.在发现兴趣站点方面更具有针对性,能有效减少爬虫的数量.重点研究了系统的体系结构、个性化Web采集的工作流程,最后给出了该系统的应用场合. 相似文献
13.
为了获取分散Web页面中隐含信息,设计了Web信息抽取系统。该系统首先使用一种改进的HITS主题精选算法进行信息采集;然后对Web页面的HTML结构进行文档的数据预处理;最后,基于DOM树的XPath绝对路径生成算法来获取被标注结点的XPath表达式,并使用XPath语言结合XSLT技术来编写抽取规则,从而得到结构化的数据库或XML文件,实现了Web信息的定位和抽取。通过一个购物网站的抽取实验证明,该系统的抽取效果良好,可以实现相似Web页面的批量抽取。 相似文献
14.
提出了一个基于多线程并行的增量式Web信息采集结构模型,并加以实现,该模型以线程并行的方式对Web页面同时采集,实现了全面、高效并且灵活的信息搜集,在系统实现过程中,采取Java语言中最新的特性、独特的URL调度策略保证了各个线程时间的下载并行与互不相交,页面分析过程为各个线程源源不断地提供下载源,而指纹判别算法保证了并行采集过程中的同步,有效地去除了冗余。对该系统作了测试,实验证明,该系统能有效地提高信息采集性能。 相似文献
15.
可逆信息采集系统为单向采集模块,其采集范围不可控,导致采集丢包率增加。为此,设计基于C/S架构的双重加密可逆信息采集系统。搭建STM32F103VET6主控制器,接入Wi-Fi加密芯片,建立双重加密及采集指令集群,利用Web应用软件的综合C/S架构,建立可逆信息采集功能模块,关联C/S架构无线传输数据库,采集双重加密可逆信息。测试结果表明:设计系统的采集丢包率在2%以下,信息的采集和维护效率较高,具有较高的应用价值。 相似文献
16.
网络媒体监控系统需要对部分网站进行自动身份认证和网页采集.受到Web自动化功能测试的启发,文中提出了基于JSSh(JavaScript Shell Server)实现身份认证网站发布信息采集方案.最后通过实验证明,与重构身份认证过程数据包交互方式相比,基于JSSh实现身份认证网站发布信息采集的普适性更强,并且实现过程更为简单.实验表明,该方案身份认证成功率高,采集效率也符合网络媒体监控系统对于信息采集实效性的要求. 相似文献
17.
一种物联网智能家居系统的研究 总被引:1,自引:0,他引:1
智能家居是物联网的一个重要应用领域.针对智能家居的应用需求和特点,设计了一种基于B/S架构的智能家居管理系统.该系统采用ZigBee无线网络实现对各类家居设备的信息采集和指令控制,并通过家庭网关与基于SQL Sever 2005数据库管理系统的数据库服务器进行实时数据交互.在Web站点服务器中搭建应用ASP.NET技术的Web站点,采用ADO.NET技术与数据库服务器进行数据交互.用户可通过Web浏览器访问上述Web站点,实现对智能家居系统的应用. 相似文献
18.
用户个性化Web采集技术与教学资源自动采集 总被引:1,自引:0,他引:1
对Web信息采集技术作了深入研究,提出了一种基于用户个性化的Web信息采集模型,从网站上对教学资源进行快速的自动采集,并将采集结果存入本地机文件系统,以满足用户对教学资源个性化的需求. 相似文献
19.