首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
面向主题的Web信息收集系统的设计与实现   总被引:7,自引:0,他引:7  
随着互联网信息的持续爆炸性增长,通用搜索引擎的信息覆盖率和检索精度都在不断下降,发展面向主题信息的专用网络信息检索工具已经成为趋势。文中提出的面向主题的Web信息收集系统是这类工具的核心部件,该系统采用文档矢量模型进行文档相关度计算,并结合页面链接的上下文信息过滤页面;借鉴并修改了Shark启发式查找算法来查找相关页面;可采用多机并行下载提高收集效率;并依据站点的重要程度进行动态更新。在一个面向Internet的计算机教学资源检索的搜索引擎中具体实现了这个Web信息收集系统,整个系统在低性能的台式机上就能运行,并可获得较高的属于指定主题的页面的收集精度和收集效率。  相似文献   

2.
本文设计实现了一种Web信息检索系统,面向有特定需求的特殊用户群,采用基于web站点处理的情报采集策略。先对各站点页面随机采样,提取出包含敏感信息页面的web站点,再采集敏感站点中的相关页面生成本地敏感资源库,并对库中的文本页面用改进的TFIDF算法分析处理,以满足用户的查询。该系统能够提高Web页面信息的检索精确度和检测更新率,并可据某一专题方向对Web站点进行简单的自动分类。  相似文献   

3.
基于Web信息组织模型的元数据检索技术   总被引:1,自引:0,他引:1  
高玉珠  刘瑞 《计算机应用》2006,26(Z1):89-90
针对目前互联网搜索引擎主要使用全文检索技术,无法从Web页面中提取元数据信息情况,设计了一个基于信息组织模型的Web元数据信息提取和检索系统.使用基于正则表达式的元数据信息提取模型,信息提取和索引程序不断从数量巨大的Web页面中提取元数据信息,对本地元数据库进行不断地更新.抽象了多种Web信息组织模型,设计了相应的信息检索模型,并且这些模型可以大范围地应用于提取Web站点的元数据,所采用的方法充分利用了Web页面的数据结构,避免了采用复杂的语法、语义分析,为面向多个领域的元数据信息检索做出了一定的研究和探索.  相似文献   

4.
Indi·Web是北京慧点科技公司推出的虚拟Internet系统管理软件,其主要工作原理是通过单机下载的方式,将互联网中的信息有选择的下载到本地,并按照用户的设置以新的方式进行存储,实现有序的本地镜像。1、快速:由于该系统能够预先将互联网中的信息下载到本地的网络中,就可以使用户通过10M/100M带宽的网络访问通常仅仅通过不超过1M带宽访问的信息。2、高效:根据定制,下载最需要的内容,所有的下载内容都存储在统一的数据库中,也就使后来的人们可以方便的根据类别/内容/全文检索来查询所下载的内容,对于常用的信息,能够极大的提供…  相似文献   

5.
对污染源信息进行收集分析的传统人工方法工作量大、效率低、统计周期长,实时信息更新慢。为解决上述问题,利用Ajax对页面局部刷新的思想,设计并实现了一种基于Ajax的Web污染源信息数据处理系统。系统运行结果表明,该系统能够对基础环境数据进行快速统计分析,并可以对污染源信息实时更新。同时,Ajax的应用,使得页面更新速度加快,访问效率得以提升。  相似文献   

6.
智能Web中文主题信息收集系统IRobot的设计   总被引:4,自引:0,他引:4  
本文介绍了智能Web中文主题信息收集系统IRobot的设计思想和方法。针对Web主题信息收集所具有的许多新特性, 系统采用了对待收集URL进行相关度预测为主, 对已收集页面进行相关度评价结合的收集机制。尤其在URL的相关度预测中, 深入考虑了Web主题信息结构和组织特性的多种因素, 综合提高了系统的性能。相比已有的研究, 系统的精度和收集效率更高, 且更为稳定, 并能够自动获得主题领域内重要资源的列表。  相似文献   

7.
离线阅读器是这样的一些实用工具,它能把WWW网点以及连接和图形一起,从Internet下载到硬盘上,这样,即使没有上网也仍然可以浏览这些下载内容。下载Web网点的全部或部分内容以后,有空时就可以以硬盘的速度浏览网点的本地备份。这类新软件更能让人们接受Web的慢速度,而且因为仅传输了你想要的信息,所以也节省了用户在线连接的费用。 一般来说,使用这些实用工具很简单:进入你想开始的Web页面的URL中,并指定是否保存所连接的页面和图形。选项设置能把离开始页面  相似文献   

8.
段青玲  华松青 《程序员》2001,(3):99-100
一.引言 当大家在因特网上漫游时,经常会发现某一个网站上包含了自己非常需要的大量信息,为了尽快地保存这些信息,需要用到机器人程序,那么,什么是机器人程序呢?机器人程序又称为蜘蛛、蠕虫或Web爬虫等等。它实际上是一个自动化程序,用于自动连接到Web页面,然后循着Web页面中的超级链接继续前进,从而在Web页面中漫游。同时,它将收集有用的信息,并保存下来。机器人程序有很多现成的客户端软件,你可以到有关的站点去下载。本文中,重点介绍如何用CGI编写服务器端的机器人程序。  相似文献   

9.
介绍了基于文档矢量模型进行文档相关度计算的面向职业教育的主题蜘蛛,并结合页面链接上下文信息对URL进行预过滤,可采用多机并行下载提高收集效率。在一个面向Internet的职业教育检索的搜索引擎中得到了具体实现,整个系统在低性能的台式机上就能运行,并可获得较高的职业教育页面的收集精度和收集效率。  相似文献   

10.
一、引宫在动态Web应用程序开发技术中,ASP、PHp、JSp技术在数据库信息发布方面的功能十分强大。但是它们是纯服务器端的技术,工作方式上存在明显的局限性。客户每次请求数据时都必须重新下载整个页面,造成大量的重复连接,而不能像客户机/服务器程序那样,可以有效利用本地缓冲区,对数据进行复杂加工和处理。在这种情况下,基于DHTML页面的DTC纯服务器端技术的有益补充。它可以程序中数据翩湘琳可饥而犷在HTTp会话已经断开的情况下,数据绑定技术能够通过客户端的数据缓存,对数据进行过滤、排序等操作。数据绑定是通过一组名为D代控件…  相似文献   

11.
Internet信息收集系统是搜索引擎的信息来源,它决定了搜索引擎的内容是否丰富,更新是否及时。文章提出了一种分布式并行信息收集系统,分析了它相对于传统集中式搜索的优越性,并描述了它的体系结构和实现方法。  相似文献   

12.
随着Internet的发展,基于B/S(浏览器/服务器)方式的信息管理平台逐渐成为企业信息化建设的一个新的热点.但是,网络的方便性同时也带来了非法的恶意访问和黑客攻击,造成信息的破坏和通讯的故障,给企业造成了极大的损失和威胁.网页作为Web程序的基本元素,实现它的安全性,将是最简洁和高效的解决方案.本文研究了如何在网页上加强安全的手段,提出了切实可行的新方法,进一步提高了信息系统的安全性.  相似文献   

13.
随着Internet的发展,基于B/S(浏览器/服务器)方式的信息管理平台逐渐成为企业信息化建设的一个新的热点。但是,网络的方便性同时也带来了非法的恶意访问和黑客攻击,造成信息的破坏和通讯的故障,给企业造成了极大的损失和威胁。网页作为Web程序的基本元素,实现它的安全性,将是最简洁和高效的解决方案。本文研究了如何在网页上加强安全的手段,提出了切实可行的新方法,进一步提高了信息系统的安全性。  相似文献   

14.
网页数据自动抽取系统   总被引:6,自引:0,他引:6  
在Internet中存在着大量的半结构化的HTML网页。为了使用这些丰富的网页数据,需要将这些数据从网页中重新抽取出来。该文介绍了一种新的基于树状结构的信息提取方法和一个自动产生包装器的系统DAE(DOMbasedAutomaticExtraction),将HTML网页数据转换为XML数据,在提取的过程中基本上不需要人工干预,因而实现了抽取过程的自动化。该方法可以应用于信息搜索agent中,或者应用于数据集成系统中等。  相似文献   

15.
互联网上主题信息的一种收集与处理模型及其应用   总被引:6,自引:0,他引:6  
互联网上的信息是社会状况的一种反映,可以被人们从多种不同的角度来关心,而有了计算机作为工具,这种“关心”的深度和广度就能够大大地拓展,提出一种模型,基于它实现的一套程序和过程能够针对人们关心的热点主题,系统地对网上的信息进行收集和分析,从不同的角度和层次得出互联网对该主题报道的强度,对社会科学类研究具有一定的参考价值,利用这个模型(和相应的系统),以2002年11月8日为中心,以“十六大”为主题,前后分别扩展半个月,对中国互联网上的信息进行了跟踪研究,得出了在这些天里和“十六大”相关信息占总信息量的7.3%;从2002年11月2日开始,“十六大”相关信息量逐日递增,在2002年11月20日达到最高等结论。  相似文献   

16.
一种基于Web浏览器的分布式应用系统的构造方法   总被引:3,自引:0,他引:3  
文章提出了一种利用Web浏览器插入程序(Plug-in)构造紧耦合的分布式应用系统的方法.该 方法适合于开发在因特网上或企业网内部运行的以数据处理为主的分布式应用系统.它充分 利用Web浏览器的功能,使得用户可以利用本地结点计算资源,方便地访问并加工远程结点或 本地结点的数据.文章通过举例说明了构造这类系统的方法.  相似文献   

17.
介绍了基于物联网的智能家居监管系统,通过Zig Bee无线网络实现对室内环境进行信息采集和控制。利用基于libev的服务程序采集来自各传感器模块,如温度传感器、湿度传感器等的数据,在液晶显示器上通过Qt图形用户界面显示数据采集情况。同时生成XML文件,传递到基于Go Ahead的嵌入式Web服务器,使用户可通过网络实时了解室内的环境情况。  相似文献   

18.
互联网化学信息资源查询系统的设计与制作   总被引:1,自引:0,他引:1  
在化学的研究和学习中为了更好地查询和利用互联网上的化学资源,需要提供一个方便、快捷的离线搜索软件。我们设计制作了“化学舵手”(Chemical Wheelman)查询系统。系统对Internet网上的化学网站进行了收索、筛选,建立了300多个国内外化学网站的离线查询系统。系统设计为全中文界面,并对国外英文化学网站进行了二级汉化与引导,达到使用方便、查询快捷、准确的目的。  相似文献   

19.
随着网络信息资源的迅速增加,对于主题Web文本信息的搜索与分类日益成为信息处理领域的一个重要问题。本文建立了一个面向化工领域的Web文本搜索与分类系统,该系统在crawler子系统搜集Web文档的基础上,利用支持向量机对网页进行二次分类,找出化工专业中文网页;然后利用向量空间模型,对分类好的专业网页进行多子类分类。与综合搜索引擎相比,具有速度快、搜索信息准确度高和具备学习能力的特点。  相似文献   

20.
针对互联网站点信息海量和结构复杂的趋势,推荐系统被用来协助互联网用户方便快捷地找到所需信息,培养用户忠诚度。Web挖掘技术在处理海量数据和稀疏数据上有着先天的优势,所以Web挖掘技术在推荐系统中得到了越来越广泛的研究和应用。基于Web挖掘的推荐系统所使用的主要技术有聚类、关联规则、序列模式等等。然而,这些技术往往不能在推荐的准确性和覆盖范围方面做到两全。综合这几种技术,取其优点去其缺点,提出了一种新的算法(AIR算法)。通过基于实际使用数据的详尽的实验评估,可以证明该算法能够在准确性和覆盖范围方面明显提高推荐系统的整体性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号