首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
网络爬虫技术是网络信息获取的重要手段,面向Web论坛的信息获取则是网络爬虫技术所面临的新课题.在分析和研究面向Web论坛信息获取技术的基础上,本文设计和实现了一种用于Web论坛信息获取的主题网络爬虫系统,根据Web论坛信息组织结构,提出了基于遍历策略的信息搜索技术;根据正文信息分布及论坛自身特点,提出了基于DOM与分块...  相似文献   

2.
随着越来越多的信息隐藏在Deep Web中,针对用户查询找出最相关的Web数据库成为亟待解决的问题。提出了一种基于Web数据库主题分布的方法用于Deep Web数据集成中的Web数据库选择。获取主题覆盖度形式的Web数据库内容描述,而后利用选定的Web数据库获取查询主题,最终由查询主题和主题分布矩阵来选择Web数据库。在真实Web数据库上的实验结果表明,该方法既取得了较高的查询召回率,也可有效降低数据库内容描述建立的代价。  相似文献   

3.
在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。在面向Web的主题句抽取的具体应用中,取得了较好的效果。  相似文献   

4.
网络已经成为人们获取知识的一个重要途径。然而面对巨大的Web资源库,用户若想获得所需要信息已不再是一件简单的事情。通用搜索引擎返回大量的无关信息.不能满足用户的特定信息检索需求。针对这个问题,Web信息检索领域出现了一个新的研究方向——主题驱动的Web资源发现。介绍了通用搜索引擎的基本结构、工作原理及现状。阐述了主题Web挖掘的研究背景、任务及目前研究技术的进展,并对其未来的发展方向进行了探讨。对通用搜索引擎和主题Web挖掘的关系进行了分析。  相似文献   

5.
基于主题的Web信息采集系统的设计与实现   总被引:13,自引:0,他引:13  
基于主题的Web信息采集是信息检索领域内一个新兴且有实用价值的方向,也是信息处理技术中的一个研究热点。文章分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。  相似文献   

6.
快速、准确获取BBS论坛主题已成为目前Web信息获取中一个极其重要的研究方向。针对已有的BBS论坛中有影响力主题计算方法的不足,提出了一种基于潜在语义分析的主题发现方法,其思想是借助计算回帖之间的相似度,综合时间、空间因素,对主题进行聚类,发现主题并加以实现。系统对BBS主题发现过程进行可视化和交互,从而更直观反映主题的变化过程,更好地验证了算法的有效性。  相似文献   

7.
Wikipedia一方面能够提供关于特定百科条目的概念性描述;另一方面,也通过分类系统将这些百科条目组织成一个概念网络.它对信息的广泛覆盖和有效组织使其成为了自动化知识获取的常用信息源.然而,仅仅依靠Wikipedia自身的信息,还不足以准确地刻画其内部概念间的关联性知识,而这是符号化知识表述的一个重要组成部分.因此,提出了一种基于多Web信息源的主题概念网络获取方法.它以Wikipedia的分类系统为基础,同时利用搜索引擎收集相关的Web信息作为关联性知识验证和发现的参照系,并通过集成信息检索和自然语言处理等领域的方法,实现了以给定的主题词为核心,在Wikipedia分类系统对应的概念网络中获取面向该主题的概念网络,同时网络内的概念间关系得到识别和标注.我们基于不同领域的主题词进行了实验,对实验结果的经验性评估展示了所获取的主题概念网络既能满足面向主题的要求,其内部的概念关联性知识又具备了一定的精度要求.  相似文献   

8.
针对目前没有通用藏文搜索引擎的情况,提出一种基于领域本体的面向主题的藏文信息爬取策略。策略首先根据藏文和藏文编码的特点,判断出藏文Web并进行映射转换。然后通过构建领域本体,进行概念相似性计算,得到领域主题相关性网页。实验结果表明,该方法能够自动发现领域内的主题相关资源,并且比基于关键词的藏文网页信息搜索能得到更好的查全率和查准率,可以作为藏文Web语义搜索研究的参考。  相似文献   

9.
为了获取分散Web页面中隐含信息,设计了Web信息抽取系统。该系统首先使用一种改进的HITS主题精选算法进行信息采集;然后对Web页面的HTML结构进行文档的数据预处理;最后,基于DOM树的XPath绝对路径生成算法来获取被标注结点的XPath表达式,并使用XPath语言结合XSLT技术来编写抽取规则,从而得到结构化的数据库或XML文件,实现了Web信息的定位和抽取。通过一个购物网站的抽取实验证明,该系统的抽取效果良好,可以实现相似Web页面的批量抽取。  相似文献   

10.
使用联合链接相似度评估爬取Web资源   总被引:1,自引:0,他引:1  
如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接相似度评估的爬行算法,该算法在评估链接的主题相似度时,联合使用了关于链接主题相似度的直接证据和间接证据.直接证据通过计算链接的锚链文本的主题相似度来获得,而间接证据则是通过一个基于Q学习的Web链接图增量学习算法获取.该算法首先利用聚焦爬行过程中得到的结果页面,建立起一个Web链接图.然后通过在线学习Web链接图,获取链接和链接主题相似度之间的映射关系.通过对链接进行多属性特征建模,使得链接评估器能够将当前链接映射到Web链接图的链接空间中,从而获得当前链接的近似主题相似度.在3个主题域上对该算法进行了实验,结果表明,该算法可以显著提高爬行结果的精度和召回率.  相似文献   

11.
用自适应机制改进Web信息缓存管理的性能   总被引:5,自引:1,他引:4  
目前,各种缓存(caching)技术被广泛应用于Web信息获取过程中,以求减少Internet的网络负载和提高响应速度,如何改进缓存技术从某种意义上成为制约Web信息获取中的特点,然后提出了采用自适应机制改进Web信息缓存管理性能的方法,同时给出了该方法的一些具体实现细节,该方法被应用于基于企业主题的Web信息获取系统(WebCapture)的设计开发过程中,自适应机制的Web信息缓存管理主要采用  相似文献   

12.
一种基于网络管理信息的安全系统设计与实现   总被引:1,自引:0,他引:1  
网络信息安全已成为互联网发展的最重要议题之一。网络信息服务不仅在数量上与日俱增,而且其传播方式也呈现出多样化。为方便有效地管制这些信息的传播,该文提出一个基于网络管理信息新思路实现的网络信息管制系统(NetCop),并详细描述了该系统及其主要模块的具体设计及实现方法。  相似文献   

13.
基于推-拉技术的Intranet信息发布模型   总被引:6,自引:1,他引:6  
介绍了信息的推送 拉取技术 ,并探讨了Intranet中信息的分类。在对Web页面信息分析的基础上 ,提出了一个采用信息推送 拉取技术的Intranet信息发布模型  相似文献   

14.
基于B/WS/DBS设备管理信息系统的设计   总被引:1,自引:0,他引:1  
杜娟  苏安静 《控制工程》2002,9(4):51-53
设计设备管理信息系统必须遵循一定的原则,只有遵循这些原则,设计出的系统才是合理的、高效的。介绍了设备管理信息系统基于长钢第二炼钢厂Intranet网络,采用B/WS/DBS模式,各工作站浏览器通过Intranet与Web服务器连接,并使用HTTP协议访问Web服务器,同时Web服务器作为中介,可使用户访问数据库服务器。软件设计采用ASP技术和数据库技术,建立动态的、交互的、高效的网络服务器应用程序。网站子网页设计为框架式结构,以便采取分级管理模式。实践证明,基于B/WS/DBS设备管理信息系统实现了设备资源的合理配置,很大程度上提高了企业设备管理水平。  相似文献   

15.
随着Web的迅猛发展,许多用户开始关注如何有效跟踪特定网站和页面的更新情况.介绍一个基于Intranet的Web页面跟踪系统,该系统采用动态跟踪调度算法DSA;利用线程池技术提高带宽利用率;设计了一套分布式信息存储机制;并实现及时的信息分发.  相似文献   

16.
远程教学系统中在线实验的设计和实现   总被引:1,自引:0,他引:1  
本文介绍一个基于Web信息与通信类课程过程实验教学系统,它可以在校内(甚至是校外)通过internet/Intranet访问服务器并进行实验。本文将以《数字图像处理》课程为例子,着重介绍怎样利用ASP和COM相结合的技术来设计和实现整个系统,以及实现实验的交互性,使师生在实验中身临其境的感受。  相似文献   

17.
陈冈  舒建文 《微型电脑应用》2007,23(11):57-58,61
介绍了Web信息搜索服务的运作模式,简要讨论了ASP的索引服务对象,提出了ASP结合索引服务构造基于In- tranet的Web信息搜索服务的具体实现方法。  相似文献   

18.
实现任意DBF数据库查询浏览的Java Applet   总被引:1,自引:0,他引:1  
有许多MIS系统是基于xBASE数据库开发的,大量信息资源以DBF文件的形式存在。因此解决好xBASE数据库与Web服务器的数据集成,是企业传统MIS向Intranet方式过度的关键之一。本文提出了一种用Java Applet实现不通过Web服务器而使客户端直接浏览服务器上DBF数据库信息的方法、设计思想及类的定义与实现。  相似文献   

19.
基于Java/CORBA的Web数据库访问方案   总被引:2,自引:0,他引:2  
Intranet应用程序中,数据库访问技术直接影响到程序的效率,传统的CGI和ASP技术难以实现高效率的跨平台访问。文章描述了一种基于JavaCORBA的分布式Web数据库访问方案,并以医院信息系统为应用背景,设计实现了基于ava/CORBA的预约挂号Web数据库访问方案。  相似文献   

20.
Web/Intranet环境下的可视化编程方法与实现   总被引:6,自引:0,他引:6  
该文在分析各种Web-DB实现方法的基础上,提出用Activeform实现Web/Intranet环境下的可视化编程的方法,并以入境人员住宿信息查询为例,对系统的设计和实现进行讨论。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号