首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 718 毫秒
1.
目前Web上大多是非结构化的信息,检索主要是通过基于体、协会在Web上通过DTD/Schema定义XML(Extensible Markup Language)文档,由于XML描述了结构化的信息,对XML文档的检索也与以往的搜索引擎不同.为此,本文设计了一个新的基于XML文档的智能信息检索原型系统ⅪIRC,给出了它的体系结构及功能,并对用户界面、索引机制、查询机制、检索结果概念聚类等问题进行了探讨.  相似文献   

2.
提出了一种面向HTML或XML描述的Web数据抽取模型,首先用STOCK把Web文档从Web服务器读下来,识别Web文档的表示格式,若是HTML格式,则先把HTML数据转换成XHTML(XML的子集)格式,然后对Web页进行修复后合并形成系列XML文档并存储,采用绝对路径和锚点(Anchor),利用XML数据格式的工具来检索相关数据,获取所需数据并构造XML输出,从而实现Web数据抽取过程。实验表明,该模型实现Web数据抽取是可行的,根据该模型的缺陷,提出了一个基于语义Web技术的信息抽取改进模型。  相似文献   

3.
基于XML的Web数据抽取方法的研究   总被引:1,自引:1,他引:0  
针对Web挖掘中Web数据的抽取问题,设计了一种基于XML的Web数据抽取方法。由于Web数据的最大特点是半结构化,所以采用XML(半结构化的数据模型)来解决传统的关系数据库不适合Web数据存储的问题,从而将XML的档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。由于Web数据的大量信息都与抽取无关,所以利用XSL过滤掉XML的无关数据,并进行实时抽取,最后将合并结果保存到XML档中。实验结果表明,此方法可以很好地解决Web数据的抽取和存储问题。  相似文献   

4.
XML数据的B+树存储实现及更新   总被引:1,自引:0,他引:1  
XML已成为Web数据表示和交换的标准,如何有效实现对于XML数据的存储、查询及更新操作是XML相关技术研究中的一个重要领域.本文简要介绍了基于模式匹配的XML数据库系统(DISXDBS)组成,重点研究了基于模式匹配的XML数据库系统(DISXDBS)上实现用B^+树存储XML文档以及对其进行查询、更新等简单操作,并对目前几种常见XML文档的存储策略进行比较.  相似文献   

5.
基于XML的Web半结构化信息抽取   总被引:1,自引:0,他引:1  
Web信息抽取是信息抽取技术在B/S体系中的新发展,在增量信息存储与搜索中有着广泛的应用。本文阐述的基于XML的Web半结构化信息抽取,是将Web表示层作为信息源,基于XML、JTidy数据清洗及Xquare-bridge等技术及开源项目,实现Web中半结构化的隐式信息点抽取,生成结构化、语义更清晰的表示及存储形式。  相似文献   

6.
文章叙述Web数据挖掘的概念、分类、技术等,重点讨论了基于XML语言的Web数据挖掘技术,解决了Internet上绝大多数非结构化甚至是无结构的、Web信息的组织结构性差而导致的Web数据挖掘困难的问题。  相似文献   

7.
为将原始的岩画信息转换为国际化的可持续研究的数字资源,通过对原始资源的分析和对国际流通标准的借鉴,设计了基于DC的岩画中文元数据标准,实现了该标准的RDF/XML描述,并且根据岩画元数据的特点和XML文档的结构化提出信息在关系数据库中的存储方案.研究实现了基于DC标准的岩画图像信息的表示和存储,使岩画信息成为可精确查询的网络流通的信息资源.  相似文献   

8.
XML文档作为一种半结构化数据,与关系数据库中存储的结构化数据存在一定的差异。本文通过分析XMLSchema的结构和语法,借鉴P-Schema的思想,提出了一种名为E-Schema方法用于XML模式到关系模式的映射,解决了多值元素、可选元素、组元素的映射问题,能够在关系数据库中完整的保存XML文档的结构信息和数据信息,并提高了查询效率。  相似文献   

9.
基于分类语义的Web信息检索系统   总被引:2,自引:0,他引:2  
在海量数据空间中快速、准确地获取用户所需Web信息成为检索系统研究的焦点.将一种全新的网页自动分类技术引入WWW信息抽取领域来解决网上信息有效获取的问题。设计一个基于分类语义的搜索引擎系统——SESC系统.通过Web数据抽取机制以及Web信息分类技术实现检索结果的分类和层次化展示,使得用户快捷地从WWW上获取所需信息.  相似文献   

10.
基于XML的信息发布与检索模型   总被引:2,自引:0,他引:2  
互联网应用广泛,Web上数据库信息发布和检索量迅速增加,而传统的数据模式不能满足Web的需求。为此,针对XML的优点,结合关系数据库的成熟技术,将XML数据模型映射到关系数据模型;此外,研究了存储策略及查询方式,提出了基于这种存储和查询方式下的Web信息发布和搜索模型。实践结果表明,该模型统一了存储和查询方式,实现了互联网上资源的统一,较好地解决了目前Web检索结果准确性和相关性不高的问题。  相似文献   

11.
由于网络资源的复杂性,通用搜索引擎已经不能满足用户信息检索的准确性需要;为了满足并针对特定领域或特定主题查询的特定用户群的要求,专业搜索引擎技术成为目前信息检索领域内一个具有实用价值的研究热点。针对专业搜索引擎,在分析了网页评测的基本问题和方法的前提下,提出了一种基于H ITS“综合价值”评价的改进算法。  相似文献   

12.
提出了一种综合利用图像和视频的文本信息和基于内容的视觉特征进行World Wide Web上图像视频信息检索的原型系统。在这个原型系统中,一个完整的Web上图像和视频信息的处理过程包括:(1)通过探索器从Web上自动收集信息;(2)在文本和视频特征两个域内同时进行分析;(3)图像和视频信息分类;(4)标定索引,进行快速检索。实验结果表明,利用这个系统,可以获得较高的视觉分类率。  相似文献   

13.
随着Internet的发展,Web上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给多媒体内容的检索,信息提取等计算机处理带来了巨大困难。针对信息提取后,网页的多媒体内容的不一致性,本文提出了一种Web网页多媒体信息提取的融合算法。该算法通过对图像和文本的语义融合,判断信息提取后的网页中的各种形态的内容是否一致,并通过网页中的文字更加准确地表示图片所传达的内容。对来自30个网站的307个网页进行测试后的实验表明,本文提出的方法是可行的。  相似文献   

14.
针对元搜索引擎中返回大量重复冗余信息导致结果显示代理负担加大、系统查准率降低的缺陷,结合Agent技术建立基于多Agent的元搜索引擎系统模型,从成员Agent的爬行能力值、检索文档与查询主题的相关度和查询响应时间三个方面综合衡量成员搜索引擎对于查询的重要度,并按降序排序,优先选择重要度最佳的若干成员搜索引擎进行智能调度和智能结果合成。实验结果表明,与传统元搜索引擎相比,这种基于奖励机制的智能元搜索引擎提高了检索效率和查询性能。  相似文献   

15.
目的为了有效地预测用户在信息检索过程中可能点击的检索结果,从而进行网页的智能推荐.方法采取网络日志挖掘的技术,通过词频信息和知网(HowNet)中词的概念计算模型计算网页文档间的主题相关度,再将该语义信息与统计模型计算的条件概率值相结合,以此作为网页推荐的依据.结果提出了一种检索推荐统计模型,并构建了相应的原型系统,实验表明该方法显著提高了推荐系统的准确率.结论这项技术有效地提高了推荐结果与用户信息需求的相关程度,使推荐系统的性能获得了较大地提高,可以很好的应用于信息检索的智能推荐服务领域.  相似文献   

16.
针对当前信息检索工具缺乏对知识的理解和处理能力,提出了一种基于智能Agent的用户个性化信息检索系统模型,通过多个Agent的协调工作为用户提供个性化服务。描述了该模型的系统结构及各功能模块的实现方法,分析了系统模型的工作流程,部分解决了信息检索中的文档相关性计算、搜索引擎的调度算法、数据库的构建等技术问题。  相似文献   

17.
Web搜索引擎评估技术研究   总被引:2,自引:0,他引:2  
搜索引擎是Web信息检索的有力工具,科学地评估搜索引擎不仅能够激励和推动搜索引擎技术提供者提供更好的技术支持,并且对搜索引擎技术的发展有很好的引导作用。本文简要介绍了搜索引擎评估技术发展状况,针对评估任务、评估指标等方面进行了具体分析,并对搜索引擎评估的发展方向和评估重点提出了建议。  相似文献   

18.
在研究Web搜索引擎发展的基础上,结合对校园网搜索引擎具体需求的分析,介绍了校园网搜索引擎系统整个框架的设计及关键技术.应用该搜索系统可以有效提高站内搜索效率.  相似文献   

19.
面向语义Web的RDF数据处理和应用   总被引:2,自引:1,他引:2  
利用Multi-Agents实现RDF数据的获取、存储和利用.信息收集Agent提取语义Web上用RDF语言描述的元数据,存储Agent将这些元数据存储在XML数据库或关系数据库中,推理Agent根据用户提交的查询关键词进行语义匹配及语义相关性扩展,查询Agent执行对RDF数据库的查询,并返回结果给用户,从而实现基于语义的Web信息检索服务.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号