首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 62 毫秒
1.
基于XML和N层VSM的Web信息检索   总被引:1,自引:1,他引:1  
基于XML文档格式良好、层次清晰,可以方便地操纵、分析其结构的特点。文中在将Web上的HTML文档转化为XML文档的基础上,通过Java中的DOM树,分析文档的层次结构。把文档分为层次化的文本段,对传统的VSM算法进行改进,把每个文本段转换为空间向量,实现了N层VSM算法,通过试验证明,改进后算法的查全率和查准率都要优于传统的VSM算法。  相似文献   

2.
基于N层向量空间模型的信息检索算法   总被引:14,自引:0,他引:14  
N层向量空间模型在传统向量空间模型的基础上提出了的一种新的信息检索算法模型,这种模型将一篇文档从逻辑上划分为N个相对独立的文本段,然后按照文本段的内容建立文本特征向量以及文本权值向量,在此模型的基础上,更为精确地定义了特征值向量和相似度的计算方法,使之能比较好地适应文档集合的动态扩充,理论分析和实验结果表明,基于此模型实现的信息检索算法具有较快的查找速度和较高的查准率。  相似文献   

3.
分析了传统向量空间检索模型在Web信息检索中的不足,给出了基于N-Level向量空间模型,这种模型是将一篇文档从逻辑上划分为N个相对独立的文本段,然后按照文本段的内容建立文本特征向量以及文本权值向量,在此基础上可以更加精确地定义特征值向量和相似度的计算方法,使之能比较好地适应文档集合的动态扩充。同时进行了两种模型算法时间的复杂度的比较分析。理论分析和实验结果表明,基于此模型实现的信息检索算法具有较快的查找速度和较高的查准率。  相似文献   

4.
N层向量空间模型在Web信息检索中的应用   总被引:2,自引:0,他引:2  
在传统向量空间模型的基础上,提出一种新的信息检索算法模型——N层向量模型。此模型应用在Web信息检索上,能较好地适应文档集合的动态扩充。  相似文献   

5.
仲华  崔志明 《微机发展》2007,17(7):49-52
在分析了传统索引技术的缺陷的基础上,提出了一种基于XML架构信息抽取的多层向量空间的模型,重点阐述了如何建立一个基于XML的Web信息抽取平台,从构造知识库、网页优化和信息抽取这三方面进行研究,并阐述了基于XML的多层向量空间模型及其形成。通过这种技术不仅使网页内容得到了清晰的剖析和抽取,更能大大提高对Web网页文档检索效率和准确率。目的在于寻求一种更为高效简洁的检索方法。  相似文献   

6.
在分析了传统索引技术的缺陷的基础上,提出了一种基于XML架构信息抽取的多层向量空间的模型,重点阐述了如何建立一个基于XML的Web信息抽取平台,从构造知识库、网页优化和信息抽取这三方面进行研究,并阐述了基于XML的多层向量空间模型及其形成。通过这种技术不仅使网页内容得到了清晰的剖析和抽取,更能大大提高对Web网页文档检索效率和准确率。目的在于寻求一种更为高效简洁的检索方法。  相似文献   

7.
韩如冰  叶得学 《软件》2012,33(10):103-105
向量空间模型是以索引项权重为核心的模型,索引项权重对文本分类、检索的效果起着决定性的作用.文中提出了一个基于关键词的权重改进传统向量空间模型的权重算法.基于改进索引项权重的向量空间模型除了考虑原有索引项权重还考虑了文档中关键词的权重.通过特定领域FAQ的检索测试结果表明,改进的算法很大程度上提高了检索的查准率、查全率.  相似文献   

8.
向量空间模型是以索引项权重为核心的模型,索引项权重对文本分类、检索等的效果起着重要的作用。文中使用了一个基于关键词的权重,并利用它改进传统向量空间模型的权重算法。改进后的模型综合考虑原有索引项权重和文档中关键词的权重。在特定领域FAQ的检索中作测试实验,结果表明,改进的方法提高了检索的查准率、查全率。  相似文献   

9.
向量空间模型是以索引项权重为核心的模型,索引项权重对文本分类、检索等的效果起着重要的作用。文中使用了一个基于关键词的权重,并利用它改进传统向量空间模型的权重算法。改进后的模型综合考虑原有索引项权重和文档中关键词的权重。在特定领域FAQ的检索中作测试实验,结果表明,改进的方法提高了检索的查准率、查全率。  相似文献   

10.
本文在N层向量空间模型和主题树模型的基础上,通过分析两个模型的分层特性,提出了一种Web主题检索锋法。实验证明,在主题检索方面,该算法具有较快的速度和较高的查准率。  相似文献   

11.
随着Internet的发展,以HTML格式显示的Web数据越来越不适应新的发展需求,而用来描述和存储数据的XML语言有着许多优于HTML的技术,于是将HTML格式的数据用XML格式表示出来,是现在网络应用中需要解决的问题。这里介绍的基于Web的HTML到XML数据转换方法能够有效地把HTML格式的文件转换成XML(XHTML)格式的文件。  相似文献   

12.
伴随岩心图象数字化的普及,岩心图片信息的查询、浏览、分析和处理已经成为油气勘测部门日益关注的课题之一。XHTML相对于传统的HTML,弥补了后者兼容性差,应用范围有限等缺陷。在XTHML的基础上结合XML和Active X控件,可以扩展站点的数据处理能力和图片处理能力。根据油气勘测部门的实际需要,本文设计并实现了一种基于XHTML和XML岩心图文信息综合管理系统。  相似文献   

13.
在扩展空间向量模型(VSM)的基础上设计并实现了一种Web服务发现机制。该机制结合Web服务语法和结构信息,利用相似度计算实现Web服务的发现。系统通过分析Web服务描述文档结构特点,改进现有的VSM模型,并加入WordNet扩展同义词相似概念,使得语义上等价的词被映射到相似的特征向量上,消除存在歧义的上下文,定义Web服务语法相似度函数,实现Web服务潜在语义信息的进一步挖掘。实验评测和分析表明,基于扩展VSM的方式使Web服务发现的查准率提高了9.7%,错误率降低了8.5%。  相似文献   

14.
研究Web信息提取技术,提出数据获取、规则定义和规则执行3个步骤的基于XML的半结构化Web信息提取方法,为进一步满足Web信息提取提供了一种高效的新方法.  相似文献   

15.
仇涵周明全  耿国华 《微机发展》2005,15(10):138-140,143
传统的三层Web体系结构在可读性、可扩展性、使用复杂性和防火墙穿透性上存在缺陷,为此文中提出了一种新型的基于XML—RPC的分布式Web体系框架模型,并与传统的Web体系结构的特点进行比较与分析。结果表明该框架模型简单、高效、易扩展,并且能穿过防火墙使用SLL加密。  相似文献   

16.
因特网给我们提供了巨大的信息量,在信息量极其丰富的Web资源中,蕴涵着大量有用的知识信息.信息爆炸而知识匮乏是当今人们所面临的一个很重要的问题.通过搜索引擎来查找信息将不容易定位到用户最感兴趣的数据上.而通过wleb信息抽取的自动化实现,可以提高信息获得的效率.信息抽取可以从网络上分析和发现有用的信息,废弃冗余的数据,提取用户知识领域的知识.本文分析了基于XML的web信息提取,讨论了相关技术在Web信息抽取中的应用并建立了相应的Web信息抽取摸型,通过自动学习来获取信息抽取规则,实现Wleb信息的自动提取.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号