首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 101 毫秒
1.
史树敏  刘东升 《计算机科学》2006,33(B12):141-145
面对日益激增的信息量,人们迫切希望能够拥有快速、便捷获取有用信息的技术或方法。信息检索及稍晚发展起来的信息抽取技术应运而生。本文旨在介绍并分析比较信息抽取与信息检索技术各自的发展历程、相关研究方法等重要问题,为笔者及相关研究人员今后研究提供一项基础性调研报告。  相似文献   

2.
随着互联网技术的快速发展,Web信息呈现爆炸性增长,人们发现用信息检索的方法不能及时的得到想要的信息,于是出现了信息抽取。在回顾Web信息抽取基本理论的基础上,该文对Web信息抽取技术进行较全面的综述,通过分析信息抽取的概念、信息抽取的类型和功能等进行介绍,以此有助于本研究继续向前发展。  相似文献   

3.
信息抽取研究综述   总被引:89,自引:8,他引:89  
信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。与信息检索不同,信息抽取直接从自然语言文本中抽取事实信息。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,其独特的发展轨迹———通过系统化、大规模的定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的有效性、快速NLP系统开发的必要性,都极大地推动了自然语言处理研究的发展,促进了NLP研究与应用的紧密结合。回顾信息抽取研究的历史,总结信息抽取研究的现状,将有助于这方面研究工作向前发展。  相似文献   

4.
信息抽取是-种帮助人们在海量信息源中迅速找到真正需要的信息的技术.该文从信息抽取的概念出发,辨析了与信息检索两者的不同之处,评述了信息抽取技术的发展趋势,并提出了信息抽取存在的问题和解决策略.  相似文献   

5.
提出了一种利用结点语义关系分析的新方法来优化自然语言信息抽取,以结点语义关系树和结点语义关系列表作为优先判断依据,在没有信息损失的前提下实现高效率的语义信息抽取。  相似文献   

6.
随着Internet的快速发展,网络已成为人们查询信息的重要渠道。Web作为巨大的数据源,从Web中提取知识是当前研究的热点之一。在这些海量信息中,大多都是基于HTML的。该文提出一种基于HTML结构的Web就业信息抽取模型。  相似文献   

7.
信息抽取技术的发展现状及构建方法的研究   总被引:8,自引:0,他引:8  
介绍了信息抽取(IE)技术的基本概念、信息抽取系统的抽取过程。对现有的信息抽取系统构建方法进行了分类和介绍,并对这些方法进行了讨论和比较,同时指出了构建中文信息抽取系统所需要解决的关键的基础问题。  相似文献   

8.
针对现有基于网页结构信息抽取技术的不足,提出一种基于确定性树自动机DTA(deterministic tree automaton)的信息抽取技术。其核心思想是通过将HTML文档转换成二叉树的形式,然后依据树自动机对待抽取网页的接收和拒绝状态进行数据的抽取。该方法充分利用了HTML文档的树状结构。依托树自动机将传统的以单一结构途径的信息抽取与文法推理两者相结合。经实验证明与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高。  相似文献   

9.
随着信息技术的快速发展,人们从网络上发布、获取信息也越来越多,但网络上浩大的信息量也使得人们从网络上抽取信息的难度也越来越大。如何从网络上海量的信息中找出对自己有用的信息,是人们关注的问题。在此背景下,该文设计了WEB信息抽取系统,改信息抽取工具提高了系统的灵活性,可以充分利用现有资源。  相似文献   

10.
本文分析了Web信息抽取的概念、特点,总结了Web信息抽取技术的分类、技术发展现状及其应用。描述了Web信息抽取的知识来源,并对Web信息抽取的几类典型方法进行了详细描述。  相似文献   

11.
张语晨  杨沐昀 《电脑学习》2012,2(1):29-30,34
研究了信息检索结果多样化的方法。首先实现了经典的检索结果重排序最大边缘相关(MMR)算法,进而设计了三种基于查询日志的子查询构造方法:单字向后扩展,双字向后扩展和双向子串扩展,并最终探讨了将这三种子查询构造方法分别与最大边缘相关算法相结合的使用策略。实验表明,采用上述方法实现的系统能明显提高信息检索结果的多样性。  相似文献   

12.
基于标记树对象抽取技术的Hidden Web获取研究   总被引:6,自引:0,他引:6  
目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该文提出了一套检索HiddenWeb信息的方法,给出了系统的框架结构,并详细讨论了实现的关键技术。系统采用新的基于标记树的对象抽取(Tag-Tree-basedObjectExtraction)方法自动地从Web页面中抽取HiddenWeb信息,然后在此基础上给出了结构化的HiddenWeb信息查询算法。文章最后对实验结果进行了讨论。  相似文献   

13.
介绍了多媒体图象数据查询和检索的系统结构;阐述了图象数据查询和检索的基本过程和相关技术;提出了图象分割、特征提取、相似匹配、快速存取的具体算法,并对它们进行了详细分析。  相似文献   

14.
基于语义的Web信息检索   总被引:4,自引:0,他引:4  
提出了基于语义的信息检索原型系统,通过建立在本体论基础上的语义分析和逻辑推理,初步实现了人机语义交互,使得计算机能够理解用户的查询意图,明确信息需求,不但可以保证信息检索的查全率,而且可以有效提高查准率,查询结果更加合理可用。  相似文献   

15.
针对传统信息检索在查询准确度方面的问题,在信息检索中引入了语义网的思想,对网络信息的进行语义描述,从而出现了语义信息检索。该文提出了一种语艾信息检索的框架,弃针对该框架结构,给出了实现语义检索的算法,可以实现对信息的精确检索。  相似文献   

16.
目前随着信息检索技术的不断深入,信息检索技术中的聚类分析也得到了不断的发展,特别是随着各种数据源的大量涌现,如图像数据,文本数据,DNA数据,时间序列数据,Web数据等等,聚类分析越来越受到重视,对聚类的研究已经成为信息检索领域中一个非常活跃的研究课题。论文以聚类分析方法为理论基础,利用面向对象编程技术完成了一个聚类软件,应用该聚类软件,可对信息实现快速检索,具有实用价值。  相似文献   

17.
由于不同的维吾尔文网站采用了不同的字符编码或不同的字库体系,使得单一的搜索引擎很难兼顾不同的维吾尔文网页信息.针对维吾尔文网页内容检索特点,提出了利用元搜索引擎完成网页信息采集,通过信息过滤技术从动态的信息流中抽取出符合用户个性化需求的信息条目,经去重后栽入采集数据库,通过与敏感信息库进行比对,发掘出发布特定信息的网页.  相似文献   

18.
基于Agent的分布式信息获取模型及其实现   总被引:4,自引:0,他引:4  
随着信息和网络技术的发展,信息系统在结构上逐渐趋于分布式。信息系统的分布性增加了数据管理的复杂程度,同时也对信息获取技术提出了更高的要求,以适应分布式系统的异构性。文章通过对现有分布式信息系统的特点和实际需求的分析,提出了一种基于Agent的分布式信息获取模型,并在此模型的基础上给出了具体实现。  相似文献   

19.
提出了“基于移动代理的网络信息检索系统”的系统方案,对这一信息检索系统的体系结构和功能模块进行了详细的分析和设计,同时将这一方案应用到局域网环境中,实现了采用移动代理对局城网上共事信息的检索,从而对本系统的可行性和有效性进行了验征。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号