首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 138 毫秒
1.
基于向量空间模型的文本过滤系统   总被引:64,自引:0,他引:64       下载免费PDF全文
文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议--文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空间模型的文本过滤系统.该系统由训练和自适应过滤两个阶段组成.在训练阶段,通过特征抽取和伪反馈建立初始的过滤模板,并设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值.该系统参加了2000年举行的第9次文本检索会议的评测,取得了很好的成绩,在来自多个国家的15个系统中名列前茅,其中自适应过滤和批过滤的平均准确率分别为26.5%和31.7%.  相似文献   

2.
开放式文本信息抽取   总被引:6,自引:2,他引:4  
信息抽取研究已经从传统的限定类别、限定领域信息抽取任务发展到开放类别、开放领域信息抽取。技术手段也从基于人工标注语料库的统计方法发展为有效地挖掘和集成多源异构网络知识并与统计方法结合进行开放式信息抽取。该文在回顾文本信息抽取研究历史的基础上,重点介绍开放式实体抽取、实体消歧和关系抽取的任务、难点、方法、评测、技术水平和存在问题,并结合课题组的研究积累,对文本信息抽取的发展方向以及在网络知识工程、问答系统中的应用进行分析讨论。  相似文献   

3.
文本情感分析   总被引:40,自引:2,他引:38  
赵妍妍  秦兵  刘挺 《软件学报》2010,21(8):1834-1848
对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.  相似文献   

4.
实体关系联合抽取作为信息抽取领域的核心任务,能够从非结构化或半结构化的文本中自动识别实体、实体类型以及实体之间特定的关系类型,为知识图谱构建、智能问答和语义搜索等下游任务提供基础支持.传统的流水线方法将实体关系联合抽取分解成命名实体识别和关系抽取两个独立的子任务,由于两个子任务之间缺少交互,流水线方法存在误差传播等问题...  相似文献   

5.
互联网科学信息技术的快速发展和进步使得人们对于互联网教育舆情监测系统的研究也越来越重视。本文概述了互联网教育舆情监测系统的内涵以及互联网教育舆情监测系统的主要结构组成,并分别从互联网信息采集与预处理技术、舆情关键信息抽取技术、文本表示与主题发现技术以及网络舆情内容分析四个方面进行互联网教育舆情监测系统技术探讨。  相似文献   

6.
文章描述了一个互联网舆情搜索分析系统的设计及实现方法。系统采用互联网搜索引擎(例如谷歌、百度、雅虎等)、RSS技术、网页信息结构化抽取等技术实现了对互联网敏感信息发现以及网络舆情信息的搜索分析。  相似文献   

7.
用于文本分类和文本聚类的特征抽取方法的研究   总被引:2,自引:0,他引:2  
文本信息处理已成为一门日趋成熟、应用面日趋广泛的学科.文本分类和聚类技术是应信息检索和查询需要而出现的自然语言处理领域的重要研究课题.面对急速膨胀的各种文本信息,通过使用文本分类和聚类技术,人们能对这些信息进行高效地组织和整理,以便于实现信息的准确定位和分流,从而提高用户查询和检索的效率.本文针对文本信息处理中最重要的研究方向--文本分类和聚类技术展开了研究,分析了特征抽取法在文本分类和文本聚类中应用的重要性,以及论证了为何要对文本进行特征抽取,最后分别阐述了用于文本分类和文本聚类的特征抽取方法.  相似文献   

8.
电子病历命名实体识别和实体关系抽取研究综述   总被引:2,自引:0,他引:2  
电子病历(Electronic medical records,EMR)产生于临床治疗过程,其中命名实体和实体关系反映了患者健康状况,包含了大量与患者健康状况密切相关的医疗知识,因而对它们的识别和抽取是信息抽取研究在医疗领域的重要扩展. 本文首先讨论了电子病历文本的语言特点和结构特点,然后在梳理了命名实体识别和实体关系抽取研究一般思路的基础上,分析了电子病历命名实体识别、实体修饰识别和实体关系抽取研究的具体任务和对应任务的主要研究方法. 本文还介绍了相关的共享评测任务和标注语料库以及医疗领域几个重要的词典和知识库等资源. 最后对这一研究领域仍需解决的问题和未来的发展方向作了展望.  相似文献   

9.
图像表示及在检索系统中的应用   总被引:1,自引:0,他引:1  
康寅  杨文川 《软件》2011,32(1):38-41
目前,网上流行的过滤和搜索系统主要是依靠文本内容,很少有图像搜索系统。广义的图像搜索引擎可以输入图像,从网络中搜索类似的图像及文本内容,免去了语言的障碍。常用的技术为基于内容的图像检索(CBIR),它是图像分析的一个的重要研究领域,也是目前搜索引擎技术的难点。造成图像分析与检索困难的原因是目前还没有标准的描述图像的方法,众所周知,图像相对于文本理解起来更为复杂,表达的信息也更为丰富。本文阐述了一种基于标题、颜色、形状等多种特征的图像信息表示方法,并利用文本分析、颜色直方图的颜色特征提取、图像边缘检测实现了对图片信息的展示与检索功能。  相似文献   

10.
实体属性挖掘(slot filling,SF)旨在从大规模文档集中挖掘给定实体(称作查询)的特定属性信息。实体搜索是SF的重要组成部分,负责检索包含给定查询的文档(称为相关文档),供后续模块从中抽取属性信息。目前,SF领域关于实体搜索的研究较少,使用的基于布尔逻辑的检索模型忽略了实体查询的特点,仅使用查询的词形信息,受限于查询歧义性,检索结果准确率较低。针对这一问题,该文提出一种基于跨文档实体共指消解(cross document coreference resolution,CDCR)的实体搜索模型。该方法通过对召回率较高但准确率较低的候选结果进行CDCR,过滤不包含与给定实体共指实体的文档,提高检索结果的准确率。为了降低过滤造成的召回率损失,该文使用伪相关反馈方法扩充查询实体的描述信息。实验结果显示,相比于基准系统,该方法能有效提升检索结果,准确率和F1分别提升5.63%、2.56%。  相似文献   

11.
杨哲  程学旗  王斌 《计算机工程与应用》2004,40(33):126-128,183
文本检索会议(Trec)是信息检索领域一年一度的学术交流和系统评测活动,本届Trec的WebTrack任务由命名网页发现/主页发现子任务和主题提取子任务组成。笔者在上届Trec的基础上,根据不同的子任务的需求,使用了不同的方法。在命名网页发现子任务中,锚文本、网页标题与网页内容是最重要的资源,而Ulr的目录层数对主页发现子任务中主页的判别有重要作用。多检索系统的投票机制,能大幅提高主题提取子任务的性能。  相似文献   

12.
针对当前信息检索中存在“信息过载”和“资源迷向”等问题,文章提出了一种基手知识库的智能搜索引擎设计架构,并阐述了架构的层次结构及关键技术,包括知识库构建、查询处理、智能spider、文本自动分类问题等。  相似文献   

13.
信息检索中相关实体发现综述   总被引:1,自引:0,他引:1  
实体是Web页面中的重要信息载体,用户通过搜索引擎进行信息检索中时一般想得到某个具体的实体,而不是某些文档的列表,因而信息检索中的相关实体发现研究就具有非常重要的意义。对信息检索中的相关实体发现的基本过程进行了综述,重点描述了相关实体发现的重要组成部分:全文检索、实体识别、实体分级,主页查找及其各部分所涉及到的关键问题。  相似文献   

14.
场景文字包含了重要的场景图像的语义信息。因此将场景图像中出现的文字抽取出来,将会对场景图像的内容分析、检索和浏览提供有益的帮助。提出的场景文字提取方法,是在边缘检测的基础上,使用分层块过滤的方法在不同尺度上过滤背景,产生场景文字区域,然后对聚合出来的文字区域根据笔划颜色和笔划宽度方面的特征进行二值化分割得到二值化文字图像,这些二值化后的文字区域图像可以作为OCR引擎的输入进行识别,从而达到提取场景图像语义信息的目的。分层块过滤的方法能较好地过滤背景聚合产生文字区域,利用文字的笔划特征也能有效地分割出文字笔划像素。实验结果也证明了方法的有效性。  相似文献   

15.
面向文本检索的语义计算   总被引:14,自引:1,他引:14  
赵军  金千里  徐波 《计算机学报》2005,28(12):2068-2078
随着信息社会尤其是互联网的发展,人们对文本检索的要求越来越高.作为对传统关键词匹配技术的改进,智能检索研究已经成为热点,并将是支撑下一代互联网的核心技术之一.将语义计算技术应用于文本检索,是智能检索的重要方向.文中在文本检索的两个关键技术(“标引”和“相似度计算”)中引入语义计算技术,用浅层语义来指导检索过程,提高检索准确率.针对“标引”技术,提出了语义树模型;针对“相似度计算”,基于语义张量的概念,结合自然语言处理的一些技术,提出三个可计算的窗口模型来近似语义张量的核心思想.以上工作在一定程度上实现了语义计算的功能.利用TREC数据集进行的评测表明,采用了语义计算技术后,文本检索的准确率可以提高10%左右.  相似文献   

16.
在web文档信息检索中,文档分类、文档过滤的质量一直是影响用户查询结果的关键。这篇论文将通过分析一些典型的权重函数的构造,提出一个基于文档信息空间的权重函数来计算调整文档中词元的权重,使文档的分类和过滤效率更高。  相似文献   

17.
在XML文档上进行全文本检索已经成为很多研究课题的基础问题,例如Web信息检索,信息抽取等。有效的XML索引结构对于加速检索速度是至关重要的,在文献[1]的基础上全面地构建和实现了一个可以有效的支持XML全文本检索的索引结构。实验表明提出的索引结构在索引构建时间、空间等性能指标上均有很好的表现。  相似文献   

18.
全文检索技术是智能信息管理的关键技术之一,Oracle Text作为Oracle的一个组件,提供了强大的全文检索功能,用Oracle做后台数据库,就可以充分利用其全文检索技术,构建复杂的大型文档管理系统。本文主要介绍了Oracle Text的体系结构及其在电子政务系统中的应用与实现,讨论了采用Oracle Text为组件进行电子政务全文检索应用系统的设计思想,并着重讨论了Oracle Text体系架构,在Oracle Text上如何实现全文检索做了某些研究,结合电子政务典型业务流程实例进行了具体实践的描述,对以后电子政务全文检索开发设计有一定的现实意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号