首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 46 毫秒
1.
2005年度863信息检索评测方法研究和实施   总被引:1,自引:0,他引:1  
本次863中文信息检索评测的目的是检测互联网环境下大规模数据的中文信息检索技术的研究现状和系统有效性,中文与接口技术评测组综合考虑了目前信息检索面临的难点以及中文信息检索具有的特点设计了本次信息检索评测,本文详细描述了本次评测的组织过程,包括查询条件设计,语料库情况,标准答案查找方法以及评价指标和评测软件的介绍,通过对参评队伍的结果数据进行分析并结合查询条件的类型,本文还讨论了现有检索技术的优点以及存在的不足.  相似文献   

2.
在2005年863信息检索评测中,我们主要尝试了采用入链接描述文字,以及我们在去年已使用的词对检索方法.由于只能提交一组自动方法检索的结果,我们的手工查询以及自动处理查询两组结果,都采用了比较稳定的词对检索参数,以及有比较一致的良好效果的入链接描述方法.就我们在自己构建的训练集以及提交的两组结果的实际效果的评测来看,我们的方法对用户查询词的精确性有比较高的要求,并且词对和入链接描述文字都能提高检索的效果.  相似文献   

3.
首先用向量空间模型工具Lucene从全部网页正文信息中检索,再用语言模型工具Lemur对结果集进行重排序,然后将两次的结果进行融合,返回融合结果的前1000篇文档作为最终结果集.构造查询输入时,从主题的<title>字段和<desc>字段选择关键词,并依据tf*idf的思想对关键词赋予权值.对正式评测的50个主题集检索,获得的三项评价指标为程序自动构造查询时,MAP=0.3107,P@10=0.624,R-Precision=0.3672;人工构造查询时,MAP=0.3538,P@10=0.684,R-Precision=0.4078.  相似文献   

4.
信息抽取研究综述   总被引:89,自引:8,他引:89  
信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。与信息检索不同,信息抽取直接从自然语言文本中抽取事实信息。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,其独特的发展轨迹———通过系统化、大规模的定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的有效性、快速NLP系统开发的必要性,都极大地推动了自然语言处理研究的发展,促进了NLP研究与应用的紧密结合。回顾信息抽取研究的历史,总结信息抽取研究的现状,将有助于这方面研究工作向前发展。  相似文献   

5.
已有的大量生物医学文本为人们提供了充足的资料,但却没有足够好的工具来帮助人们从中获取信息和知识。而命名实体识别则在信息检索、信息抽取及知识发现等这样的应用中起着很重要的作用。本文基于JNLPBA生物命名实体识别任务,简要介绍了目前几种在生物医学文本中常用的基于机器学习的命名实体识别模型,并进行比较及常规讨论,同时也提供了一些相关的背景信息。  相似文献   

6.
语言模型的建立对挖掘句子内部语义信息有着直接的影响,为了提高中文命名实体识别率,字的语义表示是关键所在.针对传统的中文命名实体识别算法没有充分挖掘到句子内部的隐藏信息问题,该文利用LSTM提取经过大规模语料预训练生成的字向量特征,同时将词向量预测矩阵传入到字向量特征提取阶段,通过矩阵运算融合为词向量特征,并进一步利用C...  相似文献   

7.
传统的命名实体识别方法是将大量手工制定的特征输入到统计学习模型中以实现对词语的标记,能够取得较好的效果,但其手工特征制定的方式增加了模型建立的难度。为了减轻传统方法中手工特征制定的工作量,首先对神经网络语言模型进行无监督训练以得到词语特征的分布式表示,然后将分布式的特征输入到深度信念网络中以发现词语的深层特征,最后进行命名实体识别。该方法在前人研究的基础上利用深度信念网络对神经网络语言模型进行了扩展,提出了一种可用于命名实体识别的深层架构。实验表明,在仅使用词特征和词性特征的条件下,该方法用于命名实体识别的性能略优于基于条件随机场模型的方法,具有一定的使用价值。  相似文献   

8.
张栋  陈文亮 《计算机科学》2021,48(3):233-238
命名实体识别(NER)旨在识别出文本中的专有名词,并对其进行分类。由于用于监督学习的训练数据通常由人工标注,耗时耗力,因此很难得到大规模的标注数据。为解决中文命名实体识别任务中因缺乏大规模标注语料而造成的数据稀缺问题,以及传统字向量不能解决的一字多义问题,文中使用在大规模无监督数据上预训练的基于上下文相关的字向量,即利用语言模型生成上下文相关字向量以改进中文NER模型的性能。同时,为解决命名实体识别中的未登录词问题,文中提出了基于字语言模型的中文NER系统。把语言模型学习到的字向量作为NER模型的输入,使得同一中文汉字在不同语境中有不同的表示。文中在6个中文NER数据集上进行了实验。实验结果表明,基于上下文相关的字向量可以很好地提升NER模型的性能,其平均性能F1值提升了4.95%。对实验结果进行进一步分析发现,新系统在OOV实体识别上也可以取得很好的效果,同时对一些特殊类型的中文实体识别也有不错的表现。  相似文献   

9.
佘俊  张学清 《计算机应用》2010,30(11):2928-2931
为了能快速、准确地将分散在Web网页中的音乐实体抽取出来,在全方位了解音乐领域中命名实体的特征的基础上,提出了一种规则与统计相结合的中文音乐实体识别方法,并实现了音乐命名实体识别系统。通过测试发现,该系统具有较高的准确率和召回率。  相似文献   

10.
第六届中国健康信息处理会议(China Conference on Health Information Processing,CHIP2020)组织了中文医疗信息处理方面的6个评测任务,其中任务1为中文医学文本命名实体识别任务,该任务的主要目标是自动识别医学文本中的医学命名实体。共有253支队伍报名参加评测,最终37支队伍提交了80组结果,该评测以微平均F1值作为最终评估标准,提交结果中最高值达68.35%。  相似文献   

11.
文中揭示了专业信息检索工具的原理及实现方法.网络信息检索技术是检索自动化专业信息的重要方法,也是计算机应用方面的一项重要技术.网络信息工具的实现是一项复杂的技术,在该工具系统的核心部分包含有大型数据库的建立和网络编程实现技术.数据的采集技术维持着大型数据库的数据容量和数据库内容的不断更新,以编程技术的提高来完成检索的准确性目标.  相似文献   

12.
《Computer》1980,13(9):41-56
Advances such as specialized parallel hardware and new algorithms for text searching will improve the effectiveness of information retrieval systems.  相似文献   

13.
信息安全涉及国家主权,是国家命脉所系。随着基于通信和计算机网络的信息系统在政治、经济、军事等部门的广泛应用,现代化社会对信息系统的依赖越来越大。信息系统一旦受到破坏,不仅会导致社会混乱,还会带来巨大的政治、经济和军事损失。世界主要工业国家中,每年因计算机网络犯  相似文献   

14.
本文介绍了网络信息检索的特点、利用计算机网络从国内外现有的信息检索系统快速查找信息的方法。  相似文献   

15.
本文介绍了网络信息检索的特点、利用计算机网络从国内外现有的信息检索系统快速查找信息的方法。  相似文献   

16.
音频信息检索   总被引:10,自引:0,他引:10  
回顾了国内外现行的音频信息检索方法,分析了常见的音频数据处理技术,包括语音识别技术和基于内容的音频检索技术,提出了基于内容的音频检索的一般方法,并指出了相应研究中的关键问题。  相似文献   

17.
查询词之间的距离较为接近的文档,相关的可能性更大,将这种距离信息用于信息检索模型的构造可有效提高检索的性能。然而直接估计查询词在文档中的距离需要大量的训练文本,且计算复杂度高。该文提出了一种结合句子级别检索的信息检索模型,将文档分为若干个窗口,通过计算句子和查询的相关度考察查询词在给定窗口中的共现性,该方法可增大那些查询词彼此靠近的文档的相关度,从而使得检索模型可返回更为相关的文档。标准数据集上的实验结果表明所提出的模型可以取得较好的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号