首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 46 毫秒
1.
2005年度863信息检索评测方法研究和实施   总被引:1,自引:0,他引:1  
本次863中文信息检索评测的目的是检测互联网环境下大规模数据的中文信息检索技术的研究现状和系统有效性,中文与接口技术评测组综合考虑了目前信息检索面临的难点以及中文信息检索具有的特点设计了本次信息检索评测,本文详细描述了本次评测的组织过程,包括查询条件设计,语料库情况,标准答案查找方法以及评价指标和评测软件的介绍,通过对参评队伍的结果数据进行分析并结合查询条件的类型,本文还讨论了现有检索技术的优点以及存在的不足.  相似文献   

2.
2005年863网页检索ICST评测报告   总被引:1,自引:0,他引:1  
2005年863评测任务是在CWT100G这个90G的数据集上检索相关网页.评测给出了50个包含title、desc、narr的主题,要求根据这些主题自动和人工生成查询.ICST在这次评测中使用了倒排索引技术给数据集建索引,通过给多个查询调整权重和多个文档查询域调整权重的方法,综合给出网页的得分.2005年的评测结果显示,排在最前的一些网页大部分是相关网页,前10个结果的准确率超过了50%,召回率也达到了30%以上.评测结果也表明,手工选词生成查询的结果要优于自动生成的查询.  相似文献   

3.
本文主要介绍我们参加863信息检索评测的情况.我们的信息检索系统采用基于语言模型的信息检索方法,将命名实体技术运用在查询向量的构造中,利用基于链接分析的PageRank算法计算文档的先验概率,并在自动查询中采用了相关反馈技术.文章还介绍了系统构成的软硬件环境及相关评测数据,给出了对待自动查询和人工查询的不同策略,并通过实验结果的比较,分析了中文信息检索中比较有效的方法,最后给出了系统存在的不足以及今后改进的方向.  相似文献   

4.
2005年度863计划中文信息处理与智能人机接口技术评测于2005年9月20-22日举行.本次评测涉及机器翻译、语音识别、信息检索三大类技术.本文给出了此次评测的组织过程、参评单位、评测方案、数据准备、结果分析等各方面总体情况,更详细的情况在本论文集收集的各分项评测报告中给出.与往年的863评测相比,本次评测的主要特点是全面采用了国际上通行的网上评测的方式,提供了大量的训练数据,并且在评测研讨会上为参评单位提供了更加充分的交流机会.  相似文献   

5.
首先用向量空间模型工具Lucene从全部网页正文信息中检索,再用语言模型工具Lemur对结果集进行重排序,然后将两次的结果进行融合,返回融合结果的前1000篇文档作为最终结果集.构造查询输入时,从主题的<title>字段和<desc>字段选择关键词,并依据tf*idf的思想对关键词赋予权值.对正式评测的50个主题集检索,获得的三项评价指标为程序自动构造查询时,MAP=0.3107,P@10=0.624,R-Precision=0.3672;人工构造查询时,MAP=0.3538,P@10=0.684,R-Precision=0.4078.  相似文献   

6.
基于链接的方法进行Web信息检索的TREC实验研究   总被引:1,自引:0,他引:1  
本文通过TREC实验研究基于链接信息的检索对Web信息检索的影响,包括使用链接描述文本,链接结构以及将基于链接的方法和传统基于内容检索的方法合并。得到如下结论:首先,链接描述文档对网页主题的概括有高度的精确性,但是对网页内容的描述有极大的不完全性;其次,与传统检索方法相比,使用链接文本在网页定位的任务上能够使系统性能提高96% ,但是在信息查询任务上没有帮助;最后,将基于链 接信息的检索与传统的基于内容检索技术合并,在网页入口定位任务上总能将系统性能提高48%到124.8% ,而对特定信息查询任务也能在一定程度上改善检索效果。  相似文献   

7.
2005年度863机器翻译评测方法研究与实施   总被引:3,自引:2,他引:3  
为了能够全面了解国内外机器翻译技术的现状,促进机器翻译技术的研究,2005年度863计划机器翻译评测于2005年9月举行.本次评测进行了汉英、英汉、汉日、日汉、日英、英日6个语言方向,两种类型的评测以及汉英词语对齐的评测.本次评测采用了网上评测的形式,利用基于N-gram的NIST、BLEU以及人工评测方法对各系统的结果进行评测.本文给出了此次评测的组织、准备、过程、结果及分析.为国内外研究单位在机器翻译方面的进一步研究提供了数据.  相似文献   

8.
文档检索中句法信息的有效利用研究   总被引:1,自引:0,他引:1  
利用词项依存关系来改进词袋模型,一直是文本检索中一个热门话题。已有的定义词项依存的方法中,有两类主要的方法一类是词汇层次的依存关系,利用统计近邻信息来定义词项依存关系,另一类是句法层次的依存关系,由句法结构来定义词项依存关系。虽然已有的研究表明,相对于词袋模型,利用词项依存关系能够显著地提高检索性能,但这两类词项依存关系却缺乏系统的比较在利用词项依存关系来改进文档和查询的表达上,如何有效地利用句法信息,哪些句法信息对文本检索比较有效,依然是个有待研究的问题。为此,在文档表达上,比较了利用近邻信息和句法信息定义的词项依存关系的性能;在查询表达上,对利用不同层次的句法信息所定义的词项依存关系的性能进行了比较。为了系统地比较这些词项依存关系对检索性能的影响,在语言模型基础上,以平滑为思路,提出了一个能方便融入这两类词项依存关系的检索模型。在TREC语料上的实验表明,对于文档表达来说,句法关系较统计近邻关系没有明显的差别。在查询表达上,基于名词/专有词短语的部分句法信息较其他的句法信息更加有效。  相似文献   

9.
汉语连续语流中的调型评测是汉语语音评测的一个重要环节,利用连续语流中韵律耦合效应和韵律结构紧密相关这一特性,以韵律词为基本建模单元,建立基于多空间概率分布的HMM调型模型(MSD-HMM),使得汉语普通话水平评测系统针对标准连续语流的调型识别率从82.0% 提升至84.6%;针对有方言背景的非标准发音,机器评分与专家评分的相关度绝对提升超过3.0%。  相似文献   

10.
问答式检索技术及评测研究综述   总被引:18,自引:3,他引:18  
问答式检索系统(简称问答系统) 是集自然语言处理技术和信息检索技术于一身的新一代搜索引擎。它的出现旨在提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。经过这几年的发展,问答系统已经成为自然语言处理领域和信息检索领域的一个重要分支和新兴的研究热点,其“通过系统化、大规模地定量评测推动研究向前发展”的发展轨迹,以及某些成功的启示,如基于字符表层的文本分析技术(模板技术) 的有效性,快速、浅层自然语言处理技术的必要性,都极大地推动了自然语言处理研究的发展,促进了NLP研究与应用的紧密结合。回顾问答系统研究的历史,总结问答技术的研究现状,将有助于这方面工作向前发展。  相似文献   

11.
建立索引、查询扩展和相似度计算等都是检索系统中的关键环节.PRIS信息检索系统更侧重于构造简单有效的查询扩展算法.本报告介绍了北京邮电大学模式识别实验室参加2005年863信息检索测试的系统结构和具体方法.本报告分别介绍了预处理、分词、建立索引、查询扩展和相似度计算等部分.最后针对测试结果进行了分析.对正式评测的50个主题集检索,获得的三项评价指标为程序自动构造询时,MAP=0.1862,P@10=0.5180,R-Precision=0.2554;人工构造查询时,MAP=0.1862,P@10=0.5180,R-Precision=0.2554.  相似文献   

12.
The field of Music Information Retrieval has always acknowledged the need for rigorous scientific evaluations, and several efforts have set out to develop and provide the infrastructure, technology and methodologies needed to carry out these evaluations. The community has enormously gained from these evaluation forums, but we have reached a point where we are stuck with evaluation frameworks that do not allow us to improve as much and as well as we want. The community recently acknowledged this problem and showed interest in addressing it, though it is not clear what to do to improve the situation. We argue that a good place to start is again the Text IR field. Based on a formalization of the evaluation process, this paper presents a survey of past evaluation work in the context of Text IR, from the point of view of validity, reliability and efficiency of the experiments. We show the problems that our community currently has in terms of evaluation, point to several lines of research to improve it and make various proposals in that line.  相似文献   

13.
一种基于信息检索技术的网络新闻影响力分析方法   总被引:2,自引:0,他引:2  
杨伟杰  戴汝为  崔霞 《软件学报》2009,20(9):2397-2406
利用信息检索领域中的相关算法,分析研究通过信息检索相关技术得到的相关信息,建立了一个网络新闻影响力模型来定量地计算一则新闻的影响力,从而估计它对社会安全产生影响的程度.在对大量实验结果的统计分析中发现,此方法可以有效地对新闻文章进行排序,发现不同新闻类型中最值得关注的新闻,其结果与人的定性判断结果具有较高的一致性.  相似文献   

14.
周瑛  张铃 《微机发展》2007,17(1):111-113
评价一个信息检索系统的标准是该系统在多大程度上满足用户的能力。文中从传统的评价信息检索系统的两大标准———计算查全率和查准率的公式出发,结合实际情况,考虑检索结果相关性是一个模糊的概念,为了对这个模糊的概念以客观的度量,应用模糊集的方法对传统的查全率和查准率的公式进行了两种修改。一种修改是在每篇文档对总的查全率和查准率的影响相同时进行的,而第二种修改则是在每一类文档对总的查全率和查准率的影响相同时进行的。这两种修改是对传统的基于二值相关性的检索评价系统的有效扩充。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号