期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

邹小芳王明文左家莉余美华《小型微型计算机系统》2010,31(4):696-701

在统一框架下对双语语料库的平行文档进行分析建模,提取语言之间的潜在语义对应关系,在潜在中间语义空间中进行检索,从而实现跨语言信息检索.作者在自建的中英平行语料库和蒙特利尔大学提供的英法平行语料库基础上,对平行文档进行分析建模,在TREC5&9和SDA数据集上进行了中、英、法三种语言的跨语言信息检索实验,且与单语言的信息检索模型进行了比较,实验结果显示本文的模型表现了较好的性能. 相似文献

2.

基于本体的跨语言信息检索模型 总被引：20，自引：1，他引：19

王进陈恩红张振亚王煦法《中文信息学报》2004,18(3):2-9,61

随着网络信息的日益丰富和用户需求的提高,人们已经不能满足于仅仅在同一语种中进行检索,跨语言的信息检索(CLIR)因而受到人们越来越多的关注。为此,本文提出了一种新的基于语义的跨语言信息检索模型Onto-CLIR,该模型在传统信息检索技术的基础上,利用本体来刻画不同语言中对应的领域知识,以解决从查询语言到检索语言之间转换过程中出现的语义损失和曲解等问题,从而保证在检索过程中能够有效地遵循用户的查询意图,获得预期的检索信息。本文以体育新闻检索为背景,以英文查询作为查询请求,检索来自新浪网的体育类新闻,结果表明采用基于本体的跨语言信息检索方法之后检索的查全率和查准率平均提高10个百分点左右,有效地改善了检索性能。相似文献

3.

跨语言信息检索研究进展 总被引：12，自引：0，他引：12

张俊林曲为民杜林孙玉芳《计算机科学》2004,31(7):16-19

随着互联网资源的多语言性和用户所使用语言的日益多样性,跨语言信息检索成为越来越重要的研究领域。本文介绍了该领域为解决语言问的翻译障碍而研究的各种解决方法并且对汉英跨语言信息检索所面对的独特难点进行了分析,同时本文对国际上重要的跨语言信息检索系统评测会议进行了简单介绍。相似文献

4.

重新审视跨语言信息检索 总被引：7，自引：1，他引：6

闵金明孙乐张俊林《中文信息学报》2006,20(4):35-42

阻碍互联网资源在世界范围内广泛共享的一个主要障碍是多语言问题,而跨语言信息检索是解决这个问题的有效方法之一。本文从定义跨语言信息检索系统开始,给出了一个标准的跨语言信息检索系统框架和评价方法,对主流研究方法进行了重新审视,进一步明确指出了跨语言信息检索中必须解决的核心问题,最后通过分析研究现状给出了未来可能的重点研究方向。相似文献

5.

基于改进潜在语义分析的跨语言检索 总被引：1，自引：0，他引：1

宁健林鸿飞《中文信息学报》2010,24(3):105-112

该文采用基于SVD和NMF矩阵分解相结合的改进潜在语义分析的方法为生物医学文献双语摘要进行建模,该模型将英汉双语摘要映射到同一语义空间,不需要外部词典和知识库,建立不同语言之间的对应关系,便于在双语空间中进行检索。该文充分利用医学文献双语摘要语料中的锚信息,通过不同的k值构建多个检索模型,计算每个模型的信任度,使得多个模型都对查询和文本的相似度做出贡献。在语义空间上进行项与项、文本与文本、项与文本之间的相似度计算,实现了双语摘要的跨语言检索,取得了较好的实验效果。相似文献

6.

一种新型的跨语言信息检索技术

张玥杰连理吴立德《计算机科学》2002,29(8):66-72

1.前言随着科学技术迅猛发展,信息交流量与日俱增,人们开始广泛应用高速度、大容量的现代化工具——计算机进行信息处理。为使计算机能够应用于更广泛的用户,利用计算机高效率地进行各种语言信息处理已成为一个迫切需要研究的课题。由此,语言信息处理应运而生,成为一门新兴学科,其相关理论和方法研究在计算机科学与人工智能领域也显得尤其重要。自动的信息检索(Information Retrieval.IR)也作为语言信息处理研究领域的重要课题,越来越引起人们的兴趣与重视。人们希望用机器来实现信息自动检索,以解决人工方式带来的困难与复杂,如今正随着人们在语言信息处理领域里所取得的成果而变为现实。相似文献

7.

面向跨语言信息检索的蒙汉语义词典构建初探

塔娜林民李小庆《计算机与数字工程》2010,38(8):42-45,54

以跨语言信息检索需求为背景,介绍了目前语义词典及应用的概况,根据蒙古文互联网发展的现状,从应用需求出发,提出构建面向跨语言信息检索的蒙汉双语语义词典的重要性,并利用构建领域本体的方法给出蒙汉双语计算机术语语义词典的初步设计方法。相似文献

8.

汉英跨语言信息检索研究

朱培焱夏栋梁《计算机与现代化》2011,(8):13-16

随着互联网的发展,各国人民的交流日渐增多,跨语言信息检索变得日益重要。由于中文和英文的用户众多,汉英跨语言信息检索有着特别重要的意义。本文首先介绍信息检索的基本模型,然后介绍翻译和非翻译策略的跨语言信息检索技术,并给出一些汉英跨语言信息检索的难点问题。相似文献

9.

基于Lucene的英汉跨语言信息检索 总被引：8，自引：0，他引：8

陈士杰张玥杰《计算机工程》2005,31(13):62-64

描述了一个英汉跨语言检索系统的设计与实现,其主要研究目的在于寻找更为有效的英汉查询翻译方法,以及提高汉语检索系统的性能。在英汉查询翻译方面,以英汉双语词典为基础,建立了查询翻译算法。在汉语检索方面,分析不同索引单元对于检索性能的影响,基于Lucene全文索引工具包建立了搜索引擎。在系统评测方面,提出了一种根据主题,快速构建评测数据的方法。相似文献

10.

基于英汉机译实现跨语言信息检索 总被引：8，自引：0，他引：8

张玥杰郭依昆连理吴立德《小型微型计算机系统》2004,25(7):1135-1140

随着日益增长的大量信息成为可利用的、用户面对查询一个多语种文本集合的情形，变得越来越普遍。这就产生一个非常重要的问题一以一种语言描述的用户查询与以不同语言书写的文本之间的匹配问题，也就是一种如何跨越语言界限的问题，即跨语言信息检索(Cross-Language Information Retrievat，CLIR)。针对该项任务建立了一个面向英汉的跨语言信息检索系统，并以此为基础提交了相关的几组运行结果。同时，结合所构建的汉语IR系统，实现完整的英一汉CLIR过程。相似文献

11.

TREC2002中的WEB信息检索

杨志峰刘悦杨哲王斌程学旗《计算机工程与应用》2003,39(26):37-39,80

文本检索会议(TextREtrievalConference,TREC)是目前国际上信息检索领域最重要的学术交流与系统评测活动。会议为参加者提供标准的数据集合、评测问题和标准答案,从而使参加者以共同的标准进行系统运行和评测。作者代表中国科学院参加了文本检索会议的WEB信息检索任务。在TREC2002中,作者发现了适合不同数据集合的较高性能的内容检索算法,并综合考虑了文本内容、链接文字、文档结构等因素对WEB信息检索效果的影响,取得了较好的成绩。该方法在两届会议的不同任务中均表现了较高的性能。相似文献

12.

A Framework for Benchmarking in CBIR

Müller Henning Müller Wolfgang Marchand-Maillet Stéphane Pun Thierry Squire David McG. 《Multimedia Tools and Applications》2003,21(1):55-73

Content-based image retrieval (CBIR) has been a very active research area for more than ten years. In the last few years the number of publications and retrieval systems produced has become larger and larger. Despite this, there is still no agreed objective way in which to compare the performance of any two of these systems. This fact is blocking the further development of the field since good or promising techniques can not be identified objectively, and the potential commercial success of CBIR systems is hindered because it is hard to establish the quality of an application.We are thus in the position in which other research areas, such as text retrieval or the database systems, found themselves several years ago. To have serious applications, as well as commercial success, objective proof of system quality is needed: in text retrieval the TREC benchmark is a widely accepted performance measure; in the transaction processing field for databases it is the TPC benchmark that has wide support.This paper describes a framework that enables the creation of a benchmark for CBIR. Parts of this framework have already been developed and systems can be evaluated against a small, freely-available database via a web interface. Much work remains to be done with respect to making available large, diverse image databases and obtaining relevance judgments for those large databases. We also need to establish an independent body, accepted by the entire community, that would organize a benchmarking event, give out official results and update the benchmark regularly. The Benchathlon could get this role if it manages to gain the confidence of the field. This should also prevent the negative effects, e.g., benchmarketing, experienced with other benchmarks, such as the TPC predecessors.This paper sets out our ideas for an open framework for performance evaluation. We hope to stimulate discussion on evaluation in image retrieval so that systems can be compared on the same grounds. We also identify query paradigms beyond query by example (QBE) that may be integrated into a benchmarking framework, and we give examples of application-based benchmarking areas. 相似文献

13.

A framework for corroborating answers from multiple web sources

Minji Wu Amélie Marian 《Information Systems》2011

Search engines are increasingly efficient at identifying the best sources for any given keyword query, and are often able to identify the answer within the sources. Unfortunately, many web sources are not trustworthy, because of erroneous, misleading, biased, or outdated information. In many cases, users are not satisfied with the results from any single source. In this paper, we propose a framework to aggregate query results from different sources in order to save users the hassle of individually checking query-related web sites to corroborate answers. To return the best answers to the users, we assign a score to each individual answer by taking into account the number, relevance and originality of the sources reporting the answer, as well as the prominence of the answer within the sources, and aggregate the scores of similar answers. We conducted extensive qualitative and quantitative experiments of our corroboration techniques on queries extracted from the TREC Question Answering track and from a log of real web search engine queries. Our results show that taking into account the quality of web pages and answers extracted from the pages in a corroborative way results in the identification of a correct answer for a majority of queries. 相似文献

14.

一种Winnow线性分类器及其在TREC Novelty任务中的应用 总被引：2，自引：0，他引：2

潘文锋孙健王斌《计算机工程与应用》2004,40(23):59-61

文本检索会议(TextREtrievalConference,TREC)是目前国际上信息检索领域最重要的学术交流与国际评测活动。笔者等人代表中科院计算所参加了2003年TREC的Novelty任务。在该任务中,实现了Winnow线性分类器在检测relevant句子和novel句子中的应用。实验表明,这种简单的分类方法表现了较好的性能。相似文献

15.

Handling temporal heterogeneous data for content-based management of large video collections

Nicolas Moënne-Loccoz Bruno Janvier Stéphane Marchand-Maillet Eric Bruno 《Multimedia Tools and Applications》2006,31(3):309-325

Video document retrieval is now an active part of the domain of multimedia retrieval. However, unlike for other media, the management of a collection of video documents adds the problem of efficiently handling an overwhelming volume of temporal data. Challenges include balancing efficient content modeling and storage against fast access at various levels. In this paper, we detail the framework we have built to accommodate our developments in content-based multimedia retrieval. We show that not only our framework facilitates the development of processing and indexing algorithms but it also opens the way to several other possibilities such as rapid interface prototyping or retrieval algorithm benchmarking. Here, we discuss our developments in relation to wider contexts such as MPEG-7 and the TREC Video Track.This work is funded by EU-FP6 IST-NoE SIMILAR () and the Swiss NCCR IM2 (Interactive Multimodal Information Management). 相似文献

16.

关于“中文网页自动分类竞赛”结果的分析 总被引：6，自引：1，他引：5

冯是聪王继民《中文信息学报》2003,17(5):35-41

在最近召开的“全国搜索引擎与网上信息挖掘学术研讨会”上,举办了一场“中文网页自动分类竞赛”,共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前中文网页自动分类技术的现状有了一种具体的认识:目前已有分类器的性能没有呈现出明显的差距,中文网页的分类比普通文本的分类要困难的多。同时,本文还尝试推出一个标准的中文网页分类的实例样本集,希望通过不断完善,最终作为中文网页分类技术研究的基本语料。相似文献

17.

面向文本检索的语义计算 总被引：14，自引：1，他引：14

赵军金千里徐波《计算机学报》2005,28(12):2068-2078

随着信息社会尤其是互联网的发展,人们对文本检索的要求越来越高．作为对传统关键词匹配技术的改进,智能检索研究已经成为热点,并将是支撑下一代互联网的核心技术之一．将语义计算技术应用于文本检索,是智能检索的重要方向．文中在文本检索的两个关键技术（“标引”和“相似度计算”）中引入语义计算技术,用浅层语义来指导检索过程,提高检索准确率．针对“标引”技术,提出了语义树模型;针对“相似度计算”,基于语义张量的概念,结合自然语言处理的一些技术,提出三个可计算的窗口模型来近似语义张量的核心思想．以上工作在一定程度上实现了语义计算的功能．利用TREC数据集进行的评测表明,采用了语义计算技术后,文本检索的准确率可以提高10％左右．相似文献

18.

结构化集成学习垃圾邮件过滤 总被引：4，自引：0，他引：4

下载免费PDF全文

刘伍颖王挺《计算机研究与发展》2012,49(3):628-635

为了解决垃圾邮件过滤算法低计算复杂度与高分类准确率之间的矛盾,在多域学习框架下提出一种结构化集成学习思想,它根据文档结构组合多个基分类器的结果以追求更高分类性能.采用邮件文档的字符串特征生成多个轻量基分类器,并采用字符串-频率索引存储标注数据,使得每次更新和查询的时间开销是常数量级.根据邮件文档的多域结构特性,提出历史域分类器效力线性组合权和当前域文档分类能力线性组合权.综合考虑历史域分类器效力和当前域文档分类能力,还提出一种能够提高整体分类准确率的综合线性组合权.在TREC立即全反馈垃圾邮件过滤任务上的实验结果表明:基于综合线性组合权的结构化集成学习方法能够在较短的时间(47.24 min)内完成过滤任务,整体性能1-ROCA达到参加TREC2007评测的最优过滤器性能(0.0055). 相似文献

19.

问答系统:核心技术、发展趋势 总被引：7，自引：0，他引：7

王树西《计算机工程与应用》2005,41(18):1-3

该文首先给出问答系统的定义,并简要回顾了问答系统的历史;然后对现有各类问答系统进行了介绍,并对其核心技术、评测机制进行了分析;最后对问答系统的发展方向进行了展望。相似文献