首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
基于Lucene的英汉跨语言信息检索   总被引:8,自引:0,他引:8  
描述了一个英汉跨语言检索系统的设计与实现,其主要研究目的在于寻找更为有效的英汉查询翻译方法,以及提高汉语检索系统的性能。在英汉查询翻译方面,以英汉双语词典为基础,建立了查询翻译算法。在汉语检索方面,分析不同索引单元对于检索性能的影响,基于Lucene全文索引工具包建立了搜索引擎。在系统评测方面,提出了一种根据主题,快速构建评测数据的方法。  相似文献   

2.
基于英汉机译实现跨语言信息检索   总被引:8,自引:0,他引:8  
随着日益增长的大量信息成为可利用的、用户面对查询一个多语种文本集合的情形,变得越来越普遍。这就产生一个非常重要的问题一以一种语言描述的用户查询与以不同语言书写的文本之间的匹配问题,也就是一种如何跨越语言界限的问题,即跨语言信息检索(Cross-Language Information Retrievat,CLIR)。针对该项任务建立了一个面向英汉的跨语言信息检索系统,并以此为基础提交了相关的几组运行结果。同时,结合所构建的汉语IR系统,实现完整的英一汉CLIR过程。  相似文献   

3.
目前的跨语言信息检索能够使用的方法有四种查询词翻译的方法、文档翻译的方法、中间语言翻译方法和非翻译的方法。该文对这四种方法进行了简要介绍,提出它们的优缺点,并且提出了一种新的非翻译的方法——基于中间语义的方法。我们对提出来的方法进行了TREC跨语言语料库的试验,并且与单语言的信息检索模型进行了比较。试验证明我们的方法具有很好的性能和健壮性。  相似文献   

4.
跨语言信息检索指以一种语言为检索词,检索出用另一种或几种语言描述的一种信息的检索技术,是信息检索领域重要的研究方向之一。近年来,跨语言词向量为跨语言信息检索提供了良好的词向量表示,受到很多学者的关注。该文首先利用跨语言词向量模型实现汉文查询词到蒙古文查询词的映射,其次提出串联式查询扩展、串联式查询扩展过滤、交叉验证筛选过滤三种查询扩展方法对候选蒙古文查询词进行筛选和排序,最后选取上下文相关的蒙古文查询词。实验结果表明: 在蒙汉跨语言信息检索任务中引入交叉验证筛选方法对信息检索结果有很大的提升。  相似文献   

5.
随着互联网的发展,各国人民的交流日渐增多,跨语言信息检索变得日益重要。由于中文和英文的用户众多,汉英跨语言信息检索有着特别重要的意义。本文首先介绍信息检索的基本模型,然后介绍翻译和非翻译策略的跨语言信息检索技术,并给出一些汉英跨语言信息检索的难点问题。  相似文献   

6.
跨语言信息检索中查询语句翻译转换算法   总被引:1,自引:0,他引:1       下载免费PDF全文
张孝飞  黄河燕  陈肇雄  代六玲 《计算机工程》2007,33(11):166-167,212
跨语言信息检索中,输入的查询语句往往是一系列关键词组合,而不是一个完整意义上的句子,致使查询关键词序列缺乏必要的语法、语境信息,难以实现查询语句的精确翻译。该文基于大规模双语语料库,以向量空间模型和词汇同现互信息为理论基础,运用传统单语信息检索技术,将查询语句的翻译问题转换为查询关键词词典义项的boost值计算,重构目标语查询语句。  相似文献   

7.
基于本体的跨语言信息检索模型   总被引:19,自引:1,他引:19  
随着网络信息的日益丰富和用户需求的提高,人们已经不能满足于仅仅在同一语种中进行检索,跨语言的信息检索(CLIR)因而受到人们越来越多的关注。为此,本文提出了一种新的基于语义的跨语言信息检索模型Onto-CLIR,该模型在传统信息检索技术的基础上,利用本体来刻画不同语言中对应的领域知识,以解决从查询语言到检索语言之间转换过程中出现的语义损失和曲解等问题,从而保证在检索过程中能够有效地遵循用户的查询意图,获得预期的检索信息。本文以体育新闻检索为背景,以英文查询作为查询请求,检索来自新浪网的体育类新闻,结果表明采用基于本体的跨语言信息检索方法之后检索的查全率和查准率平均提高10个百分点左右,有效地改善了检索性能。  相似文献   

8.
跨语言信息检索研究进展   总被引:12,自引:0,他引:12  
随着互联网资源的多语言性和用户所使用语言的日益多样性,跨语言信息检索成为越来越重要的研究领域。本文介绍了该领域为解决语言问的翻译障碍而研究的各种解决方法并且对汉英跨语言信息检索所面对的独特难点进行了分析,同时本文对国际上重要的跨语言信息检索系统评测会议进行了简单介绍。  相似文献   

9.
针对跨语言信息检索中常用的提问式翻译中存在的问题,提出了基于最大熵模型建立的中-英,英-中双语词典方法,并对常用的双向翻译方法进行改进以获得较高的检索准确率,实验结果验证了该方法的有效性。  相似文献   

10.
基于Web的跨语言信息检索研究综述   总被引:1,自引:0,他引:1  
回顾了近年来基于Web的跨语言信息检索技术的理论研究和发展现状,针对跨语言信息检索中基于语料库的方法,就其中语料库的构建和使用问题进行了阐述.比较分析和总结了两方面的技术:一是利用互联网上丰富的双语资源来建立大规模双语语料库的技术,二是目前运用较多的几种查询翻译模型构建技术.最后,展望了该领域的研究前景和发展方向.  相似文献   

11.
Multimedia Tools and Applications - Approaches of query translation in Cross-Language Information Retrieval (CLIR) have frequently used dictionaries which suffer from translation ambiguity....  相似文献   

12.
篇章机器翻译的首要问题是确定翻译单位。基于汉语和英语的语言知识和英汉翻译的实践,该文提出面向篇章机器翻译的基本单位和复合单位的双层单位体系,讨论了这两种单位支持篇章翻译应满足的性质,并据此勾画了篇章机器翻译的拆分、翻译、装配三步模型(PTA模型)。该文提出,汉语篇章机器翻译的复合单位为广义话题结构对应的文本块,基本单位则是根据广义话题结构流水模型得到的话题自足句;英语篇章机器翻译的复合单位为句号句,基本单位为naming-telling小句(NT小句),即指称性成分加上对它的陈述或后修饰成分所构成的小句。该文展示了在这样的翻译单位体系下采用PTA模型的英汉翻译过程实例,规划了面向篇章翻译的英汉小句对齐语料库的建设任务,讨论了PTA模型的可行性。
  相似文献   

13.
Automatic Text Summarization has been shown to be useful for Natural Language Processing tasks such as Question Answering or Text Classification and other related fields of computer science such as Information Retrieval. Since Geographical Information Retrieval can be considered as an extension of the Information Retrieval field, the generation of summaries could be integrated into these systems by acting as an intermediate stage, with the purpose of reducing the document length. In this manner, the access time for information searching will be improved, while at the same time relevant documents will be also retrieved. Therefore, in this paper we propose the generation of two types of summaries (generic and geographical) applying several compression rates in order to evaluate their effectiveness in the Geographical Information Retrieval task. The evaluation has been carried out using GeoCLEF as evaluation framework and following an Information Retrieval perspective without considering the geo-reranking phase commonly used in these systems. Although single-document summarization has not performed well in general, the slight improvements obtained for some types of the proposed summaries, particularly for those based on geographical information, made us believe that the integration of Text Summarization with Geographical Information Retrieval may be beneficial, and consequently, the experimental set-up developed in this research work serves as a basis for further investigations in this field.  相似文献   

14.
1 IntroductionThe eXPlOSive growth of the internet and other souxces of networked information has madeautomatic mediation of access to networked information sources an increasingly boortatproblem. Much of this information is eXPressed as electronic teXt in English. However, mostChinese users are able to read English bat without fluent writing ability. So they would liketo express their queries in Chinese to retrieve the rele~ English documents.The use of such systems can aJ8o be benefici…  相似文献   

15.
We report experimental results on automatic extraction of an English-Chinese translation lexicon, by statistical analysis of a large parallel corpus, using limited amounts of linguistic knowledge. To our knowledge, these are the first empirical results of the kind between an Indo-European and non-Indo-European language for any significant vocabulary and corpus size. The learned vocabulary size is about 6,500 English words, achieving translation precision in the 86–96% range, with alignment proceeding at paragraph, sentence, and word levels. Specifically, we report (1) progress on the HKUST English-Chinese Parallel Bilingual Corpus, (2) experiments supporting the usefulness of restricted lexical cues for statistical paragraph and sentence alignment, and (3) experiments that question the role of hand-derived monolingual lexicons for automatic word translation acquisition. Using a hand-derived monolingual lexicon, the learned translation lexicon averages 2.33 Chinese translations per English entry, with a manually-filtered precision of 95.1%, and an automatically-filtered weighted precision of 86.0%. We then introduce a fully automatic two-stage statistical methodology that is able to learn translations for collocations. A statistically-learned monolingual Chinese lexicon is first used to segment the Chinese text, before applying bilingual training to produce 6,429 English entries with 2.25 Chinese translations per entry. This method improves the manually-filtered precision to 96.0% and the automatically-filtered weighted precision to 91.0%, an error rate reduction of 35.7% from using a hand-derived monolingual lexicon.  相似文献   

16.
分布式计算在Web信息检索中的应用   总被引:2,自引:4,他引:2  
web信息检索技术是当前研究的热门课题,本文是继上一篇文章<>在信息检索方面提出的分布式检索算法的研究,提出了检索的结构模型,检索算法。  相似文献   

17.
文本知识发现:基于信息抽取的文本挖掘   总被引:11,自引:0,他引:11  
1.引言大家熟知,所谓“数据丰富但知识缺乏“的现状导致了数据挖掘(Data Mining)技术研究的兴起,数据挖掘又称数据库知识发现(Knowledge Discovery in Databases)是从海量的结构化信息中抽取或挖掘隐含信息和知识的重要方法和途径。数据挖掘技术已相当成熟。因为除了结构化的数据之外,在数字化信息中更多地存在大量自由、非结构化或半结构化的文本信息如新闻文章、电子书本、电子图书馆藏、Web页面内容、Email、文档数据库等,显然手工处理需要花费大量的人力物力,并且具有不确定性。所以出现了从文本中发现知  相似文献   

18.
英汉小句对齐语料库服务于英语和汉语小句的语法结构对应关系研究和应用,对于语言理论和语言翻译(包括人的翻译和机器翻译)有重要意义。前人的语法理论和相关语料库的工作对于小句复合体和小句的界定缺乏充分研究,在理论上有缺陷,难以支持自然语言处理的应用。该文首先为英汉小句对齐语料库的建设做理论准备。从近年提出的汉语小句复合体的理论出发,该文界定了成分共享的概念,基于话头共享和引语共享来界定英语的小句和小句复合体,使小句和小句复合体具有功能的完整性和单一性。在此基础上,该文设计了英汉小句对齐的标注体系,包括英语NT小句标注和汉语译文生成及组合。语料库的标注表明,在小句复合体层面上英汉翻译涉及到的结构变换,其部件可以限制为英语小句和话头、话体,无须涉及话头和话体内部的结构。基于这些工作的英汉小句对齐语料库为语言本体研究和英汉语言对比、英汉机器翻译等应用提供了结构化的标注样本。  相似文献   

19.
介绍了一个应用在数字图书馆领域内的智能化信息检索系统———ILIR(Inter-LibraryInformationRetrieval)系统的设计与实现。ILIR系统基于多主体体系结构,具有个性化、自学习的特点,它通过机器学习,收集分析用户兴趣,自动细化检索,为用户提供更准确的信息检索结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号