首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
国内外基于语料库的翻译研究主要集中在翻译共性、翻译规范、译者风格和翻译培训等涉及翻译理论和翻译实践方面的研究;提出的基于三元组可比语料库的自动语言剖析技术扩大了该研究领域的内涵,使其包括面向自然语言处理的应用研究。从工程可实现性考虑,创新性地提出了建造三元组可比语料库,利用n-元词串、关键词簇和语义多词表达等自动抽取技术,通过对比中式英语表达,发掘英语本族语言模型,实现改进和发展机器翻译、跨语言信息检索等自然语言处理应用的目标。  相似文献   

2.
自动分词作为自然语言处理基础性的研究课题,一直被学术界所关注,随着藏语自然语言处理技术研究的不断深入,藏文分词也面临越来越多的挑战。该文通过分析藏文自动分词研究现状,提出基于词性约束的藏文分词策略与算法。相对于传统方法,该方法不仅能有效地预防和处理各类歧义现象,而且在藏文未登录词处理方面有较好表现。  相似文献   

3.
基于区分词的汉语隐喻短语识别   总被引:1,自引:1,他引:0  
符建辉  曹存根  王石 《计算机科学》2010,37(10):193-196,232
隐喻识别是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的中心地位。从计算语言学和自然语言处理的角度来考虑,隐喻问题若不能得到很好的处理,语言理解和机器翻译的效果都会受到影响。通过观察隐喻短语和非隐喻短语在汉语中的上下文发现,有一批词可用于有效地识别隐喻短语,称之为区分词。首先从Web中自动抽取了一部分区分词,进而提出了一种基于区分词的隐喻短语识别方法。实验表明基于区分词的识别方法是有效的。  相似文献   

4.
从现有技术发展来看,自然语言处理是实现人机之间利用自然语言实现通信的重要方式,具有先进性。在本次研究中,本文分别从基本语言处理技术、高级自然语言处理技术两方面入手,对自然语言处理技术进行了分析,并阐述了信息检索系统的关键技术以及实现路径;最后基于实例,深入探讨了该技术在信息检索系统中的应用效果,希望为进一步提升信息检索系统性能奠定基础。  相似文献   

5.
词向量表示是机器学习的基础性工作,其目标是以优化的向量表示词,以便计算机能更好地理解自然语言。随着神经网络技术的发展,词向量在自然语言处理领域发挥着重要作用。藏文词向量表示技术的研究对藏文特征分析以及用深度学习技术处理藏文具有重要意义。该文提出了一种构件、字和词多基元联合训练的藏文词向量表示方法,设计了多基元联合训练藏文词向量的模型TCCWE,并采用内部评测中的词相似度/相关性评价方式验证了其有效性。实验表明,该文提出的藏文词向量表示方法有效,其性能在TWordSim215上提高了3.35%,在TWordRel215上提高了4.36%。  相似文献   

6.
辛日华 《控制工程》2012,19(4):716-717,722
词义排歧是自然语言处理中的一个难点问题,它在机器翻译、信息检索、句子分析和语音识别等自然语言处理的许多领域中起着举足轻重的作用。因此词义排歧方法的研究在自然语言处理领域具有重要的理论和实践意义。获得带语义标记的大规模训练语料是词义排歧在自然语言处理中的一个难点。为了解决这一问题,提出了一种基于知识的语义剪枝方法。其目的是通过语义剪枝系统尽可能地减少歧义词在上下文中错误的或最不可能的义项。语义剪枝以后,形成词和其可能义项的一个列表,尽量将一个词真正正确的义项保留下来。为了对语义剪枝算法进行评价,特意开发了一个人机交互的语义标注系统,并将获得的语料应用到了词义排歧系统。通过对系统标注的语料和人工标注的语料进行对比,达到对算法评价的目的,收到了良好的效果。  相似文献   

7.
近年来,随着深度学习的快速发展,面向自然语言处理领域的预训练技术获得了长足的进步。早期的自然语言处理领域长期使用Word2Vec等词向量方法对文本进行编码,这些词向量方法也可看作静态的预训练技术。然而,这种上下文无关的文本表示给其后的自然语言处理任务带来的提升非常有限,并且无法解决一词多义问题。ELMo提出了一种上下文相关的文本表示方法,可有效处理多义词问题。其后,GPT和BERT等预训练语言模型相继被提出,其中BERT模型在多个典型下游任务上有了显著的效果提升,极大地推动了自然语言处理领域的技术发展,自此便进入了动态预训练技术的时代。此后,基于BERT的改进模型、XLNet等大量预训练语言模型不断涌现,预训练技术已成为自然语言处理领域不可或缺的主流技术。文中首先概述预训练技术及其发展历史,并详细介绍自然语言处理领域的经典预训练技术,包括早期的静态预训练技术和经典的动态预训练技术;然后简要梳理一系列新式的有启发意义的预训练技术,包括基于BERT的改进模型和XLNet;在此基础上,分析目前预训练技术研究所面临的问题;最后对预训练技术的未来发展趋势进行展望。  相似文献   

8.
自动翻译的词处理及其算法   总被引:6,自引:3,他引:6  
在自动翻译的设计中,词处理是核心问题。本文的研究背景是自然语言处理系统,其工作有两部分:第一部分主要讨论词处理;第二部分提出了检索算法。  相似文献   

9.
NLP(Natural Language Processing,自然语言处理)是人工智能领域的一个主要研究方向,而文本分类是NLP处理技术的重要分支。自然语言处理使计算机、手机等电子设备能够具有识别理解人类语言的能力,由于其自身的复杂性,目前仍有许多技术难点没有被完全攻克,主要包括不断产生的新词、中文词语的一词多义、自然语言的灵活性等问题。该文以期刊论文作为实验数据,研究中文文本分类问题,在传统卷积神经网络模型的基础上提出了一种基于卷积神经网络和支持向量机结合的文本分类模型CNNSVM(Convolutional Neural Network and Support Vector Machine Classifier)。相较于传统方法,CNNSVM增加了注意力机制,简化了模型参数,并使用基于支持向量机的分类器替代传统模型中的softmax层帮助实现文本的分类。实验结果显示,该模型提升了特征词语的提取效果,有效解决了softmax层泛化能力较弱的问题。  相似文献   

10.
文章主要阐述了自然语言处理的基础技术。首先,文章介绍了藏汉两种文字自然语言处理(NLP)技术的发展历程;其次,文章比较了藏汉两种语言的字,词、句和篇章等层面的信息处理方法的差异性,试图探索和挖掘跨语种的自然语言处理之间的语法特点,从而选取符合语法特征的自然语言处理方法,做到因语施策。  相似文献   

11.
问答式检索技术及评测研究综述   总被引:18,自引:3,他引:18  
问答式检索系统(简称问答系统) 是集自然语言处理技术和信息检索技术于一身的新一代搜索引擎。它的出现旨在提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。经过这几年的发展,问答系统已经成为自然语言处理领域和信息检索领域的一个重要分支和新兴的研究热点,其“通过系统化、大规模地定量评测推动研究向前发展”的发展轨迹,以及某些成功的启示,如基于字符表层的文本分析技术(模板技术) 的有效性,快速、浅层自然语言处理技术的必要性,都极大地推动了自然语言处理研究的发展,促进了NLP研究与应用的紧密结合。回顾问答系统研究的历史,总结问答技术的研究现状,将有助于这方面工作向前发展。  相似文献   

12.
自然语言处理在信息检索中的应用综述   总被引:5,自引:0,他引:5  
在信息检索发展的过程中,研究者们不断尝试着将自然语言处理应用到检索里,希望能够为检索效果提高带来帮助。然而这些尝试的结果大多和研究者们最初的设想相反,自然语言处理在大多数情况下没有改进信息检索效果,甚至反而起了负面作用。即便有一些帮助,也往往是微小的,远远不如自然语言处理所需要的计算消耗那么大。研究者们对这些现象进行了分析,认为: 自然语言处理更适合于应用在需要精确结果的任务中,例如问答系统、信息抽取等;自然语言处理需要针对信息检索进行优化才可能发挥积极作用。最新的一些进展(例如在语言模型中加入自然语言处理)在一定程度上印证了这一结论。  相似文献   

13.
Natural language and databases are core components of information systems. They are related to each other because they share the same purpose: the conceptualization aspects of the real world in order to deal with them in some way. Natural language processing (NLP) techniques may substantially enhance most phases of the information system lifecycle, starting with requirements analysis, specification and validation, and going up to conflict resolution, result processing and presentation. Furthermore, natural language based query languages and user interfaces facilitate the access to information for anyone and allow for new paradigms in the usage of computerized services. This paper investigates the use of NLP techniques in the design phase of information systems. Then, it reports on data base querying and information retrieval enhanced with NLP.  相似文献   

14.

Because of the proliferation of Nepali textual documents online, researchers in Nepal and overseas have started working towards its automated analysis for quick inferences, using different machine learning (ML) algorithms, ranging from traditional ML-based algorithms to recent deep learning (DL)-based algorithms. However, researchers are still unaware about the recent trends of NLP research direction in the Nepali language. In this paper, we survey different natural language processing (NLP) research works with associated resources in Nepali language. Furthermore, we organize the NLP approaches, techniques, and application tasks used in the Nepali language processing using the comprehensive taxonomy for each of them. Finally, we discuss and analyze based on such assimilated information for further improvement in NLP research works in the Nepali language. Our thorough survey bestows the detailed backgrounds and motivations to researchers, which not only opens up new potential avenues but also ushers towards further progress of NLP research works in the Nepali language.

  相似文献   

15.
The amount of big data collected during human–computer interactions requires natural language processing (NLP) applications to be executed efficiently, especially in parallel computing environments. Scalability and performance are critical in many NLP applications such as search engines or web indexers. However, there is a lack of mathematical models helping users to design and apply scheduling theory for NLP approaches. Moreover, many researchers and software architects reported various difficulties related to common NLP benchmarks. Therefore, this paper aims to introduce and demonstrate how to apply a scheduling model for a class of keyword extraction approaches. Additionally, we propose methods for the overall performance evaluation of different algorithms, which are based on processing time and correctness (quality) of answers. Finally, we present a set of experiments performed in different computing environments together with obtained results that can be used as reference benchmarks for further research in the field.  相似文献   

16.
自然语言处理(NLP)可以将建设领域非结构化文档转化为结构化信息,方便相关从 业人员对建设项目进行高效的日常管理。近年来,NLP 相关算法得到了广泛的发展,但NLP 技术在建设领域中的研究还处于初级阶段。通过调研近十年关于NLP 在建筑工程的相关文献, 对国内外技术与应用层面的研究进行了梳理。介绍了NLP 的技术发展、常用方法及相关开源工 具实现的功能;并重点从统计分析工具、应用系统和其他3 方面对NLP 在建筑领域各阶段的应 用进行总结。此外,对建设领域NLP 应用存在的问题进行了讨论,总结原因并从技术、建筑业 和政府3 个方面提出了未来展望。  相似文献   

17.
几何命题处理中的中文分词技术   总被引:2,自引:1,他引:1  
佘莉  符红光  方海光 《计算机工程》2005,31(18):180-182
如何将自然语言表述的初等几何命题自动转化为计算机可理解的作图语言是自然语言处理中的空白,也是实现教育软件人机交互的难点.而中文分词是自然语言处理的第1步,分词结果直接影响后期的处理工作.该文通过对几何范围内的受限语言的研究,建立了有效可行的语言理解模型,完成了词素的切分和词性标注,并在程序上得以实现.  相似文献   

18.
深度学习模型被证明存在脆弱性并容易遭到对抗样本的攻击,但目前对于对抗样本的研究主要集中在计算机视觉领域而忽略了自然语言处理模型的安全问题.针对自然语言处理领域同样面临对抗样本的风险,在阐明对抗样本相关概念的基础上,文中首先对基于深度学习的自然语言处理模型的复杂结构、难以探知的训练过程和朴素的基本原理等脆弱性成因进行分析...  相似文献   

19.
20.
实现了一个基于最大熵的中文指代消解系统。通过预处理获得相关信息,抽取出12特征,采用最大熵算法训练生成分类器。在ACE05 bnews中文测试语料上的指代消解实验结果表明,本系统是一个中文指代消解研究的较好平台。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号