首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 61 毫秒
1.
郭涛  曲宝胜  郭勇 《电脑学习》2011,(2):113-116
本文简单介绍了自然语言处理发展的现状,讨论了自然语言处理模型,将其分为三大类:分析模型、统计模型及混合模型。具体介绍了分析模型原理及存在的问题,重点讨论了各种统计模型的特点及局限性,最后简单介绍了混合模型,并指出目前自然语言处理技术中存在的问题。  相似文献   

2.
为了克服现有文档相似性模型对文档特性拟合的不完全性和缺乏理论根据的弱点,本文在统计语言模型的基础上,提出了一种基于混合语言模型(Mixture Language Model,MLM)文档相似性计算模型。MLM利用统计语言模型描述文档特征,将相关影响因素作为模型的潜在子模型,文档语言模型由各子模型混合构成,从而准确和全面地反映文档特征。由于MLM根据具体应用确定相关影响因素,并以此构建相应文档描述模型,因此具有很强的灵活性和扩展性。在MLM的基础上,本文给出了一个基于文档主题内容相似性的实例,在TREC9数据集上的实验表明MLM优于向量空间模型(VSM)。  相似文献   

3.
从现有技术发展来看,自然语言处理是实现人机之间利用自然语言实现通信的重要方式,具有先进性。在本次研究中,本文分别从基本语言处理技术、高级自然语言处理技术两方面入手,对自然语言处理技术进行了分析,并阐述了信息检索系统的关键技术以及实现路径;最后基于实例,深入探讨了该技术在信息检索系统中的应用效果,希望为进一步提升信息检索系统性能奠定基础。  相似文献   

4.
基于辩论推理模式,本文提出了诱导推理的一种计算模型,其特点简洁,直观,并且包含了多种现有的诱导框架,该诱导模型为常识推的计算机实现提供了一种新的途径。  相似文献   

5.
在自然语言处理领域,谷歌提出Transformer模型之后,以生成式预训练模型(Generative Pre-Training,GPT)和深度双向预训练语言模型(Bidirectional Encoder Representat ions from Transformers,BERT)等为代表的一些基于Transformer的预训练语言模型(Transformer-based Pre-trained Language Models,TPLM)相继被提出,在大部分自然语言处理任务上取得很好的效果。TPLM使用自监督学习方法学习来自大量文本数据的通用语言表示,并将这些知识转移到下游任务中,为其提供了背景知识,避免了重新开始训练新任务模型的情况。笔者主要研究了基于Transformer的预训练语言模型与基于TPLM的“预训练+微调”的自然语言处理预训练新技术模式。首先,介绍预训练模型的发展背景;其次,解释各种有关TPLM的核心概念,如预训练、预训练方法、预训练任务、自监督学习与迁移学习等;再次,简要介绍相关TPLM模型与目前的进展;最后,提出改进TPLM的方法并总结。  相似文献   

6.
自然语言处理在信息检索中的应用综述   总被引:5,自引:0,他引:5  
在信息检索发展的过程中,研究者们不断尝试着将自然语言处理应用到检索里,希望能够为检索效果提高带来帮助。然而这些尝试的结果大多和研究者们最初的设想相反,自然语言处理在大多数情况下没有改进信息检索效果,甚至反而起了负面作用。即便有一些帮助,也往往是微小的,远远不如自然语言处理所需要的计算消耗那么大。研究者们对这些现象进行了分析,认为: 自然语言处理更适合于应用在需要精确结果的任务中,例如问答系统、信息抽取等;自然语言处理需要针对信息检索进行优化才可能发挥积极作用。最新的一些进展(例如在语言模型中加入自然语言处理)在一定程度上印证了这一结论。  相似文献   

7.
基于隐马尔可夫模型(HMM)对汉语文本进行了词性标注,首先介绍隐马尔可夫模型的基本概念,然后着重介绍了隐马尔可夫模型的三个基本问题以及解决问题的基本算法,最后演示了隐马尔可夫模型在词性标注中的简单应用.  相似文献   

8.
近年来,深度学习技术被广泛应用于各个领域,基于深度学习的预处理模型将自然语言处理带入一个新时代。预训练模型的目标是如何使预训练好的模型处于良好的初始状态,在下游任务中达到更好的性能表现。对预训练技术及其发展历史进行介绍,并按照模型特点划分为基于概率统计的传统模型和基于深度学习的新式模型进行综述;简要分析传统预训练模型的特点及局限性,重点介绍基于深度学习的预训练模型,并针对它们在下游任务的表现进行对比评估;梳理出具有启发意义的新式预训练模型,简述这些模型的改进机制以及在下游任务中取得的性能提升;总结目前预训练的模型所面临的问题,并对后续发展趋势进行展望。  相似文献   

9.
项炜 《计算机应用》2013,33(5):1446-1449
通用信息模型(CIM) 是工业界的一种公开标准,并已实现于很多产品中,大量的bug被发现和修复。为了减少了人工查找错误根源所需的时间和精力,提出一种基于自然语言处理的方法对CIM 的bug进行自动调试。首先使用最大熵模型对已解决bug的文档描述进行分词,然后基于构建的词典使用simHash找出那些重复性很大的已修复的bug,最后使用文档处理的方法分析客户提供的trace找出问题所在和解决方法。实验结果取得了87.5%准确率, 表明了该方法的有效性。  相似文献   

10.
自然语言处理中主题模型的发展   总被引:28,自引:0,他引:28  
徐戈  王厚峰 《计算机学报》2011,34(8):1423-1436
主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者从主题模型的起源隐性语义索引出发,对概率隐性语义索引以及LDA等在主题模型发展中的重要阶段性工作进...  相似文献   

11.
面向自然语言信息处理的维吾尔语名词形态分析研究   总被引:2,自引:3,他引:2  
名词是人类语言中的基本词类之一。维吾尔语是一种形态变化很复杂的语言,其中名词是一种形态变化复杂的词类。因此名词的形态分析研究无论在语法研究还是在语言信息处理中都非常重要。本文对维吾尔语名词的形态变化(名词的数、人称、格等语法范畴)进行了形式化的描述和分析。指出了维吾尔语名词的基本形态参数,总结出参数的组配规律并统计了其类型,探索了维吾尔语名词的削尾方法。这些工作将为维吾尔语名词形态处理提供有效的方法和新的思路。  相似文献   

12.
自然语言文本水印   总被引:27,自引:0,他引:27  
本文主要介绍了基于自然语言处理的文本水印技术,也即自然语言文本水印技术。该技术是在不改变文本原意的前提下,将需要隐藏的文本信息(水印信息) 插入到原始文本中的一种信息隐藏技术。这种技术对于确认信息来源和信息的秘密传送,以及版权维护等方面都有着很大的应用价值。本文首先给出了基于自然语言处理技术的文本水印的概念、特点及攻击模型,并对文本水印的研究现状进行了分析。通过分析可以看出,自然语言文本水印技术有着更好的灵活性,并且在适度的攻击下,不会破坏水印信息。本文详细介绍了文本水印系统的设计过程,包括该技术的基础数学理论- 二次余数理论。最后详细介绍了两种自然语言文本水印嵌入方法,分别是基于句法分析和基于语义的水印嵌入方法。  相似文献   

13.
自然语言是人类交流最自然的方式。但其复杂性和模糊性常常给有效的交流带来问题。现代社会尤其是当前信息时代面对大量的信息数据,不少工业场景和科研领域以及各种人机交互的应用要求清晰精准、标准化而又较为自然的表达和交流,受控自然语言随着这些需求应运而生。该文讨论受控自然语言及其性质、分类和应用,以及受控自然语言的计算处理方法。该文将以航空工业民用飞机所涉及的英语文本数据为例来阐述受控自然语言在工业场景中的作用和重要性,并且简要讨论受控自然语言更为广泛的意义和价值,涉及其他领域包括当前热门的人工智能等相关的课题。  相似文献   

14.
视觉问答中的语言处理方法对视觉问答模型的性能影响巨大。语言处理方法源于自然语言处理,但在发展过程中与自然语言处理领域最先进技术脱节,导致视觉问答中涉及的问题理解和答案生成受阻。产生这一问题的根源主观上是研究人员对语言处理方法的重要性认识不足,客观上则是相关研究文献的匮乏。针对上述问题,通过分析语言处理对视觉问答的价值,调查视觉问答中涉及到的语言处理方法和最新研究成果,归纳总结语言处理方法的类型,从而为研究人员认识语言处理重要性提供基础;探讨了自然语言处理技术对视觉问答中语言处理方法的推动作用,并展望了语言处理方法未来的发展方向。  相似文献   

15.
张烨  聂一鸣 《智能安全》2023,2(4):100-112
大语言模型一般指包含百亿个以上参数的预训练语言模型,通过在大规模语料库上进行训练,大语言模型不仅在自然语言处理问题上表现出色,而且在各个垂直领域中也展现出强大的能力,成为当前人工智能领域的热点研究内容之一。首先,介绍了仅编码器结构、编码器-解码器结构、仅解码器结构大语言模型的发展历程,重点关注相关预训练、适配微调等关键技术。然后,分析了大语言模型在医疗、编程、数据生成等领域的应用现状,以及因模型规模不断扩大而产生的计算资源、模型可解释性等方面的问题。最后,从智能安全的角度出发,探讨了大语言模型强大的文本理解、处理与生成能力在提升网络、交通等领域安全性方面的应用潜力。  相似文献   

16.
计算智能信息处理   总被引:3,自引:1,他引:3  
论述了基于计算的智能信息处理系统可以分为两大类:即基于传统计算机的人工智能系统和基于神经计算机的人工智能系统。比较了两者的本质区别,介绍了神经计算智能研究的当前进展及未来发展趋势  相似文献   

17.
近年来,自然语言处理领域涌现出多种基于Transformer网络结构的通用深度学习语言模型,简称“通用语言模型(general-purpose language models, GPLMs)”,包括Google提出的BERT(bidirectional encoder representation from transformers)模型等,已在多个标准数据集和多项重要自然语言处理任务上刷新了最优基线指标,并已逐渐在商业场景中得到应用.尽管其具有很好的泛用性和性能表现,在实际部署场景中,通用语言模型的安全性却鲜为研究者所重视.近年有研究工作指出,如果攻击者利用中间人攻击或作为半诚实(honest-but-curious)服务提供方截获用户输入文本经由通用语言模型计算产生的文本特征,它将以较高的准确度推测原始文本中是否包含特定敏感词.然而,该工作仅采用了特定敏感词存在与否这一单一敏感信息窃取任务,依赖一些较为严格的攻击假设,且未涉及除英语外其他语种的使用场景.为解决上述问题,提出1条针对通用文本特征的隐私窃取链,从更多维度评估通用语言模型使用中潜在的隐私风险.实验结果表明:仅根据通用语言模型提取出的文本表征,攻击者能以近100%的准确度推断其模型来源,以超70%的准确度推断其原始文本长度,最终推断出最有可能出现的敏感词列表,以重建原始文本的敏感语义.此外,额外针对3种典型的中文预训练通用语言模型开展了相应的隐私窃取风险评估,评估结果表明中文通用语言模型同样存在着不可忽视的隐私风险.  相似文献   

18.
人工智能语言处理技术在非结构化案件数据中的应用   总被引:1,自引:0,他引:1  
随着信息技术的快速发展,以文本、音频形式记录在案的非结构化数据急速增长,传统的案件人工处理方式已经很难满足应用需求,对公安机关案件侦查带来了重大挑战.对此,本文提出了利用人工智能技术领域的自然语言处理技术,对侵财类案件、电信诈骗类案件、团伙类案件等业务类型的信息系统中报警内容、简要案情、询问笔录等特征信息进行提取分析,...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号