首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
由于庞大的训练语料,统计语言模型的大小往往会超出手持设备的存储能力。随着现阶段资源受限设备的迅速发展,语言模型的压缩研究也就显得更加重要。本文提出了一个语言模型压缩方法,即将次数剪切与规则剪枝方法相结合,并使用分组的方法保证在不减少单元数目的情况下压缩模型。文章对使用新的算法得到的语言模型与次数剪切和规规则剪枝方法分别进行困惑度比较。实验结果表明,使用新方法得到的语言模型性能更好。  相似文献   

2.
n-grams语言模型旨在利用多个词的组合形式生成文本特征,以此训练分类器对文本进行分类。然而n-grams自身存在冗余词,并且在与训练集匹配量化的过程中会产生大量稀疏数据,严重影响分类准确率,限制了其使用范围。对此,基于n-grams语言模型,提出一种改进的n-grams语言模型--W-POS。将分词后文本中出现概率较小的词和冗余词用词性代替,得到由词和词性的不规则排列组成的W-POS语言模型,并提出该语言模型的选择规则、选择算法以及与测试集的匹配算法。在复旦大学中文语料库和英文语料库20Newsgroups中的实验结果表明,W-POS语言模型既继承了n-grams语言模型减少特征数量、携带部分语义和提高精度的优点,又克服了n-grams语言模型产生大量稀疏数据、含有冗余词的缺陷,并验证了选择和匹配算法的有效性。  相似文献   

3.
基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性,但其假设过于简单,即认为一个在文章的前面部分出现过的词往往会在后面重复出现。通过对一些文本的观察分析,我们认为作者在书写文章的时候,除了常常使用前文中出现过的词汇外,为了避免用词单调,还会在行文过程中使用前文出现过词汇的近义词或者同义词。另外,一篇文章总是围绕某个主题展开,所以在文章中出现的许多词汇往往在语义上有很大的相关性。我们对基于记忆的语言模型进行了扩展,利用汉语义类词典,将与缓存中所保留词汇语义上相近或者相关的词汇也引入缓存。实验表明这种改进在很大程度上提高了原有模型的性能,与n元语言模型相比困惑度下降了4011% ,有效地增强了语言模型的自适应性。  相似文献   

4.
准确的文档语言模型估计对于改善语言模型检索系统的性能是非常重要的。在本文中我们提出了基于主题语言模型的信息检索系统,首先设计了“改进的两阶段K2Means 聚类算法”来对文档集合进行聚类,通过引入Aspect Model 结合聚类结果可以得到基于主题的语言模型。这个新的语言模型较深入地刻画了词汇在不同主题下的分布规律以及文档所蕴含不同主题的分布规律。将主题语言模型和文档本身的语言模型通过线性插值可以更准确地估计文档语言模型。实验结果表明我们提出的这个方法显著改善了检索系统的性能,与Jelinek2Mercer 模型方法相比较,主题语言模型检索系统的平均精度提高大约16117 % ,召回率提高大约 9164 %。  相似文献   

5.
深度学习模型压缩与加速综述   总被引:1,自引:0,他引:1  
随着训练可用数据量的增长与计算平台处理能力的增强,基于深度学习的智能模型能完成越来越复杂的任务,其在计算机视觉、自然语言处理等人工智能领域已经取得重大突破.然而这些深度模型具有庞大的参数规模,与之伴随着可畏的计算开销与内存需求,使得其在计算能力受限平台(例如移动嵌入式设备)的部署中遇到了巨大的困难与挑战,因此如何在不影响深度学习模型性能的情况下进行模型压缩与加速成为研究热点.本文首先对国内外学者提出的经典深度学习模型压缩与加速方法进行分析,从参数剪枝、参数量化、紧凑网络、知识蒸馏、低秩分解、参数共享和混合方式等7个方面分类总结.其次,总结对比几种主流技术的代表性方法在多个公开模型上的压缩与加速效果.最后,对于模型压缩与加速领域的未来研究方向进行展望.  相似文献   

6.
Language models are crucial for many tasks in NLP (Natural Language Processing) and n-grams are the best way to build them. Huge effort is being invested in improving n-gram language models. By introducing external information (morphology, syntax, partitioning into documents, etc.) into the models a significant improvement can be achieved. The models can however be improved with no external information and smoothing is an excellent example of such an improvement.In this article we show another way of improving the models that also requires no external information. We examine patterns that can be found in large corpora by building semantic spaces (HAL, COALS, BEAGLE and others described in this article). These semantic spaces have never been tested in language modeling before. Our method uses semantic spaces and clustering to build classes for a class-based language model. The class-based model is then coupled with a standard n-gram model to create a very effective language model.Our experiments show that our models reduce the perplexity and improve the accuracy of n-gram language models with no external information added. Training of our models is fully unsupervised. Our models are very effective for inflectional languages, which are particularly hard to model. We show results for five different semantic spaces with different settings and different number of classes. The perplexity tests are accompanied with machine translation tests that prove the ability of proposed models to improve performance of a real-world application.  相似文献   

7.
This paper presents an effective approach for unsupervised language model adaptation (LMA) using multiple models in offline recognition of unconstrained handwritten Chinese texts. The domain of the document to recognize is variable and usually unknown a priori, so we use a two-pass recognition strategy with a pre-defined multi-domain language model set. We propose three methods to dynamically generate an adaptive language model to match the text output by first-pass recognition: model selection, model combination and model reconstruction. In model selection, we use the language model with minimum perplexity on the first-pass recognized text. By model combination, we learn the combination weights via minimizing the sum of squared error with both L2-norm and L1-norm regularization. For model reconstruction, we use a group of orthogonal bases to reconstruct a language model with the coefficients learned to match the document to recognize. Moreover, we reduce the storage size of multiple language models using two compression methods of split vector quantization (SVQ) and principal component analysis (PCA). Comprehensive experiments on two public Chinese handwriting databases CASIA-HWDB and HIT-MW show that the proposed unsupervised LMA approach improves the recognition performance impressively, particularly for ancient domain documents with the recognition accuracy improved by 7 percent. Meanwhile, the combination of the two compression methods largely reduces the storage size of language models with little loss of recognition accuracy.  相似文献   

8.
基于深度学习的语言模型研究进展   总被引:1,自引:0,他引:1  
王乃钰  叶育鑫  刘露  凤丽洲  包铁  彭涛 《软件学报》2021,32(4):1082-1115
语言模型旨在对语言的内隐知识进行表示,作为自然语言处理的基本问题,一直广受关注.基于深度学习的语言模型是目前自然语言处理领域的研究热点,通过预训练-微调技术展现了内在强大的表示能力,并能够大幅提升下游任务性能.本文围绕语言模型基本原理和不同应用方向,以神经概率语言模型与预训练语言模型作为深度学习与自然语言处理结合的切入点,从语言模型的基本概念和理论出发,介绍了神经概率与预训练模型的应用情况和当前面临的挑战,对现有神经概率、预训练语言模型及方法进行对比和分析.我们又从新型训练任务和改进网络结构两方面对预训练语言模型训练方法进行详细阐述,并对目前预训练模型在规模压缩、知识融合、多模态和跨语言等研究方向进行概述和评价.最后总结语言模型在当前自然语言处理应用中的瓶颈,对未来可能的研究重点做出展望.  相似文献   

9.
基于主题的汉语语言模型的研究   总被引:1,自引:0,他引:1  
基于主题的自适应语言模型能有效地解决语言模型跨主题应用的问题,针对其面临的两个主要问题——语料的分类和各语言模型的融合,采用了一种新的语料分类算法,突破了原有分类方法的一些局限性,并提出了一种改进的融合各语言模型的方法:概率 线性插值法,该方法既改善了语言模型的性能,又提高了横型的运算效率。  相似文献   

10.
《Computer》2001,34(5):12-14
The pace of change in computer technology can be breathtaking. Frequently, this makes it difficult for programmers to maintain skills that are in demand. Nowhere is this more apparent than in one of the newest and most dynamic segments of the computer industry: handheld devices and wireless technology. The use of handheld devices is growing rapidly, as is the demand for applications that run on smart phones and personal digital assistants. However, programming for these devices, which have limited processing power and memory, as well as tiny screens, is different than developing applications for PCs or servers. Very few programmers have much experience with these devices, particularly in the US, where handheld technology adoption has been slower than in Europe. This is creating a challenge for vendors looking for developers to write mobile applications. Companies must work hard and be creative to find programmers who can become productive quickly in the handheld environment. And in some cases, developers are carefully selecting projects to most efficiently allocate their limited programming resources  相似文献   

11.
随着自然语言处理(NLP,natural language processing)技术的快速发展,语言模型在文本分类和情感分析中的应用不断增加。然而,语言模型容易遭到盗版再分发,对模型所有者的知识产权造成严重威胁。因此,研究者着手设计保护机制来识别语言模型的版权信息。现有的适用于文本分类任务的语言模型水印无法与所有者身份相关联,且鲁棒性不足以及无法再生成触发集。为了解决这些问题,提出一种新的适用于文本分类任务模型的黑盒水印方案,可以远程快速验证模型所有权。将模型所有者的版权消息和密钥通过密钥相关的哈希运算消息认证码(HMAC,hash-based message authentication code)得到版权消息摘要,由HMAC得到的消息摘要可以防止被伪造,具有很强的安全性。从原始训练集各个类别中随机挑选一定的文本数据,将摘要与文本数据结合构建触发集,并在训练过程中对语言模型嵌入水印。为了评估水印的性能,在IMDB电影评论、CNEWS中文新闻文本分类数据集上对3种常见的语言模型嵌入水印。实验结果表明,在不影响原始模型测试精度的情况下,所提出的水印验证方案的准确率可以达到 100%。即使在模型微调和剪枝等常见攻击下,也能表现出较强的鲁棒性,并且具有抗伪造攻击的能力。同时,水印的嵌入不会影响模型的收敛时间,具有较高的嵌入效率。  相似文献   

12.
Abstract   One-to-one computing environments change and improve classroom dynamics as individual students can bring handheld devices fitted with wireless communication capabilities into the classrooms. However, the screens of handheld devices, being designed for individual-user mobile application, limit promotion of interaction among groups of learners. This study proposes a design of classrooms that incorporates personal workspace and public workspace. Students use handheld devices as private workspace and work with peers on public workspace with shared displays through their handheld devices. Experiments confirmed that students with only handheld devices did not demonstrate expected participation ratios and actively interact with group members. The proposed shared display groupware promoted shared understanding of the workspace and increased awareness of partner actions. Collaboration was enhanced by creating the opportunity for students to use handheld devices to perform ideal communication patterns and avoiding ineffective communication patterns.  相似文献   

13.
循环神经网络被广泛应用于各种序列数据处理任务中,如机器翻译、语音识别、图像标注等。基于循环神经网络的语言模型通常包含大量的参数,这一点在一定程度上限制了模型在移动设备或嵌入式设备上的使用。在低秩重构压缩的基础上,增加时间误差重构函数,并采用长短时记忆网络中的输入激活机制,提出了一种基于时间误差的低秩重构压缩方法。多个数据集上的数值实验表明,该方法具有较好的压缩效果。  相似文献   

14.
方文渊  刘琰  朱玛 《计算机科学》2019,46(1):219-225
最新的研究表明,从大量源代码中提取代码特征,建立统计语言模型,对代码有着良好的预测能力。然而,现有的统计语言模型在建模时,往往采用代码中的文本信息作为特征词,对代码的语法结构信息利用不充分,预测准确率仍有提升空间。为提高代码预测性能,提出了方法的约束关系这一概念;在此基础上,研究Java对象的方法调用序列,抽象代码特征,构建统计语言模型来完成代码预测,并研究基于方法约束关系的代码预测模型在Java语言中的适用范围。实验表明,该方法较现有的模型提高了8%的准确率。  相似文献   

15.
一种利用校对信息的汉字识别自适应后处理方法   总被引:1,自引:1,他引:0  
后处理技术是汉字识别系统的重要组成部分。传统的识别后处理技术在很大程度上依赖于所训练的统计语言模型,没有考虑所处理文本的特殊性;而且没有利用识别器的动态识别特性。本文利用部分校对过的正确本文信息,一方面可以构建自适应语言模型,及时发现所处理文本的语言特点;另一方面可以利用识别器的动态识别特性,以修正候选字集;从而使得后续文本的识别后处理具有自适应性。40 万字的数据测试表明:这种方法的文本平均错误率较传统的后处理方法下降35.24%了,可以大大减轻数据录入人员的工作量,具有较高的实用价值。  相似文献   

16.
研究表明,在递归神经网络语言模型的输入层加入词性标注信息,可以显著提高模型的效果. 但使用词性标注需要手工标注的数据训练,耗费大量的人力物力,并且额外的标注器增加了模型的复杂性. 为了解决上述问题,本文尝试将布朗词聚类的结果代替词性标注信息加入到递归神经网络语言模型输入层. 实验显示,在Penn Treebank语料上,加入布朗词类信息的递归神经网络语言模型相比原递归神经网络语言模型困惑度下降8~9%.  相似文献   

17.
针对文本匹配任务,该文提出一种大规模预训练模型融合外部语言知识库的方法。该方法在大规模预训练模型的基础上,通过生成基于WordNet的同义—反义词汇知识学习任务和词组—搭配知识学习任务引入外部语言学知识。进而,与MT-DNN多任务学习模型进行联合训练,以进一步提高模型性能。最后利用文本匹配标注数据进行微调。在MRPC和QQP两个公开数据集的实验结果显示,该方法可以在大规模预训练模型和微调的框架基础上,通过引入外部语言知识进行联合训练有效提升文本匹配性能。  相似文献   

18.
基于大规模语料训练的语言模型,在文本生成任务上取得了突出性能表现.然而研究发现,这类语言模型在受到扰动时可能会产生攻击性的文本.这种不确定的攻击性给语言模型的研究和实际使用带来了困难,为了避免风险,研究人员不得不选择不公开论文的语言模型.因此,如何自动评价语言模型的攻击性成为一项亟待解决的问题.针对该问题,该文提出了一...  相似文献   

19.
Portable computing is an emerging technology that allows computing to occur practically anywhere. Going beyond the typical use as the "pocket-sized organizer," new methods of using handheld devices are being developed. One new method is to use handheld devices to collect data in the field. The portability of handheld devices allows for data collection in virtually any setting and frees the researcher from the confines of the laboratory. This article describes the process of converting a paper-and-pencil method of data collection to a 3Com Palm Pilot(tm)III application. An iterative design process was used to evaluate the ease of use of the new application. The new application (a) substantially reduced time to transfer the data to a database, (b) did not interfere with the task, (c) allowed the user to accomplish the same tasks as with the paper method while adding functionality beyond the paper method, and (d) was rated as easy to use.  相似文献   

20.
搭配的正确使用是区分地道英语使用者和普通学习者的一个重要特征.通过分析中国英语学习者语料库(CLEC),可以发现动名词搭配错误是英语学习者易犯的错误.本文提出一种可用于纠正英语学习者动名词搭配错误的层次语言模型.该语言模型考虑到了句子内部词语之间的依赖关系,将句子处理为不同的层次的子句,同一个句子内部的单词高度相关,不同子句内的单词相关性弱.该语言模型对于句子成分的变化得到的结果更加稳定,而且搭配信息得到浓缩,得到的语言模型更加精确.本文将模型用于生成分类器特征和结果排序.这种层次语言模型应用到英语动名词搭配的检错纠错中,对比传统语言模型,会有更好的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号