首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 55 毫秒
1.
针对目前财经领域内新闻数据杂乱无章、缺乏自动高效管理等问题,提出一种基于卷积神经网络的中文财经新闻分类方法。收集大规模财经新闻语料,通过无监督学习方法训练获得一个广义通用的财经类词向量模型,将词向量引入到卷积神经网络模型训练中实现有效分类。与传统方法相比,基于卷积神经网络的中文财经新闻分类方法网络模型结构简单,针对小样本集也能表现优异的性能,不仅能有效解决中文财经新闻分类问题,还可充分证明卷积神经网络在处理文本分类问题中的有效性。  相似文献   

2.
神经网络概率语言模型是一种新兴的自然语言处理算法,该模型通过学习训练语料获得词向量和概率密度函数,词向量是多维实数向量,向量中包含了自然语言中的语义和语法关系,词向量之间余弦距离的大小代表了词语之间关系的远近,词向量的加减代数运算则是计算机在“遣词造句”. 近年来,神经网络概率语言模型发展迅速,Word2vec是最新技术理论的合集. 首先,重点介绍Word2vec的核心架构CBOW及Skip-gram; 接着,使用英文语料训练Word2vec模型,对比两种架构的异同; 最后,探讨了Word2vec模型在中文语料处理中的应用.  相似文献   

3.
为了解决主题识别过程中词的上下文语境缺失问题,通过卷积神经网络将特定的上下文信息嵌入到词向量中,再将词向量输入到判别式主题模型中。本方法可以融合附加标签信息进行有监督的训练,处理文档分类等下游任务。通过与现有判别式主题模型进行对比和分析,能够获取到更加连贯的主题,同时在文本分类任务上表现出更好的预测性能,从而验证了方法的有效性和准确性。  相似文献   

4.
介绍了文本词向量及预训练语言模型的发展体系,系统整理并分析了其中重点方法的思想特点。首先,阐述了传统的文本词向量表征方法及基于语言模型的文本表征方法;然后,详述了预训练语言模型方法的研究进展,包括动态词向量的表征方法和基于Transformer架构的预训练模型;最后,指出了未来探究多模态间更有效的融合方式和迁移学习将成为该领域的发展趋势。  相似文献   

5.
针对统计模型受限于标注语料规模且不能捕获标注序列的上下文信息问题,提出一种融合深度学习和统计学习的印地语词性标注模型。该模型具有3层逻辑结构,首先在词表示层采用深度神经网络框架训练出印地语单词的形态特征,并利用word2vec方法对语料训练生成具有语义信息的低维度稠密实数词向量,然后在序列表示层将形态特征和词向量作为深度神经网络模型的输入并进行训练,得到输入序列的信息特征,最后在CRF推理层利用深度神经网络模型的输出状态和当前的转移概率矩阵作为CRF模型的参数,最终得到最优的标签序列。对提出的方法与其他方法进行了对比实验,结果表明融合深度学习和统计模型的方法较其他几种统计模型的性能有显著的提升。  相似文献   

6.
基于CNN特征空间的微博多标签情感分类   总被引:1,自引:0,他引:1       下载免费PDF全文
面对微博情感评测任务中的多标签分类问题时,基于向量空间模型的传统文本特征表示方法难以提供有效的语义特征。词向量表示能体现词语的语法和语义关系,并依据语义合成原理构建句子的特征表示。本文提出一个针对微博句子的多标签情感分类系统,采用经过有监督情感分类学习后的卷积神经网络(Convolution Neural Network, CNN)模型,将词向量合成为微博句子的向量表示,使得此CNN特征空间中的句子向量具有很好的情感语义区分度。在2013年NLPCC(Natural Language Processing and Chinese Computing)会议的微博情感评测公开数据集上,相比最优评测结果的宽松指标和严格指标,本系统的最佳分类性能分别提升了19.16%和17.75%;相比目前已知文献中的最佳分类性能,则分别提升了3.66%和2.89%。  相似文献   

7.
针对句子中不同的词对分类结果影响不同以及每个词对应的词向量受限于单一词向量训练模型的特点,提出一种基于词向量注意力机制的双路卷积神经网络句子分类模型(AT-DouCNN).该模型将注意力机制和卷积神经网络相结合,以不同训练算法得到的词向量同时作为输入,分别进行卷积和池化,并在全连接层进行融合,不仅能够使得具体分类任务下句子中的关键信息更易被提取,还能够有效地利用不同种类的词向量得到更加丰富的句子特征,进而提高分类的准确率.实验结果表明:所提出的模型在3个公开数据集上的分类准确率分别达到50.6%、88.6%和95.4%,具有良好的句子分类效果.  相似文献   

8.
针对目前已有的分词算法和程序在处理海量网络文本分词时性能下降的问题,本文提出了一种基于深度神经网络模型的中文分词方案。该方案利用基于长短期记忆网络的编码-解码模型对数据模型进行训练,并采用得到的模型进行分词。为了提升分词性能,进一步提出了一种基于词向量的修正方法,对采用上述模型的分词结果进行修正。对典型微博语料数据集的实验结果表明,提出基于模型的分词性能相对于传统的分词软件的分词性能有了较大提升。采用提出的词向量修正方法修正后的分词准确率和F值略优于未修正的分词准确率和F值,从而验证了论文提出的分词方案的有效性。  相似文献   

9.
相较于英文开放领域的问答匹配,中文专业医疗领域的问答匹配任务更具有挑战性。针对中文语义和医疗数据的复杂、多样,大多数研究人员都专注于设计繁杂的神经网络来探索更深层次的文本语义,工作思路较为单一,同时神经网络模型很容易因为微小扰动而误判,模型的泛化能力较差。为此,提出了一种基于对抗训练的问答匹配模型,利用双向预训练编码器来捕获问答句的语义信息,从而得到对应的向量表征;再通过在词嵌入表示上添加扰动因子生成对抗样本;最后将初始样本和对抗样本共同输入带有线性层的模型中进行分类预测。在cMedQA V2.0数据集上通过对比实验证明了对抗训练可以有效提升问答匹配模型的性能。  相似文献   

10.
针对释义识别任务如何学习上下文语义的问题,提出了利用词向量来表示句子语义距离的模型。首先,利用word2vec训练大规模的词向量模型,把词的语义信息利用向量分布式表示;然后通过欧氏距离来计算句子间词的移动开销;最后基于EMD模型实现了从词语义距离到句子语义距离的建模,通过采用句子变换矩阵来实现句子间语义距离的度量,进而从语义相似性方面进行句子释义识别。实验基于SemEval-2015 PIT任务,与作为实验基线的逻辑回归和加权矩阵因数分解方法进行比较,提出的模型采用有监督实验时, 值非常接近实验基线,而采用无监督方法实验时, 值提高了5.8%。  相似文献   

11.
美国对国内西班牙裔的显性语言政策和隐性语言政策集中体现了美国语言政策的基本思想,即唯英语思想和唯盎格鲁撒克逊文化思想。本文将美国对西裔的语言政策分为四个阶段,并试图从语言问题、语言资源、语言权利以及语言与经济、政治、国家安全的视角分析这些语言政策的制定和变化的内在动因,本研究对维护我国语言的多样性也有一定的启示。  相似文献   

12.
网络调侃语指近年来在网络上大量出现的搭配新奇、风格幽默、表义独特甚至出人意料的一类话语,包括词、短语、句子、句群四种语法形式。网络调侃语的主要特点为:模仿性强适应范围广;对事件或现象背景的依赖性强。网络调侃语的生成方式有两种类型:一是对特定话语的畸形放大;二是利用一定的手段生成新的话语。  相似文献   

13.
语码转换在大学英语教学中的研究   总被引:1,自引:0,他引:1  
论述了语码转换作为一种策略指导在大学英语教学中的目的,作用和途径,介绍了语码空缺和语码不对等二种情况,探讨了语码转换在实际教学过程中的应用问题。  相似文献   

14.
克拉申第二语言习得理论与外语教学   总被引:1,自引:0,他引:1  
第二语言习得理论是关于母语习得之后任何其他语言的学习规律的理论。语言学习与教学都应遵循语言习得的自然规律。对第二语言习得理论的研究有助于语言教学效率的提高。本文概括性地描述和解释了克拉申(Krashen)第二语言习得理论,探讨了克式理论对中国外语教学的启示。  相似文献   

15.
语言与社会及化环境有着密不可分的联系,语言离不开特定的社会环境。学习语言的同时学习了解相应的语言化背景,对语言的学习起到事半功倍的作用。以英语语言为例,分析和探讨了英语教学中如何更好地将化背景知识与语言教学紧密结合的问题。  相似文献   

16.
随着智能人机接口研究的兴起,手语合成的研究在国际上越来越受到重视,但是现有研究几乎都是关于美国手话和日本手语的侧重于计算机图形学方面的研究,本文从语言学角度分析并比较汉语和汉语和汉语手语各自的语法和语义特点,提出了汉语手语模型,并针对汉语和汉语手语各自的语法和语义特征采用基于规则变换到中间语言的方法实现了由汉语对汉语手语的。进而用参数驱动模型,采用图形学方法的在计算机上实现了一个由文本驱动的汉语手  相似文献   

17.
SignLanguageSynthesisinMulti┐functionPerceptionMachineXULinGAOWen(徐琳)(高文)(Dept.ofComputerScienceandEngineering,HarbinInstitut...  相似文献   

18.
世界上的语言有成千上万种 ,但总的可以为两类 :声调语言和语调语言。故此以汉语和英语为例论述了两者之间的区别 ,指出声调语言和语调语言是汉、英两个语音系统主要的区别之一 ,因而中国人在学习英语时 ,要注意这个区别。  相似文献   

19.
介绍了对构成数字化语言实验室系统各模块的功能,并从应用实践的角度阐述其对整个外语教学环境的改善。在数字化语言学习系统强大功能的支持下,外语教学打破了单一的程式化课堂模式,课堂教学变得更灵活、更丰富,使真正意义上的个性化教学成为可能;同时,促进了学生外语听说能力、语言综合运用能力的提高,使传统外语课堂教学的薄弱环节得以加强。  相似文献   

20.
自然语言处理是信息科学中人工智能的分支学科,该学科通过建立形式化的计算模型来分析、理解和生成自然语言。自然语言处理通常可进一步分为自然语言分析和自然语言生成两个领域。本文选择性的介绍了这两个领域中的一些重要术语并对这些术语的含义做了简要的解释。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号