首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
目前,许多深度神经网络模型以双向长短时记忆网络结构处理中文分词任务,存在输入特征不够丰富、语义理解不全、计算速度慢的问题。针对以上问题,该文提出一种基于膨胀卷积神经网络模型的中文分词方法。通过加入汉字字根信息并用卷积神经网络提取特征来丰富输入特征;使用膨胀卷积神经网络模型并加入残差结构进行训练,能够更好理解语义信息并提高计算速度。基于Bakeoff 2005语料库的4个数据集设计实验,与双向长短时记忆网络模型的中文分词方法做对比,实验表明该文提出的模型取得了更好的分词效果,并具有更快的计算速度。  相似文献   

2.
音节是缅甸语的最小构词单位。当前主流的基于统计的分词方法效果严重依赖于预先标注的训练样本集规模及人工方式选取特征的质量,然而,缅甸语属于稀缺资源语言,分词语料标注及特征选取面临较大困难。该文提出一种基于卷积神经网络的缅甸语分词方法,首先将缅甸语音节结构特征应用于缅甸语音节词向量特征分布式表示,然后基于卷积神经网络将音节及其上下文的特征进行融合,得到有效的特征表示,并通过深层网络的逐层特征优化自动学习到缅甸语分词的有效特征向量,最后利用softmax分类器来对构成缅甸语词汇的音节序列标记进行预测。实验结果表明,该方法取得了较好的效果。  相似文献   

3.
张黎  徐蔚然 《软件》2012,33(12)
中文分词是中文文本处理和自然语言处理中最基本和最重要的研究,它效果的好坏直接影响到所在领域中进一步研究的效果.本文对于已有的基于词典,基于统计,基于理解的分词方法进行了详细的阐述和讨论,分析了它们的优点和不足,并且介绍了现在的难点,在此基础上,为中文分词的进一步发展提供了建议.  相似文献   

4.
作为中文自然语言处理中的基础任务中文分词,其分词的好坏直接影响之后的自然语言处理任务。当前中文分词大部分都是采用基于机器学习的方法,但是其需要人工构建大量特征。针对上述问题,论文提出一种基于深度学习的新分词模型,该模型基于BLSTM(双向长短期神经网络),CNN(卷积神经网络)和CRF(条件随机场),充分利用了BLSTM可以利用长距离信息和CNN提取局部信息的优点。并设计了实验,在三个数据集上验证论文提出的模型在中文分词上的正确性和优越性。  相似文献   

5.
基于双向LSTM神经网络模型的中文分词   总被引:1,自引:0,他引:1  
中文分词是中文自然语言处理的基础。分词质量的好坏直接影响之后的自然语言处理任务。目前主流的分词是基于传统的机器学习模型。近年来,随着人工智能大潮的又一次兴起,长短期记忆(LSTM)神经网络模型改进了普通循环神经网络模型无法长期依赖信息的缺点,被广泛应用于自然语言处理的各种任务中,并取得了不错的效果。对中文分词,该文在经典单向LSTM模型上进行改进,增加了自后向前的LSTM层,设计了双向LSTM模型,改进了单向LSTM对后文依赖性不足的缺点;并引入了贡献率α,对前传LSTM层和后传LSTM层的权重矩阵进行调节,并设计了四个实验,验证了所建模型的正确性和优越性。  相似文献   

6.
作为自然语言处理任务的基础,中文分词的准确率直接影响命名实体识别、信息检索等任务的效果.针对现有分词模型使用的静态词向量精确表征能力较差和专业领域分词中模型适应性差等问题,本文提出一种使用字根信息为辅助特征的中文分词模型.模型分为主任务和辅助任务,主任务中使用ALBERT语言模型训练词向量,利用去池化卷积残差神经网络提...  相似文献   

7.
本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典的更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和TRIE索引树分词方法相比,该分词方法分词速度更快。  相似文献   

8.
本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典的更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和TRIE索引树分词方法相比,该分词方法分词速度更快。  相似文献   

9.
在自然语言处理领域,分词是非拉丁语系语言处理的首要任务。而在中文自然语言处理中,常见的是针对现代汉语进行分词处理,对古汉语涉及得较少。针对这一问题,设计针对古汉语的分词系统。系统采用流行的深度学习方法,对中文首先进行分词,采用长短时神经网络LSTM提取序列特征;之后采用Softmax进行分类,设计针对古汉语分词的长短时神经网络。在测试中取得了理想的预期,基本可以满足设计需求。该系统一方面提高了教学的效率,降低了古汉语断句的难点;另一方面,在一定程度上提升了学习的兴趣。  相似文献   

10.
中文分词是自然语言处理处理的基础,有着极其广泛的实际应用。可以说,在各类中文信息处理软件(系统)中,中文分词是不可或缺的环节。自上个世纪末,由于互联网在中国的兴起,更对中文信息处理提出要求,即在语义层面上处理中文,这使得中文分词算法的研究显得更加困难,中文分词技术的发展显得更为重要。  相似文献   

11.
几何命题处理中的中文分词技术   总被引:1,自引:1,他引:1  
佘莉  符红光  方海光 《计算机工程》2005,31(18):180-182
如何将自然语言表述的初等几何命题自动转化为计算机可理解的作图语言是自然语言处理中的空白,也是实现教育软件人机交互的难点.而中文分词是自然语言处理的第1步,分词结果直接影响后期的处理工作.该文通过对几何范围内的受限语言的研究,建立了有效可行的语言理解模型,完成了词素的切分和词性标注,并在程序上得以实现.  相似文献   

12.
随着大型图像集的出现以及计算机硬件尤其是GPU的快速发展,卷积神经网络(CNN)已经成为人工智能领域的一种成功算法,在各种机器学习任务中表现出色.但CNN的计算复杂度远高于传统算法,嵌入式设备上有限资源的限制成为制造高效嵌入式计算的挑战性问题.在本文中,我们提出了一种基于嵌入式设备的高效卷积神经网络用于电力设备检测,根据处理速度评估这种高效的神经网络.结果表明,该算法能够满足嵌入式设备实时视频处理的要求.  相似文献   

13.
近年来,卷积神经网络模型常常被用于文本情感分类的研究中,但多数研究都会忽略文本特征词本身所携带的情感信息和中文文本分词时被错分的情况.针对此问题,提出一种融合情感特征的双通道卷积神经网络情感分类模型(Dual-channel Convolutional Neural Network sentiment classifi...  相似文献   

14.
杨璐  何明祥 《计算机应用》2021,41(10):2842-2848
针对中文数据的特殊性导致判别时容易产生噪声信息,使用传统卷积神经网络(CNN)无法深度挖掘情感特征信息等问题,提出了一种结合情感词典的双输入通道门控卷积神经网络(DC-GCNN-SL)模型。首先,使用情感词典的词语情感分数对句子中的词语进行标记,从而使网络获取情感先验知识,并在训练过程中有效地去除了输入句子的噪声信息;然后,在捕获句子深度情感特征时,提出了基于GTRU的门控机制,并通过两个输入通道的文本卷积运算实现两种特征的融合,控制信息传递,有效地得到了更丰富的隐藏信息;最后,通过softmax函数输出文本情感极性。在酒店评论数据集、外卖评论数据集和商品评论数据集上进行了实验。实验结果表明,与文本情感分析的其他模型相比,所提模型具有更好的准确率、精确率、召回率和F1值,能够有效地获取句子的情感特征。  相似文献   

15.
Convolutional Neural Networks (CNNs) are popular in Advanced Driver Assistance Systems (ADAS) for camera perception. The versatility of the algorithm makes it applicable in multiple applications like object detection, lane detection and semantic segmentation. For image processing to be viable in driver assistance systems, the throughput requirement ranges in the order of a few tens of TeraMACs per second (TMACs). In addition, high accuracy levels of image detection and recognition cannot be compromised for the need for high throughput.In this paper, we present TileNET, a novel tiled architecture for ternary-weighted CNNs. TileNET is modular and scalable across variations in network organization and device configurations. Two modes of the implementation are presented, viz., systolic and streaming. A high-level estimation technique has been developed that facilitates fast performance evaluation through design space exploration among a range of target devices and varying CNN models.Performance has been verified for area and throughput estimation for Xilinx Virtex, Artix, Kintex and Zynq devices. TileNET implemented on Virtex-7 (XC7VX1140T) results in a throughput of about 16 Tera-operations per second (TOPs) for LeNet, AlexNet, ResNet-50 and VGG-16. In addition, the 45nm standard cell implementation of TileNet shows a throughput of about 30 TOPs respectively.  相似文献   

16.
针对书面汉语全切分中普遍存在的重复切分问题进行了研究.首先给出了重复切分的定义,然后分析指出切分歧义是引起重复切分的必然原因,从而使得重复切分的存在具有必然性和普遍性,另外讨论了两种可供选择的克服重复切分的方案.最后,对重复切分在全切分中出现的几率及对切分时间的影响进行了实验.实验结果显示,重复切分约占全切分的87%,消除重复切分后全切分的切分时间比消除前节省约84%.  相似文献   

17.
王义  沈洋  戴月明 《计算机工程》2020,46(5):102-108
以词向量为输入的单通道卷积神经网络无法充分利用文本的特征信息,并且不能准确识别中文文本的多义词。针对上述问题,建立一种细粒度的多通道卷积神经网络模型。采用word2vec进行词向量的预训练,利用3个不同的通道做卷积运算,分别为原始词向量、词向量与词性表示相结合的词性对向量以及细粒度的字向量。通过词性标注进行词义消歧,利用细粒度的字向量发现深层次的语义信息。在此基础上,设置不同尺寸的卷积核以学习句子内部更高层次抽象的特征。仿真结果表明,该模型较传统卷积神经网络模型在情感分类的准确率和F1值上性能均有明显提升。  相似文献   

18.
脑肿瘤自动分割对脑肿瘤诊断、手术规划和治疗评估中起着重要的作用.然而,由于脑病变结构的高可变性,组织边界模糊,以及数据有限和类不平衡等问题,导致其仍面临巨大的挑战.目前,大部分分割依赖手工,耗时耗力,易受主观影响,寻求一种高效的自动分割方法非常具有研究意义.介绍了脑肿瘤分割的研究背景、意义和难点,并概述了其发展历程;从...  相似文献   

19.
针对Word2Vec、GloVe等词嵌入技术对多义词只能产生单一语义向量的问题,提出一种融合基于语言模型的词嵌入(ELMo)和多尺度卷积神经网络(MSCNN)的情感分析模型。首先,该模型利用ELMo学习预训练语料,生成上下文相关的词向量;相较于传统词嵌入技术,ELMo利用双向长短程记忆(LSTM)网络融合词语本身特征和词语上下文特征,能够精确表示多义词的多个不同语义;此外,该模型使用预训练的中文字符向量初始化ELMo的嵌入层,相对于随机初始化,该方法可加快模型的训练速度,提高训练精度;然后,该模型利用多尺度卷积神经网络,对词向量的特征进行二次抽取,并进行特征融合,生成句子的整体语义表示;最后,经过softmax激励函数实现文本情感倾向的分类。实验在公开的酒店评论和NLPCC2014 task2两个数据集上进行,实验结果表明,在酒店评论数据集上与基于注意力的双向LSTM模型相比,该模型正确率提升了1.08个百分点,在NLPCC2014 task2数据集上与LSTM和卷积神经网络(CNN)的混合模型相比,该模型正确率提升了2.16个百分点,证明了所提方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号