共查询到19条相似文献,搜索用时 78 毫秒
1.
该文以字为基本标注单位,构建了一种汉语基本块识别的神经网络学习模型。模型联合分词任务的神经网络学习模型与基本块识别任务模型,将分词任务模型中学习得到的隐层特征融入基本块识别的模型中,两模型相互交替优化学习模型参数,并实现了以整句似然函数(而非单字似然函数)作为优化目标的算法。实验结果表明:1)以整句似然函数为优化目标的基本块识别的F值比单字似然情形要高出1.33%,特别是在多字块识别中,其召回率比单字似然情形要高出4.68%;2)融合分词任务模型中的隐层特征的汉语基本块识别模型的结果比不做融合的模型要高出2.17%,说明融合分词隐层特征的交替联合学习方法是有效的。 相似文献
2.
3.
汉语组块分析是将汉语句子中的词首先组合成基本块,进一步组合形成句子的功能块,最终形成一个具有层次组合结构的汉语句法描述结构.将汉语功能块的自动标注问题看作序列标注任务,并使用词和基本块作为标注单元分别建立标注模型.针对不同的标注模型,分别构建基本块层面的特征集合,并使用条件随机场模型进行汉语功能块的自动标注.实验数据来自清华大学TCT语料库,并且按照8∶2的比例切分形成训练集和测试集.实验结果表明,与仅使用词层面信息的标注模型相比,基本块特征信息的适当加入可以显著提高功能块标注性能.当使用人工标注的基本块信息时,汉语功能块自动标注的准确率达到88.47%,召回率达到89.93%,F值达到89.19%.当使用自动标注的基本块信息时,汉语功能块的标注的准确率为84.27%,召回率为85.57%,F值为84.92%. 相似文献
4.
5.
框架识别是语义角色标注的基本任务,它是根据目标词激起的语义场景,为其分配一个合适的语义框架。目前框架识别的研究主要是基于统计机器学习方法,把它看作多分类问题,框架识别的性能主要依赖于人工选择的特征。然而,人工选择特征的有效性和完备性无法保证。深度神经网络自动学习特征的能力,为我们提供了新思路。该文探索了利用深度神经网络自动学习目标词上下文特征,建立了一种新的通用的框架识别模型,在汉语框架网和《人民日报》2003年3月新闻语料上分别取得了79.64%和78.58%的准确率,实验证明该模型具有较好的泛化能力。 相似文献
6.
分析一般函数在反汇编后的结构特征,提出一种基于基本块划分的函数识别技术,将其用于库函数快速识别的设计中。针对库函数识别中的重定位及级联识别等问题,给出解决方案,阐述建立、读取库函数特征数据库的实现方法以及库函数识别算法。实验结果证实,该技术可以准确地识别库函数。 相似文献
7.
基于SRNN神经网络的汉语文本词类标注方法 总被引:3,自引:0,他引:3
词类标注是语料库加工流程一个关键环节,是句法,语义标注分析的前提,本文提出了一种基于SRNN神经网络的词类标记方法,SRNN在三层前向神经网络的结构基础上,增加了隐层节点与输入层状态节点之间的反馈联接,这种结构使用网络具有利用上下文词类信息的处理能力,本文还讨论了网络的训练算法,以人工标注的句子作训练集,经过训练收敛后的网络对新语料的词类标注正确率达到了94%。 相似文献
8.
现有的SLP优化算法无法处理内层循环中存在的依赖环和归约,并且在基本块边界产生大量的冗余拆包和赋值语句,从而导致向量化效率不高.针对该问题,提出了一种基于跨基本块变换和循环分布的SLP优化算法.该算法以控制流图为基础,根据基本块间各数组变量的Define-Use关系以及跨越基本块之间的数据依赖关系进行跨基本块的向量化变换,有序地采用跨基本块变换和循环分布,尽可能发掘最内层循环基本块内语句的并行性,使SLP自动向量化编译器生成具有更多SIMD指令的向量化代码.实验结果表明,该算法能够隐藏更多跨基本块冗余操作的开销,同时利用跨基本决的数据依较生成更优的SIMD指令,有效地提高了向量化程序的加速比. 相似文献
9.
跟踪缓存(Trace Cache)是着力解决取指令的带宽的一种颇具潜力的技术.SimpleScalar模拟器是使用软件手段模拟和研究CPU体系结构的重要手段.本文在介绍CPU模拟器和Trace Cache技术的基础上,提出了一种改进的基于基本块构造的Trace Cache,并在SimpleScalar模拟器中实现,并且给出了在这个平台上的试验结果. 相似文献
10.
在给定目标词及其所属框架的条件下,汉语框架语义角色标注可以分为语义角色识别和角色分类两个步骤。该文将此任务通过IOB2标记策略形式化为词序列标注问题,以词为基本标注单元,采用条件随机场模型进行自动标注实验。先对语料使用清华大学的基本块自动分析器进行分析,提取出15个块层面的新特征,并将这些特征标记形式化到词序列上。以文献[20]已有的12个词层面特征以及15个块层面特征共同构成候选特征集,采用正交表方法来选择模型的最优特征模板。在与文献[20]相同的语料上,相同的3组2折交叉验证实验下,语义角色标注的总性能的F1-值比文献[20]的F1-值提高了近1%,且在显著水平0.05的t-检验下显著。实验结果表明: (1)基于词序列模型,新加入的15个块层面特征可以显著提高标注模型的性能,但这类特征主要对角色分类有显著作用,对角色识别作用不显著;(2) 基于词序列的标注模型显著好于以基本块为标注单元以及以句法成分为标注单元的标注模型。 相似文献
11.
12.
13.
分词是中文自然语言处理中的一个关键基础技术。通过基于字的统计机器学习方法学习判断词边界是当前中文分词的主流做法。然而,传统机器学习方法严重依赖人工设计的特征,而验证特征的有效性需要不断的尝试和修改,是一项费时费力的工作。随着基于神经网络的表示学习方法的兴起,使得自动学习特征成为可能。该文探索了一种基于表示学习的中文分词方法。首先从大规模语料中无监督地学习中文字的语义向量,然后将字的语义向量应用于基于神经网络的有监督中文分词。实验表明,表示学习算法是一种有效的中文分词方法,但是我们仍然发现,由于语料规模等的限制,表示学习方法尚不能完全取代传统基于人工设计特征的有监督机器学习方法。 相似文献
14.
传统中文事件检测方法采用人工定义的特征表示候选触发词,耗时耗力。基于神经网络的特征学习方法在中英文事件检测任务中得到了验证。现有的基于神经网络的中文事件检测方法初步探索了字信息对解决分词错误的作用。字是中文的最小结构单元和语义表示单元。词语的字符级信息能够提供词语的结构性信息和辅助词语级语义。该文研究了字/词混合神经网络特征对于解决中文事件数据集未登录词问题的作用。采用神经网络模型分别学习词语的词语级表示和字符级表示,进而拼接得到词语的混合表示。实验结果表明,基于字/词混合表示的中文神经网络事件检测模型的F1值比当前最好的模型高2.5%。 相似文献
15.
藏文词性标注是藏文信息处理的基础,在藏文文本分类、自动检索、机器翻译等领域有广泛的应用。该文针对藏文语料匮乏,人工标注费时费力等问题,提出一种基于词向量模型的词性标注方法和相应算法,该方法首先利用词向量的语义近似计算功能,扩展标注词典;其次结合语义近似计算和标注词典,完成词性标注。实验结果表明,该方法能够快速有效地扩大了标注词典规模,并能取得较好的标注结果。 相似文献
16.
手写汉字识别是模式识别与机器学习的重要研究方向和应用领域;近年来,随着深度学习理论方法的完善、新技术的层出不穷,深度神经网络在图像识别分类、图像生成等典型应用中取得了突破性的进展,其中,深度残差网络作为最新的研究成果,已成功应用于手写数字识别、图片识别分类等多个领域;将研究深度残差网络在脱机孤立手写汉字识别中的应用方法,通过改进残差学习模块的单元结构,优化深度残差网络性能,同时通过对训练集的预处理,从数据层面实现训练生成模型性能的提升,最后设计实验,验证深度残差网络、End-to-End模式在脱机手写汉字识别中的可行性,分析、总结存在的问题及今后的研究方向。 相似文献
17.
传统的推荐算法在实际应用中取得不错的效果并得到广泛的使用,同时也面临严重的数据稀疏和冷启动的问题,随着全球数据总量的不断增长,数据结构愈加丰富,如何从这些数据中正确捕获用户偏好成为关键问题,分布式表示技术为此提供了新的解决思路。通过对近些年基于分布式表示技术的推荐算法进行综述,分析算法与传统推荐算法的区别和优势,对这些算法的实际应用场景进行总结,并对基于分布式表示的推荐算法的未来发展趋势进行展望,为后续相关工作提供参考。 相似文献
18.
一种基于稀疏分布记忆模型的汉字联想记忆方法 总被引:1,自引:0,他引:1
本文描述了Kanerva的稀疏分布记忆模型,指出了它在用于汉字联想时的问题,同时提出了改进的模型,试验表明,这种改进模型使记忆容量和容错能力大大提高。 相似文献
19.
基于神经网络的手写体汉字识别是将汉字点阵图形转换成电信号,然后输入给数字信号处理器或计算机进行
处理,依据一定的分类算法在众多汉字字符中找出和它相互匹配的汉字字符。本文阐述了手写体汉字识别实验系统的设计目
标,分析了手写体汉字的预处理及其原理,详细介绍了手写汉字的特征提取。 相似文献