共查询到20条相似文献,搜索用时 62 毫秒
1.
作为语言最小独立运行且有意义的单位,将连续型的老挝语划分成词是非常有必要的。提出一种基于双向长短期记忆BLSTM神经网络模型的老挝语分词方法,使用包含913 487个词的人工分词语料来训练模型,将老挝语分词任务转化为基于音节的序列标注任务,即将老挝语音节标注为词首(B)、词中(M)、词尾(E)和单独成词(S)4个标签。首先将老挝语句子划分成音节并训练成向量,然后把这些向量作为BLSTM神经网络模型的输入来预估该音节所属标签,再使用序列推断算法确定其标签,最后使用人工标注的分词语料进行实验。实验表明,基于双向长短期记忆神经网络的老挝语分词方法在准确率上达到了87.48%,效果明显好于以往的分词方法。 相似文献
2.
目前商标分卡处理方法是先进行文本检测再进行区域分类, 最后对不同的区域进行拆分组合形成商标分卡. 这种分步式的处理耗时长, 并且因为误差的叠加会导致最终结果准确率下降. 针对这一问题, 本文提出了多任务的网络模型TextCls, 通过设计多任务学习模型来提升商标分卡的检测和分类模块的推理速度和精确率. 该模型包含一个特征提取网络, 以及文本检测和区域分类两个任务分支. 其中, 文本检测分支采用分割网络学习像素分类图, 然后使用像素聚合获得文本框, 像素分类图主要是学习文本像素和背景像素的信息; 区域分类分支对区域特征细分为中文、英文和图形, 着重学习不同类型区域的特征. 两个分支通过共享特征提取网络, 像素信息和区域特征相互促进学习, 最终两个任务的精确率得以提升. 为了弥补商标图像的文本检测数据集的缺失以及验证TextCls的有效性, 本文还收集并标注了一个由2000张商标图像构成的文本检测数据集trademark_text (https://github.com/kongbailongtian/trademark_text), 结果表明: 与最佳的文本检测算法相比, 本文的文本检测分支将精确率由94.44%提升至95.16%, 调和平均值F1 score达92.12%; 区域分类分支的F1 score也由97.09%提升至98.18%. 相似文献
3.
老挝语属于资源稀缺型语言,直接从互联网中获取老挝语文本语料较为困难,老挝语文字识别研究可在有限的图片文本资源中获取更多的老挝语文本语料。在开展老挝文字光学字符识别的研究工作中,针对老挝单字符误切分、上/下位元音以及音调识别位置存在偏差和相似老挝字符的识别问题,该文研究了老挝字符书写等级和下位辅音,提出一种有效融合老挝字符结构特征的多任务字符识别方法。首先,利用深度残差网络提取字符图片中的老挝字符结构特征,通过边框回归矫正单字符包围框;其次,将已矫正切分结果和提取的字符特征作为联合输入,通过双向长短时记忆网络预测老挝字符序列,利用连接主义时间分类对预测结果进行序列对齐;最后,根据老挝字符固定组合优化模型预测结果。实验结果表明:该方法可以精确识别已切分的老挝字符序列,字符错误率指标低至13.06%。 相似文献
4.
5.
一种基于语境的中文分词方法研究 总被引:4,自引:0,他引:4
汉语不同于英语,词之间没有间隔标记.而汉语分词是文本分析的第一步,且存在歧义切分,因此分词问题成为汉语分析的首要难题,通过中文切分过程的本质分析,推导并提出基于马尔可夫链的语境中文切分理论.进而提出一种语境中文分词方法.该方法建立在词法和句法基础上,从语境角度分析歧义字段,提高分词准确率. 相似文献
6.
分词标注是中文信息处理的基础。传统方法的处理步骤大都是首先对文本进行预处理,得到文本的粗分模型,在此基础上对词语进行词性标注。粗分模型集合的大小取决于采用的分词方法,粗分模型的准确性直接影响着后续处理结果的准确性。提出一种基于统计的分词标注一体化方法即概率全切分标注模型,该方法的特点是将分词、标注两部分工作融为一体同时进行,在利用全切分获得所有可能分词结果的过程中,计算出每种词串的联合概率,同时利用马尔可夫模型计算出每种词串所有可能标记序列的概率,由此得到最可能的处理结果。该方法提高了结果的召回率和准确率 相似文献
7.
汉字到盲文自动转换是改善我国1700万视障人群生活学习和贯彻落实国家信息无障碍建设的重要问题.现有汉盲转换方法均采用多步转换方法,先对汉字文本进行盲文分词连写,再对汉字进行标调,最后结合分词和标调信息合成盲文文本.该文提出一种基于编码器-解码器模型Transformer的端到端汉盲转换方法,利用汉字-盲文对照语料库训练Transformer模型.基于《人民日报》六个月约1200万字中文语料,该文构建了国家通用盲文、现行盲文、双拼盲文三种对照汉盲语料库.实验结果表明,该文提出的方法可将汉字一步转换为盲文,并在国家通用盲文、现行盲文、双拼盲文分别有80.25%,79.08%和79.29%的BLEU值.相比现有汉盲转换方法,该方法所需语料库的建设难度较小,且工程复杂度较低. 相似文献
8.
MPLS QoS属于层次化QoS,称为MPLS HQoS,是QoS特性在VPN网络中的具体应用,它提供一套完整的MPLS QoS解决方案来满足VPN用户多样化和精细化的QoS需求。针对某专有网络通信隔离性和QoS需求,详细阐述对MPLS QoS各种流量模型及其工作原理,提出一套端到端QoS部署方案。 相似文献
9.
10.
在综合考虑差错扩散、差错掩盖策略及信道误码率的基础上,从像素级对端到端的视频传输差错扩散失真情况进行了分析,根据帧间相关系数和掩盖比率,提出了一种适用于各种时域差错掩盖方法的通用传输失真度估算模型.基于包丢失的仿真实验表明,该模型能够较好地近似估计出差错扩散失真情况,可以适应于各种不同的时域掩盖方法.实验还显示,基于该模型的宏块编码模式的帧内更新选择,与传统的R-D模式帧内更新算法相比,达到了较好地抑制差错扩散的效果,可适用于多种时域掩盖方法. 相似文献
11.
12.
13.
14.
15.
16.
GUO Yi 《数字社区&智能家居》2008,(7)
本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典的更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和TRIE索引树分词方法相比,该分词方法分词速度更快。 相似文献
17.
在新闻领域标注语料上训练的中文分词系统在跨领域时性能会有明显下降。针对目标领域的大规模标注语料难以获取的问题,该文提出Active learning算法与n-gram统计特征相结合的领域自适应方法。该方法通过对目标领域文本与已有标注语料的差异进行统计分析,选择含有最多未标记过的语言现象的小规模语料优先进行人工标注,然后再结合大规模文本中的n-gram统计特征训练目标领域的分词系统。该文采用了CRF训练模型,并在100万句的科技文献领域上,验证了所提方法的有效性,评测数据为人工标注的300句科技文献语料。实验结果显示,在科技文献测试语料上,基于Active Learning训练的分词系统在各项评测指标上均有提高。
相似文献
相似文献
18.
分词和词性标注是中文语言处理的重要技术,广泛应用于语义理解、机器翻译、信息检索等领域。在搜集整理当前分词和词性标注研究与应用成果的基础上,对中文分词和词性标注的基本方法进行了分类和探讨。首先在分词方面,对基于词典的和基于统计的方法进行了详细介绍,并且列了三届分词竞赛的结果;其次在词性标注方面,分别对基于规则的方法和基于统计的方法进行了阐述;接下来介绍了中文分词和词性标注一体化模型相关方法。此外还分析了各种分词和词性标注方法的优点和不足,在此基础上,为中文分词和词性标注的进一步发展提供了建议。 相似文献
19.
20.
目前,许多深度神经网络模型以双向长短时记忆网络结构处理中文分词任务,存在输入特征不够丰富、语义理解不全、计算速度慢的问题。针对以上问题,该文提出一种基于膨胀卷积神经网络模型的中文分词方法。通过加入汉字字根信息并用卷积神经网络提取特征来丰富输入特征;使用膨胀卷积神经网络模型并加入残差结构进行训练,能够更好理解语义信息并提高计算速度。基于Bakeoff 2005语料库的4个数据集设计实验,与双向长短时记忆网络模型的中文分词方法做对比,实验表明该文提出的模型取得了更好的分词效果,并具有更快的计算速度。 相似文献