首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对传统中文地址分词工作中存在的准确率差,识别率低的问题,提出了一种基于BERT的中文地址分词方法.同时,将非行政级别的地址标签进行重新设计,并通过构建BERT-BiLSTM-CRF模型,将中文地址分词任务转换为命名实体识别任务.利用大量全国地址数据对BERT进行训练,获取文本抽象特征;利用双向长短时记忆网络将文本序列...  相似文献   

2.
中文层级地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的重点.高质量中文地址层级提取方法通常依赖于大量人工标注数据,而获取带标注的数据集耗时长,成本昂贵,不易实现.为解决上述问题,文中提出基于置信度的双向长短时记忆和条件随机场主动学习混合模型(Active-BiLSTM-C...  相似文献   

3.
基于统计的分词方法在中文分词领域能取得较好的分词效果,利用条件随机场进行中文分词时能够充分考虑每个词状态前、后的各种不同状态,更加符合实际应用。但是通过已有的标注语料训练得到的模型,应用于具有专有名词的分词场合时,专有名词会被不合理的分为不同的单词,进而影响分词的准确度。基于专有名词被错误分开,考虑在条件随机场的基础上,通过人工添加一个或多个专有名词的形式,使专有名词以单字成词的形式存在,确保专有名词在分词过程中被视为完整的词,不会被错误分开,提高带有专有名词的文本进行分词时的准确率。  相似文献   

4.
在中文分词领域,基于字标注的方法得到广泛应用,通过字标注分词问题可转换为序列标注问题,现在分词效果最好的是基于条件随机场(CRFs)的标注模型。作战命令的分词是进行作战指令自动生成的基础,在将CRFs模型应用到作战命令分词时,时间和空间复杂度非常高。为提高效率,对模型进行分析,根据特征选择算法选取特征子集,有效降低分词的时间与空间开销。利用CRFs置信度对分词结果进行后处理,进一步提高分词精确度。实验结果表明,特征选择算法及分词后处理方法可提高中文分词识别性能。  相似文献   

5.
基于无向图序列标注模型的中文分词词性标注一体化系统   总被引:3,自引:0,他引:3  
在中文词法分析中,分词是词性标注必须经历的阶段。为了能在分词阶段就充分利用词性标注的信息和减少两阶段错误的累计,最好的方法是将两个阶段,整合到一个架构中。该文以无向图模型为基础,将分词和词性标注有机地统一在一个序列标注模型中。由于可以采用更深层次的依赖关系作为特征,一体化系统在1998年人民日报语料上取得了97.19%的分词精确率和95.34%的词性标注精确率,是目前同类系统,在这一语料上取得的最好结果。  相似文献   

6.
中文分词(Chinese Word Segmentation,CWS)是自然语言处理(Natural Language Processing,NLP)中一项重要的基础任务.由于不同领域中文词汇的特殊性以及缺乏相关领域的标记数据,面向特定领域的分词任务是近年来中文分词研究面临的挑战之一.因此,提出了一种基于双向长短时记忆...  相似文献   

7.
《信息技术》2016,(10):190-193
首先简要介绍了中文分词的应用领域,指出中文分词所面临的问题,歧义语句和未登录词的识别率低的现状。然后,在传统的机械分词算法基础上,改进算法,引入了多种优化技术。基于上述理论和改进算法,设计并实现了一个改进的中文分词系统,不仅能够保证快速分词,而且提高了分词的正确率,改善了歧义语句和未登录词的识别率低的问题。  相似文献   

8.
本文基于经典算法回溯法,对中文分词进行在研究与比对,发现我们的实验结果优于当下的双向LSTM模型、以及CRF条件随机场的数据,将中文分词难点问题未登录词和歧义词的识别提高了1%。  相似文献   

9.
词干提取是形态丰富语言信息处理中的基础任务,对其他自然语言处理任务有着重要的影响。该文将词干提取任务看作序列标注问题,以字符为切分粒度来表征维吾尔语单词的构成机制,结合条件随机场模型,实现基于字符序列标注的维吾尔语词干提取方法。首先使用词典查询方法进行词干提取,然后结合字符的弱化发音特征、音类特征以及语音特征,针对受限数据和非受限数据采用条件随机场训练模型及预测结果。实验结果表明,该方法在非受限数据集上效果较佳,且能广泛应用到其他语言。  相似文献   

10.
基于小规模尾字特征的中文命名实体识别研究   总被引:4,自引:0,他引:4       下载免费PDF全文
冯元勇  孙乐  张大鲲  李文波 《电子学报》2008,36(9):1833-1838
 本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征.实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度.该系统在我国863简体命名实体识别评测语料上专名(人名、地名和机构名)总体F1值达88.76%,超过当年最佳系统8.63个百分点.在SIGHAN 2006命名实体识别语料上的结果也居于前列.  相似文献   

11.
12.
传感器时序数据预测作为工业自动化和智能化的关键过程,对于自动化生产监督、风险预防和技术改进等具有重要意义.考虑到传统基于统计学的时序分析方法通用性弱、普通循环神经网络模型存在长期依赖的不足,针对工业设备温度、压力和电流强度等时序数据预测问题,提出了一种基于多变量分析的长短时记忆神经网络时序预测方法,该方法利用数据的远距离信息和多变量相关性,有效地提高了工业传感器时序数据预测的准确性.实验选取瑞典某公司的机械装载传感器数据用于训练和测试,通过与单变量长短时记忆模型以及其它主流时序预测算法比较,证明了该方法具备较好的预测性能和通用性.  相似文献   

13.
针对文本句子中语义角色重叠、高维度文本词向量训练中难以收敛等问题,将情感词标签与卷积神经网络相结合,采用结合情感词的卷积神经网络算法,将词语转为情感标签后与词向量拼接再输入卷积神经网络,将输出的特征再与双向长短期记忆神经网络所获取的特征进行融合,最后通过全连接网络输出情感分类结果。实验结果表明,在微博新冠疫情评论情绪数据集上,本研究所提出的算法模型文本情感特征识别精确度达到89.23%,比其他深度学习算法在准确率上至少提高1.95%,而且训练具有更快的收敛速度,能够为文本情感识别提供一种新的思路与方法。  相似文献   

14.
电力系统科学研究与生产实践的长期发展,积累了大量的非结构化和半结构化文本.对电力领域文本进行中文实体识别,是其进一步信息抽取的基础工作.为探索有效的电力实体识别方法,文中首先把电力实体分成十六种并对三类电力文本信息进行标注,进而采用双向长短时记忆网络和条件随机场的混合方法,对标注的电力文本进行了中文实体识别实验,并与隐...  相似文献   

15.
随着人体运动数据采集技术的发展,基于数据的人体运动的研究越来越受到人们的关注.人体运动的研究在医疗康复、运动训练、虚拟现实、以及影视和游戏等领域有着很大的应用空间.人体动作分类就是基于大量已标注动作名称的人体动作,对未标注的人体动作进行分类标注.在本文中,研究提出了一种基于长短时记忆网络(LSTM)的人体动作分类模型.首先,将人体动作表示为时间序列的形式.然后,将人体动作序列逐帧输入到去掉输出层的正向和反向LSTM中,并将隐藏层输出依次送入Mean pooling层和逻辑回归层得到最终的分类结果.最后,研究利用目前流行的深度学习平台TensorFlow实现本次研发的分类模型并进行训练.基于此,又进一步利用人体动捕数据库HDM05的数据进行实验来验证提出的分类模型,经过训练,该模型在测试集上的分类准确率达到了94.84%.  相似文献   

16.
气温数据是一种时间序列数据,具有明显非平稳波动特征.对气温数据进行建模可以对气温变化进行分析.针对时间序列模型预测精度不高的问题,提出了 一种长短时记忆网络(Long Short-Term Memory Recurrent Neural Network,LSTM)气温预测模型对昆明每天的最高温度进行预测,对不同模型进行...  相似文献   

17.
中文分词是信息提取、信息检索、机器翻译、文本分类、自动文摘、自然语言理解等中文信息处理领域的基础。目前中文分词依然是中文信息处理的瓶颈之一,本文对常见中文分词算法进行研究,并针对警务应用的场景,在经典的Jieba中文分词算法的逆向匹配法基础上提出双向最大匹配法,最后验证改进后的算法在中文分词准确度方面的提升。  相似文献   

18.
微表情是一种极为短暂的面部表情,当人们想要掩饰内心的真实情感时,就会不自觉的流露出来。由于微表情的持续时间短,动作幅度小等特点,检测和识别微表情就变得尤为困难。为了解决传统图像识别的方法的识别率低和预处理复杂等缺点,本文提出了采用深度神经网络的方法来对微表情进行识别。该深度神经网络由卷积神经网络(CNN)和长短时记忆型(LSTM)递归神经网络组合而成,CNN层负责提取微表情的静态图像特征,LSTM层将提取到的卷积特征进行整合,而得到这些特征在时域上的信息,进而对这些信息进行分类训练。在CASM2数据集下,该方法对5类表情的识别率比传统方法高。  相似文献   

19.
20.
基于中文分词的文本相似度动态规划算法   总被引:1,自引:0,他引:1  
肖侃  谭长庚  丁玲 《现代电子技术》2011,34(8):72-74,78
针对传统的基于动态规划的对论文的文本相似度计算的不足,提出了一种基于中文分词和动态规划的论文文本相似度计算方法,并对此进行了讨论。该方法克服了一般基于动态规划的计算方法所具有的效率低,判断准确率低的缺点。通过对实际中的论文数据库中论文进行测试和分析,该算法能提高计算准确率,并一定程度上提高了运算速度,可以应用于论文防抄袭系统中。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号