首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
藏文命名实体识别是藏文自然语言处理领域的一项关键技术,其目的是识别文本中的人名、地名及组织机构名。在目前的研究中,深度学习方法需要大量的标注数据是制约模型性能的主要因素,因此本文提出基于小样本学习的藏文命名实体识别方法。针对小样本数据量少导致模型无法充分学习实体特征的问题,本文提出实体特征信息融合方法,在训练过程中将实体位置信息、分词信息与藏文音节信息以维度拼接的方式进行特征融合,通过辅助信息增强实体特征,使得模型可以较好地学习藏文长实体的边界信息,并设计消融实验探究不同特征信息对模型效果的影响。实验结果表明,本文提出的方法有效提高了藏文小样本命名实体识别模型的准确率,相较于基线实验F1值总体提升了22.22~38个百分点。  相似文献   

2.
藏医药文本字符嵌入对藏医药医学实体识别有着重要意义,但目前藏文缺少高质量的藏文语言模型。本文结合藏文结构特点使用普通藏文新闻文本训练基于音节的藏文BERT模型,并基于藏文BERT模型构建BERT-BiLSTM-CRF模型。该模型首先使用藏文BERT模型对藏医药文本字符嵌入进行学习,增强字符嵌入对藏文字符及其上下文信息的表示能力,然后使用BiLSTM层进一步抽取藏医药文本中字符之间的依赖关系,最后使用CRF层强化标注序列的合法性。实验结果表明,使用藏文BERT模型初始化藏医药文本字符嵌入有助于提高藏医药医学实体识别效果,F1值达96.18%。  相似文献   

3.
已有的大量生物医学文本为人们提供了充足的资料,但却没有足够好的工具来帮助人们从中获取信息和知识。而命名实体识别则在信息检索、信息抽取及知识发现等这样的应用中起着很重要的作用。本文基于JNLPBA生物命名实体识别任务,简要介绍了目前几种在生物医学文本中常用的基于机器学习的命名实体识别模型,并进行比较及常规讨论,同时也提供了一些相关的背景信息。  相似文献   

4.
语言模型的建立对挖掘句子内部语义信息有着直接的影响,为了提高中文命名实体识别率,字的语义表示是关键所在.针对传统的中文命名实体识别算法没有充分挖掘到句子内部的隐藏信息问题,该文利用LSTM提取经过大规模语料预训练生成的字向量特征,同时将词向量预测矩阵传入到字向量特征提取阶段,通过矩阵运算融合为词向量特征,并进一步利用C...  相似文献   

5.
BERT词嵌入模型能够解决简单命名实体识别模型预测精度低的问题,但基于BERT类的复杂词嵌入模型具有计算复杂度高、模型预测时间过长等缺陷。针对该问题,构建基于知识蒸馏的命名实体识别模型,将BERT+CRF模型作为教师模型,获取较高的命名实体识别精度,并基于模型结构相似原则将BiGRU+CRF作为学生模型,在学生模型训练的过程中进行知识蒸馏。知识蒸馏根据教师模型Softmax层和学生模型Softmax层输出的标注概率矩阵分别作为教师模型的知识和学生模型的知识,通过均方损失函数计算教师模型知识与学生模型知识之间的差距,将获得的结果作为软标签误差,将学生模型预测的标签结果与真实标签之间的误差作为硬标签误差,总误差为软标签误差与硬标签误差的加权和,通过误差反向传播进行模型的训练,在减小总误差的同时缩小教师模型知识与学生模型知识之间的差距,使学生模型预测精度接近教师模型。最终使用学生模型进行预测,在接近教师模型预测精度的同时保证相对较短的预测时间。在DuIE2.0数据集上的实验结果表明,该命名实体识别模型在F1值损失2.6%的情况下,可使模型参数规模缩小93.7%,从而缩短了65.2%的运算时间...  相似文献   

6.
虽然以ChatGPT为代表的自然语言生成(NLG)大语言模型在自然语言处理中的大多数任务中取得了良好的表现, 但其在序列识别任务, 如命名实体识别任务中的表现暂且不如基于BERT的深度学习模型. 针对这一点, 本文探究性的通过将现有的中文命名实体识别问题改造成机器阅读理解问题, 提出并设计了基于情境学习和模型微调的新方法, 使NLG语言模型在识别命名实体达到了更好的效果, 并且该方法不同于其他方法需要改变基层模型的预训练参数. 同时, 由于命名实体是模型生成的结果而不是对原始数据的分类, 不存在边界问题. 为了验证新框架在命名实体识别任务上的有效性, 本文在多个中文命名实体识别数据集上进行了实验. 其中, 在Resume和Weibo数据集上的F1分数分别达到了96.04%和67.87%, 相较于SOTA模型分别提高了0.4和2.7个百分点, 从而验证了新框架能有效利用NLG语言模型在文本生成上的优势完成命名实体识别任务.  相似文献   

7.
8.
胡婕  胡燕  刘梦赤  张龑 《计算机应用》2022,42(9):2680-2685
针对预训练模型BERT存在词汇信息缺乏的问题,在半监督实体增强最小均方差预训练模型的基础上提出了一种基于知识库实体增强BERT模型的中文命名实体识别模型OpenKG+Entity Enhanced BERT+CRF。首先,从中文通用百科知识库CN-DBPedia中下载文档并用Jieba中文分词抽取实体来扩充实体词典;然后,将词典中的实体嵌入到BERT中进行预训练,将训练得到的词向量输入到双向长短期记忆网络(BiLSTM)中提取特征;最后,经过条件随机场(CRF)修正后输出结果。在CLUENER 2020 和 MSRA数据集上进行模型验证,将所提模型分别与Entity Enhanced BERT Pre-training、BERT+BiLSTM、ERNIE和BiLSTM+CRF模型进行对比实验。实验结果表明,该模型的F1值在两个数据集上比四个对比模型分别提高了1.63个百分点和1.1个百分点、3.93个百分点和5.35个百分点、2.42个百分点和4.63个百分点以及6.79个百分点和7.55个百分点。可见,所提模型对命名实体识别的综合效果得到有效提升,F1值均优于对比模型。  相似文献   

9.
已有的大量生物医学文本为人们提供了充足的资料,但却没有足够好的工具来帮助人们从中获取信息和知识。而命名实体识别则在信息检索、信息抽取及知识发现等这样的应用中起着很重要的作用。本文基于JNLPBA生物命名实体识别任务,简要介绍了目前几种在生物医学文本中常用的基于机器学习的命名实体识别模型,并进行比较及常规讨论,同时也提供了一些相关的背景信息。  相似文献   

10.
命名实体识别是自然语言处理的基础任务之一,目的是从非结构化的文本中识别出所需的实体及类型,其识别的结果可用于实体关系抽取、知识图谱构建等众多实际应用。近些年,随着深度学习在自然语言处理领域的广泛应用,各种基于深度学习的命名实体识别方法均取得了较好的效果,其性能全面超越传统的基于人工特征的方法。该文从三个方面介绍近期基于深度学习的命名实体识别方法: 第一,从输入层、编码层和解码层出发,介绍命名实体识别的一般框架;第二,分析汉语命名实体识别的特点,着重介绍各种融合字词信息的模型;第三,介绍低资源的命名实体识别,主要包括跨语言迁移方法、跨领域迁移方法、跨任务迁移方法和集成自动标注语料的方法等。最后,总结相关工作,并提出未来可能的研究方向。  相似文献   

11.
藏文文本编码识别方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
讨论了藏文编码识别与转换中的关键问题,介绍了藏文结构特点和统计学特征以及各种可能的识别准则,并进行分析比较。确定了使用以藏文的音节点间距规律和高频音节为特征的识别方法对方正Windows、方正Dos、同元、华光Windows、华光Dos、班智达、ASCII的藏文编码方案、ISO/IEC10646基本集、国家标准扩充集A的藏文编码识别,能够正确地将藏文文本与其他语言进行区分。在对目标样本的测试中,该算法的识别率可达100%。  相似文献   

12.
印刷体藏文文字识别技术研究   总被引:2,自引:0,他引:2       下载免费PDF全文
藏文字因其结构的特殊性,在应用传统文字识别方法进行识别时正确识别率较低,识别效果较差。在深入分析以印刷体藏文文字特征的基础上,提出了一系列可以在干扰情况下提高识别率的方法,包括局部自适应二值化算法、基于连通域的切分、基于网格的模糊笔划特征提取等。实验结果说明,这些方法可提高印刷体藏文文字识别系统的正确识别率和抗干扰能力。  相似文献   

13.
藏文音节拼写检查是藏语自然语言处理的基本任务,在藏文文字处理、文字识别、文本生成等领域具有广泛的应用。该文首先针对藏文音节的结构提出了音节向量化的方法,即音节矩阵。然后构建了适合于藏文音节拼写检查的CNN模型,使用1 364 880个藏文音节进行训练。最后对68 244个藏文音节进行测试。实验结果显示,藏文音节拼写检查CNN模型的结果优于规则、RNN和LSTM等模型,不仅对符合藏文文法的音节能正确识别外,而且对梵音藏文音节也能有效识别,正确率、召回率以及F值分别为99.52%、99.30%和99.41%。  相似文献   

14.
设计了DNS解析统计向量和检测特征向量,提出了一种基于命名及解析行为特征的异常域名检测方法,通过应用真实DNS解析数据的实验验证了该方法的有效性和可行性。实验表明,该方法较现有方法能够发现更多的异常域名,且具有较低的误报率。该方法是对现有方法检测能力的补充和提高,为僵尸网络等安全事件的检测与控制提供有效的信息支持和技术手段。  相似文献   

15.
该文在分析了现有藏文词性标注方法的基础上,提出感知机训练模型的判别式藏语词性标注方法,重点研究了符合藏语词法特性的模型训练特征模板、模型训练和词性标注方法。并且在人工标注的测试集上获得了98.26%的词性标注精确率,可以实际应用到藏语自然语言处理中。  相似文献   

16.
徐关友  冯伟森 《计算机应用》2022,42(9):2693-2700
最近一些基于字符的命名实体识别(NER)模型无法充分利用词信息,而利用词信息的格子结构模型可能会退化为基于词的模型而出现分词错误。针对这些问题提出了一种基于transformer的python NER模型来编码字符-词信息。首先,将词信息与词开始或结束对应的字符绑定;然后,利用三种不同的策略,将词信息通过transformer编码为固定大小的表示;最后,使用条件随机场(CRF)解码,从而避免获取词边界信息带来的分词错误,并提升批量训练速度。在python数据集上的实验结果可以看出,所提模型的F1值比Lattice-LSTM模型高2.64个百分点,同时训练时间是对比模型的1/4左右,说明所提模型能够防止模型退化,提升批量训练速度,更好地识别python命名实体。  相似文献   

17.
旨在从无监督聚类角度分析实体解析过程的机制。从特定类型、经典算法角度研究了无监督聚类的思路;从经典算法改进、演化分析角度研究了无监督增量聚类的思路;最后,对无监督聚类研究下一步需要解决的问题进行了展望。无监督聚类技术不仅能很好地解决传统实体解析过程中存在的聚类效率和质量问题,而且还能利用已有的聚类结果对快速演化的数据进行增量解析,进而进一步满足大数据环境下亟需的增量解析需求。没有深入分析无监督聚类算法的评价指标,尽管面向实体解析的无监督聚类方法有诸多优势,但仍然面临着准确性和可扩展性等挑战。  相似文献   

18.
在简要说明基于空时上下文(STC)和基于核函数循环结构(CSK)目标跟踪器的基础上,重点介绍基于颜色特征(CN)的跟踪器,并针对其在目标被遮挡、尺度变化和光照发生变化时易发生跟踪漂移的问题,提出自适应学习速率和自适应高斯核尺度因子两种方法,分别对训练模型的更新和标记进行改进,减少目标模型累积错误,提高跟踪过程准确性。实验中,选取10个视频集,采用3类评价参数对比算法改进前后跟踪效果。实验证明,改进后的算法对遮挡、光照变化和尺度变化等具有较好的鲁棒性,同时将该算法应用在无人机(UAV)视频行人跟踪上,取得了良好效果。  相似文献   

19.
The knowledge discovery process is supported by data files information gathered from collected data sets, which often contain errors in the form of missing values. Data imputation is the activity aimed at estimating values for missing data items. This study focuses on the development of automated data imputation models, based on artificial neural networks for monotone patterns of missing values. The present work proposes a single imputation approach relying on a multilayer perceptron whose training is conducted with different learning rules, and a multiple imputation approach based on the combination of multilayer perceptron and k-nearest neighbours. Eighteen real and simulated databases were exposed to a perturbation experiment with random generation of monotone missing data pattern. An empirical test was accomplished on these data sets, including both approaches (single and multiple imputations), and three classical single imputation procedures – mean/mode imputation, regression and hot-deck – were also considered. Therefore, the experiments involved five imputation methods. The results, considering different performance measures, demonstrated that, in comparison with traditional tools, both proposals improve the automation level and data quality offering a satisfactory performance.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号