基于BERT和多特征融合嵌入的中文拼写检查 |
| |
引用本文: | 刘哲,殷成凤,李天瑞.基于BERT和多特征融合嵌入的中文拼写检查[J].计算机科学,2023(3):282-290. |
| |
作者姓名: | 刘哲 殷成凤 李天瑞 |
| |
作者单位: | 1. 西南交通大学计算机与人工智能学院;2. 综合交通大数据应用技术国家工程实验室 |
| |
基金项目: | 国家自然科学基金(61773324);;中央高校基本科研业务费专项资金(2682021ZTPY097)~~; |
| |
摘 要: | 由于汉字的多样性和中文语义表达的复杂性,中文拼写检查仍是一项重要且富有挑战性的任务。现有的解决方法通常存在无法深入挖掘文本语义的问题,且在利用汉字独特的相似性特征时往往通过预先建立的外部资源或是启发式规则来学习错误字符与正确字符之间的映射关系。文中提出了一种融合汉字多特征嵌入的端到端中文拼写检查算法模型BFMBERT(BiGRU-Fusion Mask BERT)。该模型首先利用结合混淆集的预训练任务使BERT学习中文拼写错误知识,然后使用双向GRU网络捕获文本中每个字符错误的概率,利用该概率计算汉字语义、拼音和字形特征的融合嵌入表示,最后将这种融合嵌入输入到BERT中的掩码语言模型(Mask Language Model, MLM)以预测正确字符。在SIGHAN 2015基准数据集上对BFMBERT进行了评测,取得了82.2的F1值,其性能优于其他基线模型。
|
关 键 词: | 中文拼写检查 BERT 文本校对 掩码语言模型 字词错误校对 预训练模型 |
|