首页 | 本学科首页   官方微博 | 高级检索  
     

融合多源信息的平行语料库相似句段去重算法
引用本文:左世亮,刘稳良.融合多源信息的平行语料库相似句段去重算法[J].计算机仿真,2021,38(8):344-347,416.
作者姓名:左世亮  刘稳良
作者单位:上海应用技术大学,上海201418
摘    要:为降低多源信息背景下平行语料库重复句段对翻译工作的干扰,提升去重效率,设计一种基于词频-逆向文件频率技术的平行语料库相似句段去重算法.构建平行语料库句子一级对齐关联,设计概率模型,挑选最大概率路径为对齐输出,运用基于长度的句子对齐方法,确立源语料库中语言单位与目标语言文本间的翻译关系;根据句段词表层特性与信息熵,从多源语料库中择取少量待选实例并进行泛化匹配,得到句段相似程度;根据单词主题相关性推导出单词权重,把专业术语单词长度当作分辨单词主题相关性的前提,正态拟合单词长度获得关键词权重公式,以权重大小区分句段含义,完成相似句段去重.实验结果证明,所提方法去重效率较好、精度较高,适用范围广,为语言服务企业的业务发展带来新的契机.

关 键 词:多源信息  平行语料库  相似度  句段去重  句子对齐

Parallel Corpus Similar Sentence Segment De-Duplication Algorithm Based on Multi-Source Information Fusion
ZUO Shi-liang,LIU Wen-liang.Parallel Corpus Similar Sentence Segment De-Duplication Algorithm Based on Multi-Source Information Fusion[J].Computer Simulation,2021,38(8):344-347,416.
Authors:ZUO Shi-liang  LIU Wen-liang
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号