基于无监督学习的中文电子病历分词 |
| |
引用本文: | 张立邦,关毅,杨锦峰.基于无监督学习的中文电子病历分词[J].电脑学习,2014(2). |
| |
作者姓名: | 张立邦 关毅 杨锦峰 |
| |
作者单位: | 哈尔滨工业大学计算机科学与技术学院; |
| |
摘 要: | 电子病历中包含大量有用的医疗知识,抽取这些知识对于构建临床决策支持系统和个性化医疗健康信息服务具有重要意义。自动分词是分析和挖掘中文电子病历的关键基础。为了克服获取标注语料的困难,提出了一种基于无监督学习的中文电子病历分词方法。首先,使用通用领域的词典对电子病历进行初步的切分,为了更好地解决歧义问题,引入概率模型,并通过EM算法从生语料中估计词的出现概率。然后,利用字串的左右分支信息熵构建良度,将未登录词识别转化为最优化问题,并使用动态规划算法进行求解。最后,在3 000来自神经内科的中文电子病历上进行实验,证明了该方法的有效性。
|
关 键 词: | 中文电子病历 无监督分词 EM算法 分支信息熵 动态规划 |
本文献已被 CNKI 等数据库收录! |
|