基于无监督学习的中文电子病历分词期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于无监督学习的中文电子病历分词

引用本文：	张立邦,关毅,杨锦峰.基于无监督学习的中文电子病历分词[J].电脑学习,2014(2).

作者姓名：	张立邦关毅杨锦峰

作者单位：	哈尔滨工业大学计算机科学与技术学院;

摘要：	电子病历中包含大量有用的医疗知识,抽取这些知识对于构建临床决策支持系统和个性化医疗健康信息服务具有重要意义。自动分词是分析和挖掘中文电子病历的关键基础。为了克服获取标注语料的困难,提出了一种基于无监督学习的中文电子病历分词方法。首先,使用通用领域的词典对电子病历进行初步的切分,为了更好地解决歧义问题,引入概率模型,并通过EM算法从生语料中估计词的出现概率。然后,利用字串的左右分支信息熵构建良度,将未登录词识别转化为最优化问题,并使用动态规划算法进行求解。最后,在3 000来自神经内科的中文电子病历上进行实验,证明了该方法的有效性。
关键词：	中文电子病历无监督分词 EM算法分支信息熵动态规划
本文献已被 CNKI 等数据库收录！