首页 | 本学科首页   官方微博 | 高级检索  
     

中医针灸领域术语自动抽取研究
引用本文:孙水华,黄德根,牛萍. 中医针灸领域术语自动抽取研究[J]. 中文信息学报, 2016, 30(3): 118-124
作者姓名:孙水华  黄德根  牛萍
作者单位:1. 大连理工大学 计算机科学与技术学院,辽宁 大连 116024;
2.福建工程学院 信息科学与工程学院,福建 福州 350118
基金项目:福建省自然科学基金(2014J01218);国家自然科学基金(61173100)
摘    要:针对中医针灸领域术语的构成特点,该文建立了一种基于规则的领域术语抽取算法模型,该模型首先对中医针灸领域术语种子集进行有限次的迭代,生成中医针灸领域术语构件集;然后,以术语构件集为领域词典,采用最大向前匹配算法对中文针灸医学文献中的句子进行切分,并抽取候选术语;最后,利用语言规则对候选术语进行过滤处理,筛选出中医针灸领域专业术语。分别以关键字集和中医词典为种子集进行实验,开式测试的F值分别达到76.96%和35.59%。


关 键 词:中医针灸领域术语  术语种子集迭代算法  术语过滤规则
  

Automatic Term Extraction in TCM Acupuncture Domain
SUN Shuihua,HUANG Degen,NIU Ping. Automatic Term Extraction in TCM Acupuncture Domain[J]. Journal of Chinese Information Processing, 2016, 30(3): 118-124
Authors:SUN Shuihua  HUANG Degen  NIU Ping
Affiliation:1.School of Computer Science and Technology,Dalian University of Technology,Dalian,Liaoning 116024,China;
2.College of Information Science and Engineering,Fujian University of Technology,Fuzhou,Fujian 350118,China
Abstract:A term extraction algorithm model based on language rules in TCM acupuncture domain is established. Firstly,the seed set of TCM acupuncture domain term is iterated finitely to generate the component set. Secondly, by regarding the component set as the domain dictionary,the model applies maximum forward matching algorithm to segment the sentences and extracts term candidates. Finally,the term candidates are filtrated by rules. The F-measures for open test are 76.96% and 35.59%,with keywords and traditional Chinese medicine dictionary as the seed set,respectively.
Keywords:TCM acupuncture domain term  term seed set iteration algorithm  term filter rule  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号