首页 | 官方网站   微博 | 高级检索  
     

一种面向术语抽取的短语过滤技术
引用本文:周浪,冯冲,黄河燕.一种面向术语抽取的短语过滤技术[J].计算机工程与应用,2009,45(19):9-11.
作者姓名:周浪  冯冲  黄河燕
作者单位:1. 南京理工大学,计算机科学与技术学院,南京,210094;中国科学院,计算机语言与信息工程研究中心,北京,100097
2. 中国科学院,计算机语言与信息工程研究中心,北京,100097
基金项目:国家自然科学基金,国家高技术研究发展计划(863) 
摘    要:在术语抽取工作中,经常会遇到一些包含活跃词汇的短语或短语碎片,这些干扰项一般具有稳定的搭配模式,并且在语料中共现的概率也非常高。常用的短语过滤方法都是侧重于计算短语内部词语之间的黏合度,对这些干扰项的鉴别能力并不强。提出了一种基于左右熵的短语过滤方法,估算出短语或短语碎片中词语的活跃度,并过滤掉活跃度较高的短语或短语碎片。将该方法应用到一个术语抽取系统中,实验证实能够有效去除这些干扰项,提升术语抽取系统的性能。

关 键 词:术语抽取  短语过滤  左右熵  活跃因子
收稿时间:2009-4-2
修稿时间:2009-5-7  

Phrase filtering technology oriented to term extraction
ZHOU Lang,FENG Chong,HUNANG He-yan.Phrase filtering technology oriented to term extraction[J].Computer Engineering and Applications,2009,45(19):9-11.
Authors:ZHOU Lang  FENG Chong  HUNANG He-yan
Affiliation:ZHOU Lang,FENG Chong,HUANG He-yan.1.College of Computer Science , Technology,Nanjing University of Science , Technology,Nanjing 210094,China 2.Research Center of Computer & Language Information Engineering,CAS,Beijing 100097,China
Abstract:In the term extraction process,some phrases or phrase fragments containing active lexical represent as the noisy,which usually have the stable collocation pattern and a high co-occurrence probability in the corpus.The traditional phrase filtering methods are inclined to measure the cohesion of the inner words,and own less discriminate ability with these active noisy.This paper proposes a phrase filtering approach based on left/right entropy technology to evaluate the active degree of words in the phrases or...
Keywords:term extraction  phrase filtering  left/right entropy  active factor
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号