首页 | 本学科首页   官方微博 | 高级检索  
     

基于维基百科类别的文本特征表示
引用本文:王锦,王会珍,张俐.基于维基百科类别的文本特征表示[J].中文信息学报,2011,25(2):27-32.
作者姓名:王锦  王会珍  张俐
作者单位:1. 东北大学 自然语言处理实验室,辽宁 沈阳 110004;
2. 医学影像计算教育部重点实验室(东北大学),辽宁 沈阳 110819
基金项目:国家自然科学基金资助项目,中央高校基本科研业务费专项资金,高等学校博士学科点专项科研基金资助项目
摘    要:该文提出了基于维基百科类别体系的文本特征表示方法,方法是将文本中的词映射到维基百科的类别体系中,使用类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可以增强文本特征表示能力,降低文本特征空间维数。针对维基百科条目在语料中覆盖度不足的问题,该文提出了一种基于全局信息自学习维基百科类别的方法。该文构造基于维基百科类别为文本表示的分类系统,实验结果证明,基于维基百科类别作为文本表示特征,相对于词袋模型,具有明显的降维效果,在当特征数量较少时(如:<700),分类的F1值提高了5.14%。

关 键 词:文本分类  维基百科类别  文本表示  

Text Representation by the Wikipedia Category
WANG Jin,WANG Huizhen,ZHANG Li.Text Representation by the Wikipedia Category[J].Journal of Chinese Information Processing,2011,25(2):27-32.
Authors:WANG Jin  WANG Huizhen  ZHANG Li
Affiliation:1. Natural Language Processing Lab, Northeastern University, Shenyang, Liaoning 110004, China;
2. Key Laboratory of Medical Image Computing (Northeastern University), Ministry of Education,
Shenyang, Liaoning 110819, China
Abstract:In this paper, we present a text representation method by using wikipedia categories as text features. This method can map each word of text to one of wikipedia categories. It can enhance the representation ability of features and reduce the dimensions of a text vector. An approach to clustering techniques is presented to resolve the limited coverage of wikipedia categories by mapping unknown words into predefined categories. Then a text category system is developed that uses these learned wikipedia categories as text features. The experimental results show that text representation based on wikipedia categories has the obvious effect of dimension reduction, achieving 5.14% improvement on F1 over the BOW-based method when 700 features are used for text classification.
Key wordstext classification; text representation; wikipedia category
Keywords:text classification  text representation  wikipedia category  
本文献已被 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号