基于领域词典的文本特征表示 |
| |
作者姓名: | 陈文亮 朱靖波 朱慕华 姚天顺 |
| |
作者单位: | 东北大学自然语言处理实验室,沈阳,110004;东北大学自然语言处理实验室,沈阳,110004;东北大学自然语言处理实验室,沈阳,110004;东北大学自然语言处理实验室,沈阳,110004 |
| |
基金项目: | 国家自然科学基金和微软亚洲研究院联合资助项目(60203019);国家自然科学基金项目(60473140);国家教育部科学技术研究重点项目(104065). |
| |
摘 要: | 为提高文本分类性能,提出一种结合机器学习和领域词典的文本特征表示方法.基于领域词典的文本特征表示方法可以增强文本特征表示能力。并降低文本特征空间维数,但是领域词典存在覆盖度不足的问题.为此,提出一种学习模型——自划分模型——来解决这个覆盖度不足的问题.实验结果表明,采用基于自划分模型的领域特征属性作为文本特征。可以提高文本分类性能,特别是特征数目少的情况下,该方法表现出很好的分类效果.相对于传统词文本特征方法。在特征数为500时分类的F1值提高6.58%.
|
关 键 词: | 文本分类 知识获取 领域知识 文本表示 |
收稿时间: | 2004-06-29 |
修稿时间: | 2004-06-292004-10-29 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
|