首页 | 本学科首页   官方微博 | 高级检索  
     

基于领域词典的文本特征表示
作者姓名:陈文亮  朱靖波  朱慕华  姚天顺
作者单位:东北大学自然语言处理实验室,沈阳,110004;东北大学自然语言处理实验室,沈阳,110004;东北大学自然语言处理实验室,沈阳,110004;东北大学自然语言处理实验室,沈阳,110004
基金项目:国家自然科学基金和微软亚洲研究院联合资助项目(60203019);国家自然科学基金项目(60473140);国家教育部科学技术研究重点项目(104065).
摘    要:为提高文本分类性能,提出一种结合机器学习和领域词典的文本特征表示方法.基于领域词典的文本特征表示方法可以增强文本特征表示能力。并降低文本特征空间维数,但是领域词典存在覆盖度不足的问题.为此,提出一种学习模型——自划分模型——来解决这个覆盖度不足的问题.实验结果表明,采用基于自划分模型的领域特征属性作为文本特征。可以提高文本分类性能,特别是特征数目少的情况下,该方法表现出很好的分类效果.相对于传统词文本特征方法。在特征数为500时分类的F1值提高6.58%.

关 键 词:文本分类  知识获取  领域知识  文本表示
收稿时间:2004-06-29
修稿时间:2004-06-292004-10-29
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号