基于未登录词识别的微博评价短语抽取方法 |
| |
作者单位: | ;1.东华大学计算机科学与技术学院;2.上海计算机软件技术开发中心上海市计算机软件评测重点实验室 |
| |
摘 要: | 由于微博内容话题分散,识别博文评论对象是微博情感分析研究的热点和难点。研究表明未登录词识别是导致评价短语识别率低的重要原因之一。针对这种情况,提出一种基于文本词序列的词频、凝聚度、左右自由度等统计特征学习未登录词识别模型的方法。实验结果表明,将自动识别的微博文本中的未登录词加入基于CRFs的评价短语识别算法后,显著地提高了评价短语识别的准确率和召回率。未登录词的学习算法直接利用评价短语识别的标注样本,具有较强的可行性。
|
关 键 词: | 微博 评价短语 未登录词 统计特征 CRFs |
A METHOD OF TARGET PHRASE EXTRACTION FROM MICROBLOG BASED ON UNKNOWN WORDS RECOGNITION |
| |
Abstract: | |
| |
Keywords: | |
|
|