基于SVM和词间特征的新词识别研究 |
| |
引用本文: | 徐远方,李成城.基于SVM和词间特征的新词识别研究[J].计算机技术与发展,2012(5). |
| |
作者姓名: | 徐远方 李成城 |
| |
作者单位: | 内蒙古师范大学计算机与信息工程学院,内蒙古呼和浩特010022 |
| |
摘 要: | 中文分词的难点在于处理歧义和识别未登录词,因此对新词的正确识别具有重要作用.文中结合提出的新词词间模式特征以及各种词内部模式特征,对从训练语料中抽取正负样本进行向量化,通过支持向量机的训练得到新词分类支持向量.对测试语料结合绝对折扣法进行新词候选的提取与筛选,并与训练语料中提取的词间模式特征以及各种词内部模式特征进行向量化,得到新词候选向量,最后将训练语料中得到的新词分类支持向量以及对测试语料中得到的新词候选向量结合进行SVM测试,得到最终的新词识别结果
|
关 键 词: | 自然语言处理 支持向量机 新词识别 词间特征 |
本文献已被 万方数据 等数据库收录! |
|