摘 要: | 为解决文章关键词数量过少、词义泛化、选词生僻、一义多词等问题,在搜集整理大量纺织领域论文和专业名词的基础上,遵循“避免泛化词”和“作者习惯”的原则,提出一种基于先验知识的论文关键词抽取新算法。首先统计候选关键词在概要库和关键词集中的出现频次,计算其先验概率;再借鉴“影响因子百分位”的思想,计算每个候选关键词的词频百分位,得到候选关键词的排序指标用于关键词抽取系统的排序推荐。经测试,该算法平均准确率(F1值)是无监督关键词抽取算法TextRank的1.7倍,并高于计算机领域同类型的半监督主流算法,证明了先验知识用于关键词排序推荐的有效性。
|