KEC:基于cw2vec的中文专利关键词提取方法 |
| |
作者姓名: | 谭婷婷 陈高荣 徐建(VIP |
| |
作者单位: | 南京理工大学 计算机科学与工程学院,南京210094;南京理工大学 计算机科学与工程学院,南京210094;南京理工大学 计算机科学与工程学院,南京210094 |
| |
摘 要: | 关键词提取是诸多文本挖掘任务的前置任务,其精度直接影响了下游任务的性能。 以中文专利为研究对象,针对专利文本的特点,将关键词提取问题转换成词向量聚类问题,提出了一种基于cw2vec词向量的关键词提取方法,称为KEC。该方法首先利用科技文献的关键词以及开源词典构建领域词典;接着,基于领域词典对专利文本进行预处理获取候选关键词,并采用构建cw2vec模型获得候选关键词的词向量表示;最后,采用聚类算法提取最终的关键词。在真实的专利数据集上进行了实验验证,结果表明KEC在精确率、召回率、综合指标◢F▼1▽◣等指标项上优于现有的其它基于词聚类的关键词提取方法。
|
关 键 词: | 中文专利 词向量 关键词提取 词聚类 |
收稿时间: | 2019-06-24 |
修稿时间: | 2020-09-05 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《计算机应用研究》浏览原始摘要信息 |
|
点击此处可从《计算机应用研究》下载全文 |
|