首页 | 本学科首页   官方微博 | 高级检索  
     

KEC:基于cw2vec的中文专利关键词提取方法
作者姓名:谭婷婷  陈高荣  徐建(VIP
作者单位:南京理工大学 计算机科学与工程学院,南京210094;南京理工大学 计算机科学与工程学院,南京210094;南京理工大学 计算机科学与工程学院,南京210094
摘    要:关键词提取是诸多文本挖掘任务的前置任务,其精度直接影响了下游任务的性能。 以中文专利为研究对象,针对专利文本的特点,将关键词提取问题转换成词向量聚类问题,提出了一种基于cw2vec词向量的关键词提取方法,称为KEC。该方法首先利用科技文献的关键词以及开源词典构建领域词典;接着,基于领域词典对专利文本进行预处理获取候选关键词,并采用构建cw2vec模型获得候选关键词的词向量表示;最后,采用聚类算法提取最终的关键词。在真实的专利数据集上进行了实验验证,结果表明KEC在精确率、召回率、综合指标◢F▼1▽◣等指标项上优于现有的其它基于词聚类的关键词提取方法。

关 键 词:中文专利  词向量  关键词提取  词聚类
收稿时间:2019-06-24
修稿时间:2020-09-05
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号