首页 | 本学科首页   官方微博 | 高级检索  
     

基于主动学习的微博数据分类
引用本文:刘东江,黎建辉.基于主动学习的微博数据分类[J].计算机应用研究,2018,35(3).
作者姓名:刘东江  黎建辉
作者单位:中国科学院 计算机网络信息中心,中国科学院 计算机网络信息中心
基金项目:国家自然科学基金资助项目(41371386,91224006);中国国家卫生计生委专项研究基金资助项目(201302005);中国科学院战略性先导科技专项资助项目(XDA06010307, XDA05050601)
摘    要:在基于微博数据训练分类模型的过程当中,我们可以通过主动学习有效的减少需标注数据的数据量,SVM主动学习算法是主动学习中相当著名的算法,但是该算法还存在缺陷,就是没有对微博数据内容多样的特点进行充分考虑,因此在本文中作者提出了一种新的基于支持向量机(SVM)的主动学习算法,该算法通过未标注样本点与所有已标注样本点之间的余弦相似度之和来度量未标注样本与所有已标注样本点之间的相似性,通过选择与已选择的所有样本不相似的样本点进行标注就可以实现对于数据多样性的充分考虑;另外,为了避免太大的余弦相似度值对于余弦相似度之和的影响,该算法通过一种设置阈值的方法来使得被选择样本的最小余弦相似度尽可能大;除此之外,为了选择最佳的样本进行标注,在算法中我们在考虑数据多样性的同时也对样本点和分类超平面之间的距离进行了考虑。

关 键 词:微博数据    主动学习  支持向量机  分类模型  训练集
收稿时间:2016/10/28 0:00:00
修稿时间:2018/1/17 0:00:00

Micro-blog data classification based on active learning
Liu Dongjiang and Li Jianhui.Micro-blog data classification based on active learning[J].Application Research of Computers,2018,35(3).
Authors:Liu Dongjiang and Li Jianhui
Affiliation:Chinese Academy of Science Computer Network Information Center,
Abstract:
Keywords:micro-blog data  active learning  support vector machine  classification model  training set
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号