一种基于Tri-training的数据流集成分类算法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

一种基于Tri-training的数据流集成分类算法

作者姓名：	胡学钢马利伟李培培

作者单位：	合肥工业大学计算机与信息学院数据挖掘与智能计算实验室,合肥,230009

摘要：	数据流分类是数据挖掘领域的重要研究任务之一,已有的数据流分类算法大多是在有标记数据集上进行训练,而实际应用领域数据流中有标记的数据数量极少。为解决这一问题,可通过人工标注的方式获取标记数据,但人工标注昂贵且耗时。考虑到未标记数据的数量极大且隐含大量信息,因此在保证精度的前提下,为利用这些未标记数据的信息,本文提出了一种基于Tri-training的数据流集成分类算法。该算法采用滑动窗口机制将数据流分块,在前k块含有未标记数据和标记数据的数据集上使用Tri-training训练基分类器,通过迭代的加权投票方式不断更新分类器直到所有未标记数据都被打上标记,并利用k个Tri-training集成模型对第ｋ＋１块数据进行预测,丢弃分类错误率高的分类器并在当前数据块上重建新分类器从而更新当前模型。在10个UCI数据集上的实验结果表明：与经典算法相比,本文提出的算法在含80%未标记数据的数据流上的分类精度有显著提高。
关键词：	数据流分类 Tri-training 未标记数据集成加权投票

	点击此处可从《数据采集与处理》浏览原始摘要信息
	点击此处可从《数据采集与处理》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏