一种基于密度的大边界最近邻文本分类方法 A LARGE MARGIN NEAREST NEIGHBOUR TEXT CLASSIFICATION METHOD BASED ON DENSITY期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

一种基于密度的大边界最近邻文本分类方法

作者单位：	;1.上海交通大学自动化系系统控制与信息处理教育部重点实验室

摘要：	距离的度量方法是影响K近邻分类算法的最重要因素,普通的欧式距离度量方法只对数值敏感无法反映数据内部的关联,对此在K近邻文本分类中引入一种大边界最近邻(LMNN)距离度量学习算法,并针对此算法会加剧数据密度分布不均的情况,提出一种改进的基于样本密度的大边界最近邻文本分类算法(DLMNNC)。该算法首先利用LMNN完成对样本集的训练得到映射矩阵L对原数据空间进行重构,然后为了解决LMNN算法可能会加剧样本分布不均匀的问题定义一个密度函数D,最后用密度函数结合K近邻决策条件,实现文本分类。实验证明DLMNNC在很大程度上提高了文本分类精度。
关键词：	大边界最近邻 K近邻密度距离度量学习文本分类
A LARGE MARGIN NEAREST NEIGHBOUR TEXT CLASSIFICATION METHOD BASED ON DENSITY

Abstract:

Keywords: