排序方式: 共有43条查询结果,搜索用时 31 毫秒
21.
提出了一种基于MapReduce和上采样的两类非平衡大数据分类方法,该方法分为5步:(1)对于每一个正类样例,用MapReduce寻找其异类最近临;(2)在两个样例点之间的直线上生成若干个正类样例;(3)以新的正类样例子集的大小为基准,将负类样例随机划分为若干子集;(4)用负类样例子集和正类样例子集构造若干个平衡数据子集;(5)用平衡数据子集训练若干个分类器,并对训练好的分类器进行集成。在5个两类非平衡大数据集上与3种相关方法进行了实验比较,实验结果表明本文提出的优于这3种方法。 相似文献
22.
23.
24.
K-近邻(K-Nearest Neighbors,K-NN)是一种懒惰学习算法,用K-NN对数据分类时,不需要训练分类模型。K-NN算法的优点是思想简单、易于实现;缺点是计算量大,原因是在对测试样例进行分类时,其需要计算测试样例与训练集中每一个训练样例之间的距离。压缩近邻算法(Condensed Nearest Neighbors,CNN)可以克服K-NN算法的不足。但是,在面对大数据集时,由于自身的迭代计算特性,CNN的运算效率会变得非常低。针对这一问题,提出一种名为Spark CNN的压缩近邻算法。在大数据环境下,与基于MapReduce的CNN算法相比,Spark CNN的效率大幅提高,在5个大数据集上的实验证明了这一结论。 相似文献
25.
随着数据的海量型增长,如何存储并利用数据成为目前学术研究和工业应用等方面的热门问题。样例选择是解决此类问题的方法之一,它在原始数据中依据既定规则选出代表性的样例,从而有效地降低后续工作的难度。基于此,提出一种基于哈希学习的投票样例选择算法。首先通过主成分分析(PCA)方法将高维数据映射到低维空间;然后利用k-means算法结合矢量量化方法进行迭代运算,并将数据用聚类中心的哈希码表示;接着将分类后的数据按比例进行随机选择,在多次独立运行算法后投票选择出最终的样例。与压缩近邻(CNN)算法和大数据线性复杂度样例选择算法LSH-IS-F相比,所提算法在压缩比方面平均提升了19%。所提算法思想简单容易实现,能够通过调节参数自主控制压缩比。在7个数据集上的实验结果显示所提算法在测试精度相似的情况下在压缩比和运行时间方面较随机哈希有较大优势。 相似文献
26.
基于构建有序决策树,提出了一种新的归纳算法。该算法选择的扩展属性不仅和类的有序互信息值最大,而且要求和同一分支上已被用过的条件属性的有序互信息值最小。实验结果表明,考虑了条件属性之间的相关性后,可避免同一条件属性的重复选择,真正体现了条件属性和决策属性之间的有序互信息,与已有的算法相比,提高了测试精度。 相似文献
27.
提出了一种基于小波变换和多类支持向量机的图像分类新方法,该方法利用小波变换进行图像特征提取,利用多类支持向量机进行图像分类,并与基于图像底层特征的图像分类方法进行了实验比较。实验结果表明该方法具有较好的分类性能。 相似文献
28.
在模糊ID3算法中,用模糊分类熵选择扩展属性,以自顶向下的方式递归地构建模糊决策树,对数据进行分类。提出了一种基于属性模糊熵的模糊分类算法,不同于模糊ID3算法,模糊条件属性的模糊熵作为权值用来对相对模糊频率进行加权,综合考虑各个模糊条件属性对分类的贡献。实例分析和实验结果表明了这一算法的有效性。 相似文献
29.
有序分类是现实生活中广泛存在的一种分类问题。基于排序熵的有序决策树算法是处理有序分类问题的重要方法之一,这种方法是以排序互信息作为启发式来构建有序决策树。基于这项工作,通过引入模糊有序熵,并以模糊有序互信息作为启发式构建模糊有序决策树,对有序决策树进行了扩展。这两种算法在实际应用中各有自己的优劣之处,从四个方面对这两种算法进行了详细的比较,并指出了这两种算法的异同及优缺点。 相似文献
30.