排序方式: 共有43条查询结果,搜索用时 15 毫秒
11.
提出一种概率神经网络样例选择算法,它包括两个阶段,第一个阶段利用概率神经网络计算样例的不确定性,第二个阶段利用计算出的不确定性选择样例.与压缩近邻规则、编辑近邻规则、约简近邻规则和迭代过滤算法四种代表性的样例选择算法进行了实验比较,实验结果显示在能力保持框架下,该算法的性能优于这四种方法.本文提出的算法具有下列特点:(1)学习速度快;(2)没有分类器的限制;(3)具有好的泛化能力. 相似文献
12.
基于划分子集的属性约简算法 总被引:1,自引:1,他引:0
Pawlak提出的基于属性重要度的约简算法是常用的算法之一,它通过计算等价关系对论域划分的粒度来度量属性的重要度。但用该算法计算每一个属性的重要度时,都要计算不同等价关系对整个论域的划分,计算复杂度非常高。受决策树划分子集思想的启发,对基于属性重要度的属性约简算法进行了改进,提出了一种基于划分子集的属性约简算法。在核属性集形成划分的基础上,通过在核属性中添加非核属性从而形成更细的划分,如此反复。在保持正域不变的框架下,形成最细化分的属性集就是一个约简。理论分析显示该算法减少了求属性约简的计算时间复杂度,提高了求属性约简的效率。 相似文献
13.
14.
针对大数据样例选择问题,提出了一种基于随机森林(RF)和投票机制的大数据样例选择算法。首先,将大数据集划分成两个子集,要求第一个子集是大型的,第二个子集是中小型的。然后,将第一个大型子集划分成q个规模较小的子集,并将这些子集部署到q个云计算节点,并将第二个中小型子集广播到q个云计算节点。接下来,在各个节点用本地数据子集训练随机森林,并用随机森林从第二个中小型子集中选择样例,之后合并在各个节点选择的样例以得到这一次所选样例的子集。重复上述过程p次,得到p个样例子集。最后,用这p个子集进行投票,得到最终选择的样例子集。在Hadoop和Spark两种大数据平台上实现了提出的算法,比较了两种大数据平台的实现机制。此外,在6个大数据集上将所提算法与压缩最近邻(CNN)算法和约简最近邻(RNN)算法进行了比较,实验结果显示数据集的规模越大时,与这两个算法相比,提出的算法测试精度更高且时间消耗更短。证明了提出的算法在大数据处理上具有良好的泛化能力和较高的运行效率,可以有效地解决大数据的样例选择问题。 相似文献
15.
随着数据的爆炸式增长,大数据问题越来越受到关注,然而由于大数据具有维度较高、数据复杂且变化迅速的特性,导致传统的机器学习算法不再适用,故解决大数据特征选择问题迫在眉睫.本文基于投票机制和决策树算法提出了大数据环境下的投票特征选择算法.具体步骤为,随机划分大数据集U为L个子集,将划分后的L个子集发送到L个map节点,在每... 相似文献
16.
对粗信息粒与细信息粒的信息熵做了比较研究,并研究了粗信息粒和细信息粒对决策树产生的影响,得出以下结论:粗信息粒的信息熵不小于细信息粒的信息熵,细信息粒下选取扩展属性产生的决策树优于粗信息粒下选取扩展属性生成的决策树。 相似文献
17.
基于样例选取的属性约简算法 总被引:2,自引:0,他引:2
计算属性约简是粗糙集框架下归纳学习的关键部分.基于差别矩阵的属性约简算法是常用的属性约简算法之一.给定一个信息系统,利用该算法可以求出信息系统的所有属性约简.但是该算法需要的存储空间大,执行时间长,特别是对于大型数据库,差别矩阵的存储成为其应用的瓶颈.针对这一问题,提出了一种基于样例选取的属性约简算法,算法分为3步:首先从样例集中挑选出重要的样例;然后用选出的样例构造差别矩阵;最后计算信息系统的所有约简.实验结果显示,当处理大型数据库时,新算法能有效地减少存储空间和执行时间. 相似文献
18.
19.
基于深度神经网络的非监督学习方法通过联合优化特征表示和聚类指派,大大提升了聚类任务的性能。但大量的参数降低了运行速度,另外,深度模型提取的特征的区分能力也影响聚类性能。为此,提出一种新的聚类算法(asymmetric fully-connected layers convolutional auto-encoder, AFCAE),其中卷积编码器结合非对称全连接进行无监督的特征提取,然后K-means算法对所得特征执行聚类。网络采用3×3和2×2的小卷积核,大大减少了参数个数,降低了算法复杂性。在MNIST上AFCAE获得0.960的聚类精度,比联合训练的DEC(deep embedding clustering)方法(0.840)提高了12个百分点。在6个图像数据集上实验结果表明AFCAE网络有优异的特征表示能力,能出色完成下游的聚类任务。 相似文献
20.
支持向量机(support vector machine,SVM)仅利用靠近分类边界的支持向量构造最优分类超平面,但求解SVM需要整个训练集,当训练集的规模较大时,求解SVM需要占用大量的内存空间,寻优速度非常慢。针对这一问题,提出了一种称为样例约简的寻找候选支持向量的方法。在该方法中,支持向量大多靠近分类边界,可利用相容粗糙集技术选出边界域中的样例,作为候选支持向量,然后将选出的样例作为训练集来求解SVM。实验结果证实了该方法的有效性,特别是对大型数据库,该方法能有效减少存储空间和执行时间。 相似文献