首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
高维数据可视化分析是数据分析与可视化领域的研究热点,传统的降维方法得到的低维空间往往难以解释,不利于人们对高维数据的可视化分析与探索。提出一种新的可视化解释器(Explainer)方法,将L1稀疏正则化特征选取引入到高维数据的可视化处理过程中,建立起高层语义标签与少量的关键特征之间的联系。通过可视化设计与实验验证了该方法可以有效改善高维数据的可视化分析性能。  相似文献   

2.
随机森林是一种组合分类器技术,相较于决策树等单分类器,具有更好的预测和分类性能,但其也存在一些问题:因为随机森林自身的随机性,导致预测结果存在波动性;所使用的原始数据集样本基数大,维数多,增加了随机森林组合分类器的训练时间。针对以上问题,提出优化随机森林模型,对数据集进行数据集预处理和PCA降维操作,引入累计贡献率。结合选择的最佳阈值进行最终的预测结果分类,提高了模型的训练速度、预测准确率和稳定性。实验证明,该方法具有更优越的预测性能。  相似文献   

3.
针对模式分类算法不直观的问题,提出一种基于径向坐标可视化分析高维数据的方法。由最大似然原理估计高维数据的本征维数,用较少的变量结合径向坐标可视化方法对高维数据进行可视化降维分析。在径向坐标中揭示高维数据集中类别和特征间的关系,寻找基于不同特征排列顺序的最优映射,并结合多种机器学习方法对数据集进行分类。应用于UCI数据库中的6个数据集的结果表明,该方法具有较好的可视化和分类效果。  相似文献   

4.
王涌  陆卫  左楚涵  鲍明月 《传感技术学报》2021,34(11):1482-1488
为解决BOD传统测量耗时长、需要离线采样分析、实验操作复杂的问题,论文提出了一种基于特征重要性排序和LDA降维算法改进的随机森林模型用于BOD的快速软测量.改进随机森林模型将12维辅助特征向量降至3维特征向量,有效减少数据中存在的噪声与冗余信息,提升了随机森林模型的预测能力.仿真结果表明,改进后的随机森林模型相较于其他...  相似文献   

5.
6.
目前常规调度计算方法结果展示不清晰,导致洪水调度效果不理想,为了解决该问题,提出了随机森林应用于梯级洪水调度可视化的研究。构建梯级洪水预报的多元回归统计模型,确定不同时间步长下的预报时刻流量。为了避免在调度过程中出现数值振荡问题,引入TVD二阶格式,确定计算时长,由此构建洪水调度演进数值模拟模型。依据三维场景实时交互式漫游结构,实现了工程从整体到局部、从水库到下游的全尺度互动漫游。实验结果表明,该方法调度可视化结果更加精准。  相似文献   

7.
针对癫痫病人采集的EEG信号数据维数过高和含有复杂的非线性特征的问题,以及脑医学领域数据标注的成本较高的现状,研究了不同的无监督流形降维方法,并且在公开的癫痫集上对比了13种主流及较新的流形降维算法降维后在低维坐标空间的聚类效果.实验结果表明,与目前主流的其它流形及降维方法相比,基于L-ISOMAP得到的数据点在低维空间的分布有很好的聚类表现,不同类别的数据分界明显.当样本大小不同时,降维后的数据分布在可视化图中仍有一定的规律性,可视化效果明显优于其它的降维方法.  相似文献   

8.
针对癫痫病人采集的EEG信号数据维数过高和含有复杂的非线性特征的问题,以及脑医学领域数据标注的成本较高的现状,研究了不同的无监督流形降维方法,并且在公开的癫痫集上对比了13种主流及较新的流形降维算法降维后在低维坐标空间的聚类效果.实验结果表明,与目前主流的其它流形及降维方法相比,基于L-ISOMAP得到的数据点在低维空间的分布有很好的聚类表现,不同类别的数据分界明显.当样本大小不同时,降维后的数据分布在可视化图中仍有一定的规律性,可视化效果明显优于其它的降维方法.  相似文献   

9.
特征选择可以从原始特征空间中选择出一些最有效的特征以降低数据特征维度,提高学习算法性能。在数据降维问题中,常见的特征选择方法主要依靠数据本身的统计特性,通过数据本身信息选择更有效的特征,然而一些实际问题中往往积累了大量人类经验,这些人类知识可能对特征选择有重要影响,但很少有特征选择方法考虑使用这些人类知识。针对此类包含人类知识问题,并兼顾人类知识和采集数据的特征选择方法,提出了基于随机森林和模糊系统的二次筛选的特征选择模型。该模型通过随机森林算法剔除原始数据集中的冗余特征,实现初步筛选,利用初选特征中包含的人类知识搭建模糊系统,对初选特征计算评估得分,筛选出最终的关键特征。在汽油提纯真实数据集上进行了实验,相较于常规特征选择方法,该模型有显著提升,验证了结合人类知识随机森林特征选择方法的有效性。  相似文献   

10.
11.
为了充分利用高光谱图像的光谱信息和空间结构信息,提出了一种新的基于随机森林的高光谱遥感图像分类方法,首先,利用主成分分析降低数据的维数,并对主成分进行独立成分分析提取其光谱特征,同时消除像元的空间相关性,再采用形态学分析提取像元的空间结构特征,然后,根据像元的谱域和空域特征分别构造随机森林,并引入空间连续性对像元点的预测结果进行约束修正,最后由投票机制决定最后的分类结果。在AVIRIS和ROSIS高光谱图像上的实验结果表明,所提方法的分类性能要优于传统的高光谱图像分类方法,且分类精度高于基于单一特征的方法。  相似文献   

12.
Parallel coordinate plots (PCPs) are among the most useful techniques for the visualization and exploration of high-dimensional data spaces. They are especially useful for the representation of correlations among the dimensions, which identify relationships and interdependencies between variables. However, within these high-dimensional spaces, PCPs face difficulties in displaying the correlation between combinations of dimensions and generally require additional display space as the number of dimensions increases. In this paper, we present a new technique for high-dimensional data visualization in which a set of low-dimensional PCPs are interactively constructed by sampling user-selected subsets of the high-dimensional data space. In our technique, we first construct a graph visualization of sets of well-correlated dimensions. Users observe this graph and are able to interactively select the dimensions by sampling from its cliques, thereby dynamically specifying the most relevant lower dimensional data to be used for the construction of focused PCPs. Our interactive sampling overcomes the shortcomings of the PCPs by enabling the visualization of the most meaningful dimensions (i.e., the most relevant information) from high-dimensional spaces. We demonstrate the effectiveness of our technique through two case studies, where we show that the proposed interactive low-dimensional space constructions were pivotal for visualizing the high-dimensional data and discovering new patterns.  相似文献   

13.
提出了一种从海量高维数据中进行高效查询的算法,该算法基于小世界网络模型,并采用网络节点表示高维数据的特征向量。算法主要包含两个部分,基于K-Means的索引生成算法和随机逼近查询算法,两个算法均给出了具体的操作步骤。算法经大量实验仿真,得出通过合理设置小世界网络节点的近邻节点数量以及最大查询路径和最大迭代次数等参数,算法可以满足不同精度的用户查询请求。实验结果表明,实现的算法在高维度海量数据查询中具有良好的检索效果。  相似文献   

14.
针对高维数据实体识别问题,为了有效利用高维特征的富信息,提高分辨性能,提出一种随机组合集成分类器。定义基分类器的分类性能指标,将分类正确性和特征子集的个数作为设计基分类器两个目标,使用聚合函数将其转化为单目标优化问题。采用蚁群优化求解基分类器模型,提出利用最大信息系数度量特征的相关性作为蚁群优化启发式信息,使用谷元距离度量选择特征多样性差异最大的基分类器组合集成分类器,集成分类器的决策函数采用投票表决输出。在标准数据集上进行验证与对比,结果表明了该方法的有效性。  相似文献   

15.
自适应随机森林分类器在每个基础分类器上分别设置了警告探测器和漂移探测器,实例训练时常常会同时触发多个警告探测器,引起多棵背景树同步训练,使得运行所需的内存大、时间长。针对此问题,提出了一种改进的自适应随机森林集成分类算法,将概念漂移探测器设置在集成学习器端,移除各基础树端的漂移探测器,并根据集成器预测准确率确定需要训练的背景树的数量。用改进后的算法对较平衡的数据流进行分类,在保证分类性能的前提下,与改进前的算法相比,运行时间有所降低,消耗内存有所减少,能更快适应数据流中出现的概念漂移。  相似文献   

16.
Yang  Tianbao  Zhang  Lijun  Lin  Qihang  Zhu  Shenghuo  Jin  Rong 《Machine Learning》2020,109(5):899-938
Machine Learning - Learning from large-scale and high-dimensional data still remains a computationally challenging problem, though it has received increasing interest recently. To address this...  相似文献   

17.
Li  Xiao  Li  Kewen 《The Journal of supercomputing》2022,78(14):16581-16604
The Journal of Supercomputing - High-dimensional imbalanced biomedical data has dual characteristics of high-dimensional and imbalanced distribution. It is important to improve classification...  相似文献   

18.
针对大数据样例选择问题,提出了一种基于随机森林(RF)和投票机制的大数据样例选择算法。首先,将大数据集划分成两个子集,要求第一个子集是大型的,第二个子集是中小型的。然后,将第一个大型子集划分成q个规模较小的子集,并将这些子集部署到q个云计算节点,并将第二个中小型子集广播到q个云计算节点。接下来,在各个节点用本地数据子集训练随机森林,并用随机森林从第二个中小型子集中选择样例,之后合并在各个节点选择的样例以得到这一次所选样例的子集。重复上述过程p次,得到p个样例子集。最后,用这p个子集进行投票,得到最终选择的样例子集。在Hadoop和Spark两种大数据平台上实现了提出的算法,比较了两种大数据平台的实现机制。此外,在6个大数据集上将所提算法与压缩最近邻(CNN)算法和约简最近邻(RNN)算法进行了比较,实验结果显示数据集的规模越大时,与这两个算法相比,提出的算法测试精度更高且时间消耗更短。证明了提出的算法在大数据处理上具有良好的泛化能力和较高的运行效率,可以有效地解决大数据的样例选择问题。  相似文献   

19.
基于相关性分析及遗传算法的高维数据特征选择   总被引:4,自引:0,他引:4  
特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象,特征选择一方面可以提高分类精度和效率,另一方面可以找出富含信息的特征子集。针对此问题,提出了一种综合了filter模型及wrapper模型的特征选择方法,首先基于特征与类别标签的相关性分析进行特征筛选,只保留与类别标签具有较强相关性的特征,然后针对经过筛选而精简的特征子集采用遗传算法进行随机搜索,并采用感知器模型的分类错误率作为评价指标。实验结果表明,该算法可有效地找出具有较好的线性可分离性的特征子集,从而实现降维并提高分类精度。  相似文献   

20.
Clustering in high-dimensional spaces is a difficult problem which is recurrent in many domains, for example in image analysis. The difficulty is due to the fact that high-dimensional data usually exist in different low-dimensional subspaces hidden in the original space. A family of Gaussian mixture models designed for high-dimensional data which combine the ideas of subspace clustering and parsimonious modeling are presented. These models give rise to a clustering method based on the expectation-maximization algorithm which is called high-dimensional data clustering (HDDC). In order to correctly fit the data, HDDC estimates the specific subspace and the intrinsic dimension of each group. Experiments on artificial and real data sets show that HDDC outperforms existing methods for clustering high-dimensional data.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号