首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
传统方法在对高维稀疏数据进行检测的过程中,受到高维特征扰动的影响,数据误差较大,因此提出一种基于深度学习的高维稀疏数据组合推荐算法。采用相空间重构方法进行高维稀疏数据的特征重构,根据重构结果结合非线性统计序列分析方法进行高维稀疏数据的回归分析和点云结构重组,在此基础上提取高维稀疏数据的组合特征量;依据特征量提取结果采用特征提取技术抽取高维稀疏数据的平均互信息特征量,并结合关联规则挖掘方法进行高维稀疏数据的主成分分析,挖掘高维稀疏数据的相似度属性类别成分,最终采用深度学习方法进行高维稀疏数据组合推荐过程中的自适应寻优,实现高维稀疏数据的组合推荐。仿真结果表明,采用该算法进行高维稀疏数据推荐的属性归类辨识性较好,特征分辨能力较强,提高了数据的检测和识别能力。  相似文献   

2.
张兴  陈昊 《智能系统学报》2021,16(6):989-998
大数据时代的到来,使得信息量暴增的同时,数据维度也呈现几何式增长。在保护用户隐私的前提下,如何充分挖掘高维数据的可用信息,成为了大数据发布领域的研究热点和难点。差分隐私作为一种强大的隐私保护模型,被越来越多地应用到高维数据发布中。本文归纳了差分隐私及其相关方法在高维数据发布的应用,重点分析了差分隐私和特征降维、特征抽取、贝叶斯网络、树模型以及最新提出的粗糙集和随机投影等方法在高维数据发布中结合应用的优缺点,梳理了各个方法在高维数据方面的应用和对比,最后对未来差分隐私在高维数据发布中的应用方向进行了展望。  相似文献   

3.
高维数据之间的相似性度量问题是高维空间数据挖掘中所面临的问题之一。为了有效解决高维效应给相似性度量带来的种种问题,首先分析传统相似性度量算法,得出其局限性。再通过对传统度量算法进行改进,提出新的Close函数,以弥补传统相似性度量算法应用在高维空间时的不足。提出Close函数后,将其与几种传统的相似性度量算法作比较,得出新算法在高维空间相似性度量方面的优越性。文中最后用Matlab对该函数做了定量分析,实验证明该函数在高维空间中能有效避免噪声和维灾效应的影响。  相似文献   

4.
针对高维复杂优化问题在求解时容易产生维数灾难导致算法极易陷入局部最优的问题,提出一种能够综合考虑高维复杂优化问题的特性,动态调整进化策略的多种群并行协作的粒子群算法。该算法在分析高维复杂问题求解过程中的粒子特点的基础上,建立融合环形拓扑、全连接形拓扑和冯诺依曼拓扑结构的粒子群算法的多种群并行协作的网络模型。该模型结合3种拓扑结构的粒子群算法在解决高维复杂优化问题时的优点,设计一种基于多群落粒子广播-反馈的动态进化策略及其进化算法,实现高维复杂优化环境中拓扑的动态适应,使算法在求解高维单峰函数和多峰函数时均具有较强的搜索能力。仿真结果表明,该算法在求解高维复杂优化问题的寻优精度和收敛速度方面均有良好的性能。  相似文献   

5.
Clustering in high-dimensional spaces is a difficult problem which is recurrent in many domains, for example in image analysis. The difficulty is due to the fact that high-dimensional data usually exist in different low-dimensional subspaces hidden in the original space. A family of Gaussian mixture models designed for high-dimensional data which combine the ideas of subspace clustering and parsimonious modeling are presented. These models give rise to a clustering method based on the expectation-maximization algorithm which is called high-dimensional data clustering (HDDC). In order to correctly fit the data, HDDC estimates the specific subspace and the intrinsic dimension of each group. Experiments on artificial and real data sets show that HDDC outperforms existing methods for clustering high-dimensional data.  相似文献   

6.
王翔  胡学钢 《计算机应用》2017,37(9):2433-2438
随着生物信息学、基因表达谱微阵列、图像识别等技术的发展,高维小样本分类问题成为数据挖掘(包括机器学习、模式识别)中的一项挑战性任务,容易引发"维数灾难"和过拟合问题。针对这个问题,特征选择可以有效避免维数灾难,提升分类模型泛化能力,成为研究的热点,有必要对国内外高维小样本特征选择主要研究情况进行综述。首先分析了高维小样本特征选择问题的本质;其次,根据其算法的本质区别,重点对高维小样本数据的特征选择方法进行分类剖析和比较;最后对高维小样本特征选择研究面临的挑战以及研究方向作了展望。  相似文献   

7.
为避免早熟收敛和提升粒子在高维空间的搜索能力,文章提出了一种"自我"感知的高维混沌群体智能算法。首先,采用pBest和gBest混沌双扰动来增强粒子的搜索能力;其次,提出一种"自我"感知策略来帮助种群避免早熟收敛;最后,将三种不同微粒群优化(Particle Swarm Optimization,PSO)算法在旅行推销员问题(Traveling Salesman Problem,TSP)上进行了对比实验。实验结果显示"自我"感知的高维混沌群体智能算法简单、有效可行,值得推荐。  相似文献   

8.
该文提出在高维空间下离群点发现技术的新方法,即利用粗糙集的属性约简技术减少高维空间的维数,并在各个关联规则子空间下对数据集进行基于密度的离群点挖掘,使高维空间下的离群点挖掘更具有实用性。数据分析表明,该算法能有效地发现高维空间数据集中的离群点。  相似文献   

9.
曹小鹿  辛云宏 《计算机应用》2017,37(10):2819-2822
降维是大数据分析和可视化领域中的核心问题,其中基于概率分布模型的降维算法通过最优化高维数据模型和低维数据模型之间的代价函数来实现降维。这种策略的核心在于构建最能体现数据特征的概率分布模型。基于此,将Wasserstein距离引入降维,提出一个基于Wasserstein距离概率分布模型的非线性降维算法W-map。W-map模型在高维数据空间和其相关对应的低维数据空间建立相似的Wasserstein流,将降维转化为最小运输问题。在解决Wasserstein距离最小化的问题同时,依据数据的Wasserstein流模型在高维空间与其在低维空间相同的原则,寻找最匹配的低维数据投射。三组针对不同数据集的实验结果表明W-map相对传统概率分布模型可以产生正确性高且鲁棒性好的高维数据降维可视化结果。  相似文献   

10.
Parallel coordinate plots (PCPs) are among the most useful techniques for the visualization and exploration of high-dimensional data spaces. They are especially useful for the representation of correlations among the dimensions, which identify relationships and interdependencies between variables. However, within these high-dimensional spaces, PCPs face difficulties in displaying the correlation between combinations of dimensions and generally require additional display space as the number of dimensions increases. In this paper, we present a new technique for high-dimensional data visualization in which a set of low-dimensional PCPs are interactively constructed by sampling user-selected subsets of the high-dimensional data space. In our technique, we first construct a graph visualization of sets of well-correlated dimensions. Users observe this graph and are able to interactively select the dimensions by sampling from its cliques, thereby dynamically specifying the most relevant lower dimensional data to be used for the construction of focused PCPs. Our interactive sampling overcomes the shortcomings of the PCPs by enabling the visualization of the most meaningful dimensions (i.e., the most relevant information) from high-dimensional spaces. We demonstrate the effectiveness of our technique through two case studies, where we show that the proposed interactive low-dimensional space constructions were pivotal for visualizing the high-dimensional data and discovering new patterns.  相似文献   

11.
吕兵  王华珍 《计算机应用》2014,34(6):1613-1617
目前对高维数据进行挖掘的方法大多是基于数学理论而非可视化的直觉。为便于直观分析和评价高维数据,提出引入随机森林(RF)方法对高维数据进行数据可视化。首先,采用RF进行有监督学习得到样本间的相似度度量,并采用主坐标分析法对其进行降维,将高维数据的关系信息变换到低维空间;然后,在低维空间中采用散点图进行可视化。在高维基因数据集上实验结果表明,基于RF有监督降维的可视化能够较好地展现高维数据的类分布规律,且优于传统的无监督降维后的可视化效果。  相似文献   

12.
The k Nearest Neighbor (kNN) join operation associates each data object in one data set with its k nearest neighbors from the same or a different data set. The kNN join on high-dimensional data (high-dimensional kNN join) is a very expensive operation. Existing high-dimensional kNN join algorithms were designed for static data sets and therefore cannot handle updates efficiently. In this article, we propose a novel kNN join method, named kNNJoin +, which supports efficient incremental computation of kNN join results with updates on high-dimensional data. As a by-product, our method also provides answers for the reverse kNN queries with very little overhead. We have performed an extensive experimental study. The results show the effectiveness of kNNJoin+ for processing high-dimensional kNN joins in dynamic workloads.  相似文献   

13.
基于邻域粗糙模型的高维数据集快速约简算法   总被引:1,自引:0,他引:1  
刘遵仁  吴耿锋 《计算机科学》2012,39(10):268-271
根据粒子群优化算法的思想,给出了求解高维邻域决策表的一个约简算法SPRA。通过采用固有维数的分析方法MLE等,将其估算的维数值作为SPRA算法的初始化参数,提出了高维数据集快速约简算法QSPRA。利用5个UCI标准数据集对该算法进行了验证,结果表明,该算法是有效的、可行的。详细分析了种群规模和迭代次数对结果产生的影响。实验表明,基于核的启发式添加算法思想已经不适合求解高维数据集。  相似文献   

14.
高维数据流形的低维嵌入及嵌入维数研究   总被引:29,自引:0,他引:29  
发现高维数据空间流形中有意义的低维嵌入是一个经典难题.Isomap是提出的一种有效的基于流形理论的非线性降维方法,它不仅能够揭示高维观察数据的内在结构,还能够发现潜在的低维参教空间.Isomap的理论基础是假设在高维数据空间和低维参数空间存在等距映射,但并没有进行证明.首先给出了高维数据的连续流形和低维参数空间之间的等距映射存在性证明,然后区分了嵌入空间维数、高维数据空间的固有维数和流形维数,并证明存在环状流形高维数据空间的参数空间维数小于嵌入空间维数.最后提出一种环状流形的发现算法,判断高维数据空间是否存在环状流形,进而估计其固有维教及潜在空间维数.在多姿态三维对象的实验中证明了算法的有效性,并得到正确的低维参数空间.  相似文献   

15.
针对高维连续数据的降维问题,提出一种新的非线性降维方法,称为连续自编码(Continuous autoencoder,C-autoencoder)神经网络,该方法采用限制玻耳兹曼机的连续形式(Continuous restricted Boltzmann machine,CRBM)的网络结构,通过训练具有多个中间层的双向深层神经网络将高维连续数据转换成低维嵌套并继而重构高维连续数据.这种连续自编码网络提供了高维连续数据空间和低维嵌套结构的双向映射,有效解决了大多数非线性降维方法所不具备的逆向映射问题,特别适用于高维连续数据的降维和重构.将C-autoencoder用于连续帧图像的实验表明,C-autoencoder不仅能发现嵌入在高维连续帧图像中的非线性低维结构,也能有效地从低维结构中恢复原始高维图像数据,而且还能对连续帧图像有效地进行内插重构.  相似文献   

16.
发现高维观测数据空间的低维流形结构,是流形学习的主要目标。在前人利用神经网络进行非线性降维的基础上,提出一种新的连续自编码(Continuous Autoencoder,C-Autoencoder)网络,该方法特别采用CRBM(Continuous Restricted Boltzmann Machine)的网络结构,通过训练具有多个中间层的双向深层神经网络可将高维连续数据转换成低维嵌套并继而重构高维连续数据。特别地,这种连续自编码网络可以提供高维连续数据空间和低维嵌套结构的双向映射,不仅有效解决了大多数非线性降维方法所不具备的逆向映射问题,而且特别适用于高维连续数据的降维和重构。将C-Autoencoder用于人工连续数据的实验表明,C-Autoencoder不仅能发现嵌入在高维连续数据中的非线性流形结构,也能有效地从低维嵌套中恢复原始高维连续数据。  相似文献   

17.
基于PCA和平行坐标的高维数据可视化   总被引:1,自引:0,他引:1       下载免费PDF全文
将平行坐标用于高维数据的可视化时,如果要展示的数据维太多,会发生可视化混乱。针对上述问题,提出一种结合主成分分析(PCA)和平行坐标的数据可视化方法PPCP。利用PCA方法对高维数据进行有效的降维处理,将降维后的数据进行平行坐标可视化展示。实验结果证明,该方法能有效地揭示高维数据之间的关系。  相似文献   

18.
随着信息技术的飞速发展和大数据时代的来临,数据呈现出高维性、非线性等复杂特征。对于高维数据来说,在全维空间上往往很难找到反映分布模式的特征区域,而大多数传统聚类算法仅对低维数据具有良好的扩展性。因此,传统聚类算法在处理高维数据的时候,产生的聚类结果可能无法满足现阶段的需求。而子空间聚类算法搜索存在于高维数据子空间中的簇,将数据的原始特征空间分为不同的特征子集,减少不相关特征的影响,保留原数据中的主要特征。通过子空间聚类方法可以发现高维数据中不易展现的信息,并通过可视化技术展现数据属性和维度的内在结构,为高维数据可视分析提供了有效手段。总结了近年来基于子空间聚类的高维数据可视分析方法研究进展,从基于特征选择、基于子空间探索、基于子空间聚类的3种不同方法进行阐述,并对其交互分析方法和应用进行分析,同时对高维数据可视分析方法的未来发展趋势进行了展望。  相似文献   

19.
提出了一种从海量高维数据中进行高效查询的算法,该算法基于小世界网络模型,并采用网络节点表示高维数据的特征向量。算法主要包含两个部分,基于K-Means的索引生成算法和随机逼近查询算法,两个算法均给出了具体的操作步骤。算法经大量实验仿真,得出通过合理设置小世界网络节点的近邻节点数量以及最大查询路径和最大迭代次数等参数,算法可以满足不同精度的用户查询请求。实验结果表明,实现的算法在高维度海量数据查询中具有良好的检索效果。  相似文献   

20.
传统中由单一的神经网络等算法所构架起的评价模型主要存在着精度低、网络学习速度慢等不合理之处.为此,提出了基于粗糙集和RBF神经网络的大规模数据集环境下的评价方法.首先详解了粗糙集理论对大规模高维数据所确定的宽泛属性集的分类、约简;然后把处理后的数据指标作为RBF神经网络的输入进行训练、仿真.以高速公路路面性能使用评价为...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号