首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
引入人工免疫(AI)系统原理用于解决投影寻踪(PP)降维问题,利用免疫克隆选择算法优化投影方向,将高维的特征数据投影到低维空间上,从而降低了数据挖掘过程中的计算复杂度,实现了数据的约减;并用K-Means等聚类算法分别对初始数据和降维后的数据进行聚类对比。实验结果验证了人工免疫投影寻踪降维(AI-PPC)算法的有效性。  相似文献   

2.
石松  陈云 《计算机工程》2014,(2):171-174
投影寻踪可有效解决文本分类中的维数灾难问题,而投影方向优化是投影寻踪需要解决的关键问题。传统的投影寻踪方法将投影指标优化看作单目标优化问题,会使解的质量受到影响。为此,提出一种基于多目标优化的投影寻踪方法。将类别之间的距离和类别内数据的聚类紧密程度作为2个优化目标,并将投影扩展到多维,利用混沌粒子群优化算法寻找最优的投影方向。在常用文本数据集上进行实验,确定最优投影指标及维度,并比较不同分类模型的分类结果,结果表明,使用该方法能有效提高文本分类性能。  相似文献   

3.
研究了文本挖掘中的高维特征选取问题,对常见的降维主要方法:特征选择和特征抽取等算法进行了理论分析与性能比较,评价了它们的优缺点和适用范围。  相似文献   

4.
文本挖掘中特征降维方法比较研究   总被引:1,自引:0,他引:1  
研究了文本挖掘中的高维特征选取问题.对常见的降维主要方法:特征选择和特征抽取等算法进行了理论分析与性能比较.评价了它们的优缺点和适用范围。  相似文献   

5.
基于投影寻踪和聚类分析的多维数据可视化   总被引:1,自引:0,他引:1  
将投影寻踪的方法引入到多维数据处理中,先对多维数据降维,再用聚类法来分析降维的数据,进而得到直观的结果,开辟了一条新的处理多维数据的途径。  相似文献   

6.
遗传-粒子群的投影寻踪模型   总被引:2,自引:0,他引:2  
以前的投影寻踪研究都是采用遗传算法来寻找最优的投影方向,但遗传算法对初始种群的选择有一定的依赖性,收敛速度较慢,而且得到的也未必是最优解。粒子群算法是一种模拟鸟群飞行觅食的行为,通过个体之间的协作来寻找最优解的进化计算技术。根据遗传算法和粒子群算法的优缺点,将两者有效地结合在一起,提出了遗传-粒子群的投影寻踪模型。该方法能有效地解决投影寻踪模型中投影方向的寻优问题,并将该方法应用于文本分类,在Reuters-21578文档集上分别采用KNN和朴素贝叶斯方法进行实验,结果表明此方法能有效提取投影方向,取得了满意的分类效果,也提高了算法收敛到最优解的能力。  相似文献   

7.
在大规模、高维度的数据环境下,传统的案例推理具有计算复杂度高、实时性差等缺点。为在大数据环境下进行案例推理,提出了一种基于投影寻踪和MapReduce的并行推理模型dpCBR。在数据预处理阶段,计算源案例到基准向量的一维投影距离并缓存,降低计算复杂度并减少重复计算开销。在案例检索阶段,先根据投影距离裁剪案例库,再进行相似度匹配,减少不必要的案例匹配开销。应用MapReduce进行分布式并行处理,使dpCBR具备对大规模案例库的推理能力。实验结果表明,dpCBR模型可以明显提高大数据环境下案例推理的效率。  相似文献   

8.
钱晓东  肖强  王婷婷 《计算机工程》2011,37(5):213-215,218
为有效降低文本处理的时间与空间代价,根据“只有部分脑细胞发出的信号能到达大脑皮层”和“突触信号强度随着与神经细胞主体距离的加大而减弱”的理论,提出基于信号传递理论的神经网络降维算法。通过神经网络结构与训练算法的改变,在文本处理环境中神经元间LTM向量中有大量逼近0的分量,即存在很多不必要的神经元连接,以此作为文本降维的基础。实验结果证明,降维后的文本数据库以较低的时间代价具备与降维前相当甚至更高的分类准确率。  相似文献   

9.
文本挖掘中采用向量空间模型(VSM)来表达文本特征,表现出巨大的维数,从而导致处理过程计算复杂,为此,需要先对文本特征矩阵进行合理的降维处理。隐含语义分析(LSA)、概念索引(CI)、非负矩阵分解(NMF)和随机映射(RP)是几种有效的降维方法,在分析降维空间的含义和计算复杂度后,通过文本聚类实验比较和分析了这几种降维方法的差异,实验表明,这些方法不仅可以对文本特征空间作有效的降维处理,还能在不同程度上凸现文本和词条之间的语义关系,从而提高文本挖掘的效率和准确率。  相似文献   

10.
为了提取具有较好判别性能的低维特征,提出了一种新的有监督的线性降维算法——边界判别投影,即,最小化同类样本间的最大距离,最大化异类样本间的最小距离,同时保持数据流形的几何形状.与经典的基于边界定义的算法相比,边界判别投影可以较好地保持数据流形的几何结构和判别结构等全局特性,可避免小样本问题,具有较低的计算复杂度,可应用于超高维的大数据降维.人脸数据集上的实验结果表明,边界判别分析是一种有效的降维算法,可应用于大数据上的特征提取.  相似文献   

11.
遗传算法的粗糙集理论在文本降维上的应用   总被引:1,自引:0,他引:1  
遗传算法作为一种有效的全局并行优化搜索工具,早被众多应用领域所接受。根据问题提出了相应的适应度函数,针对遗传算法和粗糙集理论两种方法各自的特点,将两种算法适当结合。还把结合后的方法和单一的粗糙集算法在文本分类效果上进行了对比。实验结果表明将遗传算法和粗糙集理论相结合的优化方法来应用到特征提取中,比单一的粗糙集算法,具有更好的降维效果,使得降维后的特征词更有利于文本数据的分类,大大优化了文本分类的效果。  相似文献   

12.
文本分类中的特征降维方法研究   总被引:1,自引:0,他引:1  
特征降维是文本分类过程中的一个重要环节,为了提高特征降维的准确率,选出能有效区分文本类别的特征词,提高文本分类的效果,提出了结合文本类间集中度、文本类内分散度和词频类间集中度的特征降维方法。当获取特征词在文本集上的整体评价时,提出了一种新的全局评估函数,用最大值与次大值之差作为最终的评价函数值。实验比较了该方法与传统的特征降维方法,结果表明该方法在中文文本分类中具有较好的降维效果。  相似文献   

13.
王智勇  王正欧 《计算机应用》2005,25(10):2328-2330
提出了一种基于词条互信息(WMI)值的统计降维和Kohonen网络(SOFM网)相结合的文本聚类方法,WMI值的方法侧重考虑文本特征项之间的互信息进行降维,可提高特征选择的效率,并使其更趋实用化。采用Kohonen网络进行文本聚类,其学习率函数是随时间单调下降的退火函数,实验结果表明了这种结合方法较一般的降维方法得到的聚类结果具有较高的聚类精度。  相似文献   

14.
基于深度特征与非线性降维的图像数据集可视化方法   总被引:1,自引:0,他引:1  
为了降低传统高维图像数据降维可视化带来的损失,提高数据可视化的效果,提出了一种基于深度特征与非线性降维相结合的图像数据集可视化方法。该方法首先设计并训练了一个卷积神经网络模型,模型在MNIST手写体图像数据集上,取得了单模型最高的识别精度。其次,利用该高精度模型抽取图像数据的深度中间层特征,将该深度特征作为图像数据的有效表示。最后针对深度特征使用非线性降维方法将数据最终降低为二维,实现数据可视化。实验结果表明,该方法能够有效降低传统图像降维可视化方法中降维损失所带来的误差,可视化效果十分明显。  相似文献   

15.
维规约技术综述   总被引:1,自引:0,他引:1  
许明旺  施润身 《计算机应用》2006,26(10):2401-2404
从属性选择和维变换两个方面对维规约技术进行了概括。首先对属性选择的基本思想和常用算法进行简要介绍;然后对维变换技术中的几种应用最广泛的方法进行了详细研究,主要包括主成分分析及其相关算法、独立成分分析、因子分析、投影寻踪等方法,简要给出了这些方法间的联系和区别,最后指出了维规约技术的现状和发展方向。  相似文献   

16.
属性规约是应对“维数灾难”的有效技术,分形属性规约FDR(Fractal Dimensionality Reduction)是近年来出现的一种无监督属性选择技术,令人遗憾的是其需要多遍扫描数据集,因而难于应对高维数据集情况;基于遗传算法的属性规约技术对于高维数据而言优越于传统属性选择技术,但其无法应用于无监督学习领域。为此,结合遗传算法内在随机并行寻优机制及分形属性选择的无监督特点,设计并实现了基于遗传算法的无监督分形属性子集选择算法GABUFSS(Genetic Algorithm Based Unsupervised Feature Subset Selection)。基于合成与实际数据集的实验对比分析了GABUFSS算法与FDR算法的性能,结果表明GABUFSS相对优于FDR算法,并具有发现等价结果属性子集的特点。  相似文献   

17.
对高维数据集合的维数消减方法及其应用进行了分类研究.将数据维数消减方法主要分为两类:子集选择法和数据变换法.基于统计数学和现有的数据挖掘模型,给出了这两类中的一些典型的维数消减方法,并对这些方法的主要特性和有效应用进行了分析、探讨,给出了一些可行的方法实现策略.  相似文献   

18.
高维图像特征数据不利于图像数据挖掘。为了降低图像特征数据维数,提出了基于概念格的降维算法,该算法将图像的HSV颜色特征转换为图像形式背景,再对背景的概念格进行属性约简。实验结果表明,该降维方法比较有效,并且较主成分分析具有明显的优势。  相似文献   

19.
We present an extension of the Exploratory Observation Machine (XOM) for structure-preserving dimensionality reduction. Based on minimizing the Kullback-Leibler divergence of neighborhood functions in data and image spaces, this Neighbor Embedding XOM (NE-XOM) creates a link between fast sequential online learning known from topology-preserving mappings and principled direct divergence optimization approaches. We quantitatively evaluate our method on real-world data using multiple embedding quality measures. In this comparison, NE-XOM performs as a competitive trade-off between high embedding quality and low computational expense, which motivates its further use in real-world settings throughout science and engineering.  相似文献   

20.
一种新的用于连续值属性离散化的约简算法   总被引:4,自引:0,他引:4  
针对在Nguyen和Skowron的离散化算法中进行启发式约简时会出现某些属性不能进行离散化问题,以及在无核数据集中启发式约简算法计算量比较大等问题,在粗糙集理论和属性频率函数的基础上给出一个新概念-候选核,并提出一种新的用于连续值属性离散化的约简算法-基于候选核的启发式约简算法(简称BCC)。该算法可以寻找到能对所有属性进行离散化的约简,实验表明,所提出的BCC算法能提高大数据集的离散化效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号