共查询到20条相似文献,搜索用时 78 毫秒
1.
2.
投影寻踪可有效解决文本分类中的维数灾难问题,而投影方向优化是投影寻踪需要解决的关键问题。传统的投影寻踪方法将投影指标优化看作单目标优化问题,会使解的质量受到影响。为此,提出一种基于多目标优化的投影寻踪方法。将类别之间的距离和类别内数据的聚类紧密程度作为2个优化目标,并将投影扩展到多维,利用混沌粒子群优化算法寻找最优的投影方向。在常用文本数据集上进行实验,确定最优投影指标及维度,并比较不同分类模型的分类结果,结果表明,使用该方法能有效提高文本分类性能。 相似文献
3.
研究了文本挖掘中的高维特征选取问题,对常见的降维主要方法:特征选择和特征抽取等算法进行了理论分析与性能比较,评价了它们的优缺点和适用范围。 相似文献
4.
文本挖掘中特征降维方法比较研究 总被引:1,自引:0,他引:1
研究了文本挖掘中的高维特征选取问题.对常见的降维主要方法:特征选择和特征抽取等算法进行了理论分析与性能比较.评价了它们的优缺点和适用范围。 相似文献
5.
基于投影寻踪和聚类分析的多维数据可视化 总被引:1,自引:0,他引:1
将投影寻踪的方法引入到多维数据处理中,先对多维数据降维,再用聚类法来分析降维的数据,进而得到直观的结果,开辟了一条新的处理多维数据的途径。 相似文献
6.
遗传-粒子群的投影寻踪模型 总被引:2,自引:0,他引:2
以前的投影寻踪研究都是采用遗传算法来寻找最优的投影方向,但遗传算法对初始种群的选择有一定的依赖性,收敛速度较慢,而且得到的也未必是最优解。粒子群算法是一种模拟鸟群飞行觅食的行为,通过个体之间的协作来寻找最优解的进化计算技术。根据遗传算法和粒子群算法的优缺点,将两者有效地结合在一起,提出了遗传-粒子群的投影寻踪模型。该方法能有效地解决投影寻踪模型中投影方向的寻优问题,并将该方法应用于文本分类,在Reuters-21578文档集上分别采用KNN和朴素贝叶斯方法进行实验,结果表明此方法能有效提取投影方向,取得了满意的分类效果,也提高了算法收敛到最优解的能力。 相似文献
7.
在大规模、高维度的数据环境下,传统的案例推理具有计算复杂度高、实时性差等缺点。为在大数据环境下进行案例推理,提出了一种基于投影寻踪和MapReduce的并行推理模型dpCBR。在数据预处理阶段,计算源案例到基准向量的一维投影距离并缓存,降低计算复杂度并减少重复计算开销。在案例检索阶段,先根据投影距离裁剪案例库,再进行相似度匹配,减少不必要的案例匹配开销。应用MapReduce进行分布式并行处理,使dpCBR具备对大规模案例库的推理能力。实验结果表明,dpCBR模型可以明显提高大数据环境下案例推理的效率。 相似文献
8.
9.
文本挖掘中采用向量空间模型(VSM)来表达文本特征,表现出巨大的维数,从而导致处理过程计算复杂,为此,需要先对文本特征矩阵进行合理的降维处理。隐含语义分析(LSA)、概念索引(CI)、非负矩阵分解(NMF)和随机映射(RP)是几种有效的降维方法,在分析降维空间的含义和计算复杂度后,通过文本聚类实验比较和分析了这几种降维方法的差异,实验表明,这些方法不仅可以对文本特征空间作有效的降维处理,还能在不同程度上凸现文本和词条之间的语义关系,从而提高文本挖掘的效率和准确率。 相似文献
10.
11.
遗传算法的粗糙集理论在文本降维上的应用 总被引:1,自引:0,他引:1
遗传算法作为一种有效的全局并行优化搜索工具,早被众多应用领域所接受。根据问题提出了相应的适应度函数,针对遗传算法和粗糙集理论两种方法各自的特点,将两种算法适当结合。还把结合后的方法和单一的粗糙集算法在文本分类效果上进行了对比。实验结果表明将遗传算法和粗糙集理论相结合的优化方法来应用到特征提取中,比单一的粗糙集算法,具有更好的降维效果,使得降维后的特征词更有利于文本数据的分类,大大优化了文本分类的效果。 相似文献
12.
13.
提出了一种基于词条互信息(WMI)值的统计降维和Kohonen网络(SOFM网)相结合的文本聚类方法,WMI值的方法侧重考虑文本特征项之间的互信息进行降维,可提高特征选择的效率,并使其更趋实用化。采用Kohonen网络进行文本聚类,其学习率函数是随时间单调下降的退火函数,实验结果表明了这种结合方法较一般的降维方法得到的聚类结果具有较高的聚类精度。 相似文献
14.
基于深度特征与非线性降维的图像数据集可视化方法 总被引:1,自引:0,他引:1
为了降低传统高维图像数据降维可视化带来的损失,提高数据可视化的效果,提出了一种基于深度特征与非线性降维相结合的图像数据集可视化方法。该方法首先设计并训练了一个卷积神经网络模型,模型在MNIST手写体图像数据集上,取得了单模型最高的识别精度。其次,利用该高精度模型抽取图像数据的深度中间层特征,将该深度特征作为图像数据的有效表示。最后针对深度特征使用非线性降维方法将数据最终降低为二维,实现数据可视化。实验结果表明,该方法能够有效降低传统图像降维可视化方法中降维损失所带来的误差,可视化效果十分明显。 相似文献
15.
16.
属性规约是应对“维数灾难”的有效技术,分形属性规约FDR(Fractal Dimensionality Reduction)是近年来出现的一种无监督属性选择技术,令人遗憾的是其需要多遍扫描数据集,因而难于应对高维数据集情况;基于遗传算法的属性规约技术对于高维数据而言优越于传统属性选择技术,但其无法应用于无监督学习领域。为此,结合遗传算法内在随机并行寻优机制及分形属性选择的无监督特点,设计并实现了基于遗传算法的无监督分形属性子集选择算法GABUFSS(Genetic Algorithm Based Unsupervised Feature Subset Selection)。基于合成与实际数据集的实验对比分析了GABUFSS算法与FDR算法的性能,结果表明GABUFSS相对优于FDR算法,并具有发现等价结果属性子集的特点。 相似文献
17.
吴新玲 《计算机工程与设计》2006,27(16):3000-3002
对高维数据集合的维数消减方法及其应用进行了分类研究.将数据维数消减方法主要分为两类:子集选择法和数据变换法.基于统计数学和现有的数据挖掘模型,给出了这两类中的一些典型的维数消减方法,并对这些方法的主要特性和有效应用进行了分析、探讨,给出了一些可行的方法实现策略. 相似文献
18.
19.
Kerstin BunteAuthor Vitae Barbara HammerAuthor VitaeThomas VillmannAuthor Vitae Michael BiehlAuthor VitaeAxel WismüllerAuthor Vitae 《Neurocomputing》2011,74(9):1340-1350
We present an extension of the Exploratory Observation Machine (XOM) for structure-preserving dimensionality reduction. Based on minimizing the Kullback-Leibler divergence of neighborhood functions in data and image spaces, this Neighbor Embedding XOM (NE-XOM) creates a link between fast sequential online learning known from topology-preserving mappings and principled direct divergence optimization approaches. We quantitatively evaluate our method on real-world data using multiple embedding quality measures. In this comparison, NE-XOM performs as a competitive trade-off between high embedding quality and low computational expense, which motivates its further use in real-world settings throughout science and engineering. 相似文献