共查询到20条相似文献,搜索用时 156 毫秒
1.
2.
Web文本挖掘中的特征选取方法研究 总被引:11,自引:0,他引:11
研究了Web文本挖掘中的高维特征选取问题,对常见的评估函数法、主成分分析法、模拟退火法等特征选取和降维算法进行了理论分析与性能比较,通过实验对各种算法的优劣性及适用性进行了讨论。旨在通过降维处理来解决高维空间的文本挖掘问题。 相似文献
3.
文本聚类中,文本特征向量的高维性使得对样本统计特征的评估十分困难,所以有必要进行有效的维数约简。ISOMAP是一类新近出现的非线性维数约简方法,可以有效地对文本特征空间进行降维处理,该方法改进了样本向量之间的距离度量,用测地距离代替传统的欧式距离,将高维的文本特征数据映射到2~3维的低维可视化空间上,达到数据降维目的,实现文本数据特征可视化,并在一定程度上解决聚类数问题。最后通过实例,验证了方法的可行性。 相似文献
4.
5.
6.
为了解决主成分分析(PCA)算法无法处理高维数据降维后再聚类精确度下降的问题,提出了一种新的属性空间概念,通过属性空间与信息熵的结合构建了基于特征相似度的降维标准,提出了新的降维算法ENPCA。针对降维后特征是原特征的线性组合而导致可解释性变差以及输入不够灵活的问题,提出了基于岭回归的稀疏主成分算法(ESPCA)。ESPCA算法的输入为主成分降维结果,不需要迭代获得稀疏结果,增加了灵活性和求解速度。最后在降维数据的基础上,针对遗传算法聚类收敛速度慢等问题,对遗传算法的初始化、选择、交叉、变异等操作进行改进,提出了新的聚类算法GKA++。实验分析表明EN-PCA算法表现稳定,GKA++算法在聚类有效性和效率方面表现良好。 相似文献
7.
现有图像降维方法中特征信息被过多压缩,从而影响图像分类效果。提出IC-ACO算法,利用蚁群算法来解决图像分类问题。算法充分提取并保留图像的各种形态特征。利用蚁群优化算法在特征集中自动挖掘有效特征和特征值,构建各类分类规则,从而实现图像的分类识别。在真实的车标图像数据集上的实验结果表明,IC-ACO算法比其他类似算法具有更高的分类识别率。 相似文献
8.
9.
10.
本文研究了基于Isomap的非线性降维方法,对由面部表情序列提取的面部动画参数特征进行降维,分析了降维后的流形特征空间与认知心理学情感空间之间的关系。实验结果表明,Isomap降维后的情感流形特征能够表现情感的强度变化,而且比PCA降维特征对情感强度的描述更加合理和平滑;情感识别实验也表明,使用Isomap降维流形特征的识别率要高于原始情感特征和PCA降维特征,而且对各种情感的识别结果更加均衡。 相似文献
11.
基于分形维数的属性约简算法与特征辨别能力相结合,提出了一个综合的特征选择方法.该方法利用特征辨别能力进行特征初选,过滤掉一些词条来降低特征空间的稀疏性,以利用所提约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,此种特征选择方法效果良好. 相似文献
12.
基于类别分布的特征选择框架 总被引:6,自引:0,他引:6
目前已有很多种特征选择方法,但就目前所知,没有一种方法能够在非平衡语料上取得很好的效果.依据特征在类别间的分布特点提出了基于类别分布的特征选择框架.该框架能够利用特征的分布信息选出具有较强区分能力的特征,同时允许给类别灵活地分配权重,分配较大的权重给稀有类别则提高稀有类别的分类效果,所以它适用于非平衡语料,也具有很好的扩展性.另外,OCFS和基于类别分布差异的特征过滤可以看作该框架的特例.实现该框架得到了具体的特征选择方法,Retuers-21578语料及复旦大学语料等两个非平衡语料上的实验表明,它们的Macro 和Micro F1效果都优于IG, CHI和OCFS. 相似文献
13.
特征选择作为一种重要的数据预处理方法,不但能解决维数灾难问题,还能提高算法的泛化能力.各种各样的方法已被应用于解决特征选择问题,其中,基于演化计算的特征选择算法近年来获得了更多的关注并取得了一些成功.近期研究结果表明,森林优化特征选择算法具有更好的分类性能及维度缩减能力.然而,初始化阶段的随机性、全局播种阶段的人为参数设定,影响了该算法的准确率和维度缩减能力;同时,算法本身存在着高维数据处理能力不足的本质缺陷.从信息增益率的角度给出了一种初始化策略,在全局播种阶段,借用模拟退火控温函数的思想自动生成参数,并结合维度缩减率给出了适应度函数;同时,针对形成的优质森林采取贪心算法,形成一种特征选择算法EFSFOA(enhanced feature selection using forest optimization algorithm).此外,在面对高维数据的处理时,采用集成特征选择的方案形成了一个适用于EFSFOA的集成特征选择框架,使其能够有效处理高维数据特征选择问题.通过设计对比实验,验证了EFSFOA与FSFOA相比在分类准确率和维度缩减率上均有明显的提高,高维数据处理能力更是提高到了100 000维.将EFSFOA与近年来提出的比较高效的基于演化计算的特征选择方法进行对比,EFSFOA仍具有很强的竞争力. 相似文献
14.
提出了一种基于最小分类错误率和Parzen窗的降维方法,利用Parzen窗估计数据的概率密度分布;通过计算各特征维度下的分类错误率,判断该特征维度对目标分类的贡献度;依据贡献度大小进行特征维度选择从而达到降维的目的。 相似文献
15.
A dimension reduction method proposed by Odell (1979) and Decell, Odell, and Coberly (1981) for Gaussian models is extended to a general class of density functions known as θ-generalized normal densities. Necessary and sufficient conditions for the existence of a dimension reduction matrix which preserves the original Bayes classification regions is derived. Moreover, an explicit expression for the compression matrix is given. 相似文献
16.
17.
对高维特征集的降维是文本分类的一个主要问题。在分析现有特征降维方法的基础上,借助《知网》提出一种新的二次降维方法:采用传统的特征选择方法提取一个候选特征集合;利用《知网》对候选集合中的特征项进行概念映射,把大量底层分散的原始特征项替换成少量的高层概念进行第二次特征降维。实验表明,这种方法可以在减少文本语义信息丢失的前提下,有效地降低特征空间维数,提升文本分类的准确度。 相似文献
18.
特征降维是文本分类过程中的一个重要环节。在现有特征选择方法的基础上,综合考虑特征词在正类和负类中的分布性质,综合四种衡量特征类别区分能力的指标,提出了一个新的特征选择方法,即综合比率(CR)方法。实验采用K-最近邻分类算法(KNN)来考查CR方法的有效性,实验结果表明该方法能够取得比现有特征选择方法更优的降维效果。 相似文献
19.
20.
为解决取得特征向量维数过高问题,提出了一种改进的粗糙集属性约简算法。运用几何特征点方法得到人脸表情的局部特征向量,引入粗糙集理论,用改进的属性约简算法对提取到的表情特征进行优化选择,去掉冗余特征和对表情分类无用的不相关信息。实验结果显示,该方法不仅实现方便,识别率高,识别所用的时间也大大减少,充分表明了该方法的有效性。 相似文献