首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
针对不同书写者书写同一字的分类问题,介绍了签字的五个全局特征的提取方法,在特征总数不多的情况下,使用特征标权而不是特征选择的方法来反映各特征对于签字分类的区分度不一样的事实,并着重讨论了如何利用待分类的模式,无监督的进行特征标权以得到权重向量的方法.将权重向量加入到作为核函数的高斯函数中,以核聚类方法对签字进行分类,实验显示,采用同样的核聚类步骤,加入权重向量后分类正确率较没有权重向量时的分类正确率有明显提高,权重向量自学习较同类方法指导性更强,说明该方法适用于文中提出的中文签字的分类问题,是可行且有效的。  相似文献   

2.
基于类信息的文本聚类中特征选择算法   总被引:2,自引:0,他引:2  
文本聚类属于无监督的学习方法,由于缺乏类信息还很难直接应用有监督的特征选择方法,因此提出了一种基于类信息的特征选择算法,此算法在密度聚类算法的聚类结果上使用信息增益特征选择法重新选择最有分类能力的特征,实验验证了算法的可行性和有效性。  相似文献   

3.
一种特征加权的聚类算法框架   总被引:3,自引:0,他引:3  
高滢  刘大有  徐益 《计算机科学》2008,35(10):152-154
为了考虑数据各维特征对聚类的不同贡献,并把有监督特征评价方法应用到无监督分类问题中,提出一种特征加权的聚类算法框架.该框架首先通过某种聚类算法对数据聚类,然后,根据聚类结果,采用有监督特征评价方法学习各维特征的权值,再根据特征权值重新聚类,之后再次学习特征权值,该过程反复迭代,直至算法收敛或达到指定的迭代次数.欧几里德空间内基于距离、基于密度的聚类算法均适用于本框架.基于本框架,采用模糊C均值聚类算法(FCM)、密度聚类算法(DBSCAN),并通过信息增益特征评价、ReliefF特征评价方法,对多个UCI数据集进行了实验,验证了该框架的有效性.  相似文献   

4.
本文参照在自动分类问题中一种常见的基于Kullback-Leibler距离的特征聚类算法,针对其特征压缩造成的性能损失而导致分类性能下降的问题提出了改进,结合模糊数学的思想,提出了一种基于特征模糊相关的特征聚类算法FFC,最后在本文的一个应用系统AGENT上给出实验数据,并比较了两种算法的差异.  相似文献   

5.
针对传统聚类算法中只注重数据间的距离关系,而忽视数据全局性分布结构的问题,提出一种基于EK-medoids聚类和邻域距离的特征选择方法。首先,用稀疏重构的方法计算数据样本之间的有效距离,构建基于有效距离的相似性矩阵;然后,将相似性矩阵应用到K-medoids聚类算法中,获取新的聚类中心,进而提出EK-medoids聚类算法,可有效对原始数据集进行聚类;最后,根据划分结果所构成簇的邻域距离给出确定数据集中的属性重要度定义,应用启发式搜索方法设计一种EK-medoids聚类和邻域距离的特征选择算法,降低了聚类算法的时间复杂度。实验结果表明,该算法不仅有效地提高了聚类结果的精度,而且也可选择出分类精度较高的特征子集。  相似文献   

6.
一种高效的用于文本聚类的无监督特征选择算法   总被引:14,自引:0,他引:14  
特征选择虽然非常成功地应用于文本分类,但却很少用于文本聚类,这是因为那些高效的特征选择方法通常都是有监督的特征选择算法,它们因为需要类信息而无法直接应用于文本聚类.为了能将这些方法应用到文本聚类上,提出了一种新的无监督特征选择算法:基于K-Means的特征选择算法(KFS).这个算法通过在不同K-Means聚类结果上使用有监督特征选择的方法,成功地选择出了最为重要的一小部分特征,使文本聚类的性能提高了近15%.  相似文献   

7.
针对多维数据集,为得到一个最优特征子集,提出一种基于特征聚类的封装式特征选择算法。在初始阶段,利用三支决策理论动态地将原始特征集划分为若干特征子空间,通过特征聚类算法对每个特征子空间内的特征进行聚类;从每个特征类簇里挑选代表特征,利用邻域互信息对剩余特征进行降序排序并依次迭代选择,使用封装器评估该特征是否应该被选择,可得到一个具有最低分类错误率的最优特征子集。在UCI数据集上的实验结果表明,相较于其它特征选择算法,该算法能有效地提高各数据集在libSVM、J48、Nave Bayes以及KNN分类器上的分类准确率。  相似文献   

8.
针对评论中蕴含的商品特征数目繁多且同一特征具有多种不同描述的情况,提出一种基于语义相似度的商品特征聚类算法。算法包括"分配"和"转移"两个过程。"分配"过程对特征词进行聚类得到初始簇序列;"转移"过程依次遍历初始簇序列将簇内可能存在的与其他簇语义相似度更高的特征词转移到对应的簇。实验结果表明该算法聚类质量高、时间复杂度小且对数据输入次序不敏感。  相似文献   

9.
分类属性数据量子聚类算法的改进   总被引:1,自引:0,他引:1  
分析量子势能、量子力学中粒子分布机制和分类属性数据的量子聚类CQC(Categorical Quantum Clustering)算法.针对CQC算法存在的聚类效果对聚类度量尺度β较敏感,而β的选取往往凭经验确定没有通用原则,以及对线性可分数据聚类效果显著,但对线性不可分数据不能奏效等问题,通过引入新的相异性度量测度及聚类度量尺度步长βstep,重新定义紧致性指标ICD,提出一种改进的ICQC算法.该算法首先在不同粒度水平上划分数据样本产生初始类(簇),之后采用聚类中心间相异性测度最近邻方法合并初始类(簇)完成聚类.通过与CQC算法的实验比较,证明该算法具有更高的聚类效能,在CQC算法失效的情况下,也能获得良好的聚类效果.  相似文献   

10.
张旭  郭晨 《计算机工程》2007,33(23):16-18
为了在聚类数不确定的情况下实现聚类分析,通过借鉴生物免疫系统中的克隆选择原理并结合聚类有效性分析,提出了一种基于克隆选择的快速动态聚类算法。该算法可以根据样本数据自动确定聚类数目及中心位置,克服了传统聚类算法容易陷入局部极小值、对初始值敏感的缺点。通过引入新算子及适当选取聚类的初始中心,使算法的收敛速度明显提高,仿真实验结果表明了本算法的有效性。  相似文献   

11.
针对时间序列传统静态聚类问题,提出了对时间序列进行动态聚类的方法。该方法首先提取时间序列的关键点集合,根据改进的FCM算法找到动态特征明显的时间序列,再利用提出的动态聚类算法确定此类时间序列在不同时间段的所属类别,在改进的FCM算法中采用兰氏距离可以使其对奇异值不敏感。实验结果反映出动态特征明显的时间序列类别随时间演化的特性,表明了方法的可行性和有效性。与已有算法相比,该方法揭示了时间序列的部分动态特征。该方法还可以运用于研究数据挖掘的其他问题。  相似文献   

12.
针对现有的 Neural-Gas 算法进行改进,提出了一种新的聚类算法。改进之处在于:一个点对一个簇的质心的影响程度取决于该点到其他更近的簇的质心的距离值,而不仅仅是点与簇质心间距离值按大小排列次序的序号。在几个数据集上的实验结果表明,该算法在熵、纯度、F1值、rand index、规范化互信息 NMI 等五个指标上优于 K-means 算法、Neural-Gas 算法等其他几种聚类算法,该算法是一种较好较快的算法。  相似文献   

13.
基于模式聚类和遗传算法的文本特征提取方法   总被引:2,自引:1,他引:1  
郝占刚  王正欧 《计算机应用》2005,25(7):1632-1633
采用模式聚类和遗传算法进行文本特征提取,并用Kohonen网络进行分类。模式聚类可以有效降低文本特征的维数,使得特征从几千维降为几百维。但几百维的维数对Kohonen网络来说仍然太高,因此采用遗传算法在此基础上继续降维。实验结果表明,这两种方法结合可以极大地降低文本的维数,并能提高分类准确率。  相似文献   

14.
基于关联函数的动态聚类算法及应用   总被引:1,自引:0,他引:1  
根据时序立体数据的特点,提出了基于关联函数一致性矩阵的动态聚类算法。给出了适用于时序立体数据关联函数的改进标准关联函数计算公式,并将该算法应用于乙烯裂解炉报警系统,结合流程的时序立体数据,得到了裂解炉报警系统的动态聚类分类结果,并验证了提出算法的有效性。本文算法对于时序数据的聚类具有较强的鲁棒性。  相似文献   

15.
K-modes算法中原有的分类变量间距离度量方法无法体现属性值之间差异,对此提出了一种基于朴素贝叶斯分类器中间运算结果的距离度量。该度量构建代表分类变量的特征向量并计算向量间的欧氏距离作为变量间的距离。将提出的距离度量代入K-modes聚类算法并在多个UCI公共数据集上与其他度量方法进行比较,实验结果表明该距离度量更加有效。  相似文献   

16.
针对现有签名鉴伪方法对高水平伪签名鉴伪准确率低的问题,提出一种基于时序特征融合的动态签名鉴伪算法。首先根据签名者落笔与提笔的时间节点建立动态时间轴,在签名过程中提取笔迹的压力和笔速两类时序特征;然后在两类特征对应数据的基础上构建时序特征融合模型,通过一种多维空间模型相似性度量方法计算待测签名和样本签名的相似度,从而实现签名真伪性鉴别。实验结果表明,与现有算法相比,该方法进一步提高了签名鉴伪的准确率和通用性。  相似文献   

17.
根据科技文献的结构特点,搭建了一个四层挖掘模式,提出了一种应用于科技文献分类的文本特征选择方法。该方法首先依据科技文献的结构将其分为四个层次,然后采用K-means聚类对前三层逐层实现特征词提取,最后再使用Aprori算法找出第四层的最大频繁项集,并作为第四层的特征词集合。在该方法中,针对K-means算法受初始中心点的影响较大的问题,首先采用信息熵对聚类对象赋权的方式来修正对象间的距离函数,然后再利用初始聚类的赋权函数值选出较合适的初始聚类中心点。同时,通过为K-means算法的终止条件设定标准值,来减少算法迭代次数,以减少学习时间;通过删除由信息动态变化而产生的冗余信息,来减少动态聚类过程中的干扰,从而使算法达到更准确更高效的聚类效果。上述措施使得该文本特征选择方法能够在文献语料库中更加准确地找到特征词,较之以前的方法有很大提升,尤其是在科技文献方面更为适用。实验结果表明,当数据量较大时,该方法结合改进后的K-means算法在科技文献分类方面有较高的性能。  相似文献   

18.
一种有效的基于划分和层次的混合聚类算法   总被引:1,自引:0,他引:1  
曾志雄 《计算机应用》2007,27(7):1692-1694
在综合分析基于划分的K均值聚类算法和基于层次的凝聚聚类算法的基础上,借鉴各种混合聚类方法,提出了一种执行效率更高和聚类质量更好的分阶段混合聚类算法(HCAP)。给出HCAP的策略思想、算法描述及性能分析,基于二维数据空间的模拟样本数据的实验验证该算法的有效性和合理性,在某些方面应用性能优于原算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号