首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
张晓博  杨燕  李天瑞  陆凡  彭莉兰 《计算机应用》2020,40(10):3088-3094
针对多发于老龄人群的帕金森病(PD)的早期智能化诊断的问题,提出基于医疗检测文本信息数据的聚类技术来对PD进行分析预测。首先,对原始数据集进行预处理以获取有效特征信息,并通过主成分分析(PCA)方法将原始特征分别降维到8个不同维度的维度空间;然后,应用5个传统的经典聚类模型和3种不同的聚类集成方法分别对8个维度空间的数据进行聚类;最后,采用4个聚类性能指标来预测数据集中的多巴胺异常PD患者、健康体和无多巴胺缺失(SWEDD) PD患者。仿真结果显示,PCA特征维度值取30时,高斯混合模型(GMM)的聚类准确度达到89.12%;PCA特征维度值取70时,谱聚类(SC)的聚类准确度达到61.41%;PCA特征维度值取80时,元聚类算法(MCLA)的聚类准确度达到59.62%。对比实验结果表明,5种经典聚类方法中,PCA的特征维度值小于40时,高斯混合模型聚类效果最佳;3种聚类集成方法中,对于不同的特征维度,MCLA的聚类性能均表现优异,进而为PD的早期智能化辅助诊断提供了技术和理论支撑。  相似文献   

2.
侯海霞  原民民  刘春霞 《计算机应用》2012,32(12):3274-3277
针对谱聚类存在计算瓶颈的问题,提出了一种快速的集成算法,称为间接谱聚类。它首先运用K-Means算法对数据集进行过分聚类,然后把每个过分簇看成一个基本对象,最后在过分簇的级别上利用标准谱聚类来完成总体的聚类。将该思想应用于大文本数据集的聚类问题后,过分簇中心之间的相似性度度量方法可以采用常用的余弦距离法。在20-Newgroups文本数据上的实验结果表明:间接谱聚类算法在聚类准确性上比K-Means算法平均高出14.72%;比规范割谱聚类仅低0.88%,但算法所需的计算时间平均不到规范割谱聚类的1/16,且随着数据集的增大当规范割谱聚类遭遇计算瓶颈时,提出的算法却能快速地给出次优解。  相似文献   

3.
基于矩阵谱分析的文本聚类集成算法   总被引:1,自引:0,他引:1  
聚类集成技术可有效提高单聚类算法的精度和稳定性,其中的关键问题是如何根据不同的聚类成员组合为更好的聚类结果.文中引入谱聚类算法解决文本聚类集成问题,设计基于正则化拉普拉斯矩阵的谱算法(NLM-SA).该算法基于代数变换,通过求解小规模矩阵的特征值和特征向量间接获得正则化拉普拉斯矩阵的特征向量,并用于后续聚类.进一步研究谱聚类算法的关键思想,设计基于超边转移概率矩阵的谱算法(HTMSA).该算法通过求解超边的低维嵌入间接获得文本的低维嵌入,并用于后续K均值算法.在TREC和Reuters文本集上的实验结果验证NLMSA和HTMSA的有效性,它们都获得比其它基于图划分的集成算法更为优越的结果.HTMSA获得的结果比NLMSA略差,而时间和空间需求则比NLMSA低得多.  相似文献   

4.
基于PAT-array和模糊聚类的文本聚类方法   总被引:5,自引:0,他引:5  
林建敏  谢康林 《计算机工程》2004,30(12):126-127,177
阐述了基于后缀树的文本聚类(STC)算法,对其所存在的缺陷进行了分析,并在此基础上提出了采用PAT-array和模糊聚类相结合的方法对其进行的改进,以提高聚类的质量。  相似文献   

5.
针对标题文本聚类中的聚类结果不稳定问题,提出一种基于聚类融合的标题文本聚类方法。该方法对标题文本的特征词进行筛选,将标题文本转化为特征词集合;提出基于统计和语义的相似度计算方法,计算特征词集合间的相似度;引入基于共协矩阵的聚类融合算法,得出聚类结果。实验结果表明,和传统聚类算法相比,该方法提升了标题文本聚类的稳定性。  相似文献   

6.
基于模糊聚类的文本挖掘算法   总被引:8,自引:3,他引:5       下载免费PDF全文
针对传统FCM算法对孤立点比较敏感,须预先指定聚类数目的缺陷,提出一种新的模糊聚类算法NSFCM,将其应用干文本挖掘中。NSFCM对数据对象的隶属度增加一个权值,以减少孤立点对聚类中心的影响。采用平均信息熵确定聚类数,通过密度函数获得初始聚类中心。仿真结果证明,该算法聚类的精度和执行效率均高于FCM算法,效果较好。  相似文献   

7.
为了将语义信息用于文本聚类和有效地进行特征选择,文中提出一种基于协同聚类的两阶段文本聚类方法.该方法分别对文档和特征进行聚类从而得到特征与主题之间的语义关联关系.然后利用此关系来相互调整彼此的聚类结果.实验结果表明,利用特征与主题之间的语义关联关系能有效提高聚类效果.  相似文献   

8.
余晓山  吴扬扬 《计算机应用》2014,34(6):1595-1599
针对传统的层次聚类算法在处理大规模文本时可扩展性不足的问题,提出基于MapReduce编程模型的并行化文本层次聚类算法。将基于文本向量分量组特征统计的垂直数据划分算法应用于MapReduce的数据分发,将MapReduce的排序特性应用于合并点的选择,使得算法更加高效,同时有利于提高聚类精度。实验结果表明了利用该算法进行大规模文本聚类的有效性及良好的可扩展性。  相似文献   

9.
基于聚类特性的大规模文本聚类算法研究   总被引:3,自引:0,他引:3  
一、引言随着Internet的飞速发展,人们能从网上得到更多的信息,但过多的信息常常会导致信息迷失。将信息进行分类是帮助信息利用的有效方法,聚类则是文本类别划分时常用的技术,其特点是不需训练集即可从给定的文本集合中找到聚类划分。已有的聚类方法大多是针对小规模数据的,当计算资源和时间受到限制时,原有的大部分方法已不能满足要求,需要能够处理大规模数据的算法。标准k均值方法是比较基本也是很常用的一种聚类方法,其计算复杂度与模式数量成线性关系,这使其具有处理大规模数据的可能。k均值方法本质上是一种选代的方法,当数据不能一次全部读入内存时,则需和磁盘进行多次数据交换,并且这种交换相应于迭代次数要反复多次,这无疑需要花费大量的I/O时间。  相似文献   

10.
解决文本聚类集成问题的两个谱算法   总被引:8,自引:0,他引:8  
徐森  卢志茂  顾国昌 《自动化学报》2009,35(7):997-1002
聚类集成中的关键问题是如何根据不同的聚类器组合为最终的更好的聚类结果. 本文引入谱聚类思想解决文本聚类集成问题, 然而谱聚类算法需要计算大规模矩阵的特征值分解问题来获得文本的低维嵌入, 并用于后续聚类. 本文首先提出了一个集成算法, 该算法使用代数变换将大规模矩阵的特征值分解问题转化为等价的奇异值分解问题, 并继续转化为规模更小的特征值分解问题; 然后进一步研究了谱聚类算法的特性, 提出了另一个集成算法, 该算法通过求解超边的低维嵌入, 间接得到文本的低维嵌入. 在TREC和Reuters文本数据集上的实验结果表明, 本文提出的两个谱聚类算法比其他基于图划分的集成算法鲁棒, 是解决文本聚类集成问题行之有效的方法.  相似文献   

11.
聚类与PCA融合的特征提取方法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
针对主成分分析(Principal Component Analysis,PCA)在克服变量多重相关性中的局限作用,提出了基于K-maxmin聚类的改进PCA特征提取方法,并结合RelieF算法去除分类不相关特征,可进一步提高算法效率和准确性。实验结果表明,该方法的特征提取效果优于传统的PCA方法。  相似文献   

12.
传统的多向主元分析(MPCA)已广泛应用于监视多变量间歇过程。在MPCA算法中,三维的间歇过程数据需要转换为高维的二维向量,导致计算量和存储空间大,同时不可避免地丢失一些重要信息。因此,提出一种新的基于二维主元分析(2DPCA)的故障诊断方法。由于每个批次的间歇过程数据是一个二维向量(矩阵),应用以各个批次矩阵为分析对象的2DPCA算法,避免矢量化,存储空间和存储需求小;另外,2DPCA采用各个批次的协方差的平均值来进行建模,能够更加准确地反映出不同类型的故障,在一定程度上增强了故障诊断的准确性。半导体工业实例的监视结果说明,2DPCA方法优于MPCA。  相似文献   

13.
基于MSPCA的传感器故障诊断与数据重构   总被引:1,自引:0,他引:1       下载免费PDF全文
讨论了基于多尺度主元分析的故障传感器数据重构问题。传统的多尺度主元分析方法没有建立故障传感器数据重构模型,在相关传感器信号的所有尺度上建立主元分析模型进行传感器故障诊断的基础上,将主元分析模型的重构结果组合后进行小波逆变换,设计了能够实现故障传感器数据重构的多尺度主元分析模型,从而实现故障传感器的数据重构。最后,利用试车台液氢供应系统的传感器数据仿真了几种典型传感器故障,并对设计模型实现数据重构的实用性和有效性进行了验证。  相似文献   

14.
刘巍  金文标  肖仙谦 《计算机应用》2011,31(5):1202-1204
针对现有的直线检测算法中,基于霍夫变换类算法开销大且易产生虚假结果,基于链码跟踪类方法鲁棒性和适应性较差的问题,提出一种新的直线检测算法。对边缘图像做分块链码跟踪产生链码串,然后对链码串做主元分析(PCA)构造线段,最后采用聚类方法合并线段以产生直线。实验结果表明,该算法速度较快,检测结果较理想,且对较复杂、细节丰富的图像也具有良好的检测结果。  相似文献   

15.
针对模拟电路的故障诊断和健康管理(PHM)的应用,提出了结合主成分分析(PCA)和极限学习机(ELM)的故障诊断方法。该方法用Sallen-Key带通滤波器来获取故障样本,并通过PCA进行故障特征提取。根据故障样本对ELM进行训练来获得故障诊断模型。实验结果表明,该实现方法识别率高、鲁棒性好,在工程实际中具有研究和应用价值。  相似文献   

16.
文本分类中采用向量空间模型来表达文本特征,维数巨大,关键是对高维的特征集进行降维处理,而一般的分解算法无法处理大规模的高维问题。采用CCIPCA与ICA相结合的特征提取方法可以有效地实现文本特征降维。实验结果表明降维提高了分类器的效率和效果。  相似文献   

17.
为了解决特征提取计算量大且特征参数不够全面的问题,提出了用主成分分析和K-means聚类进行语音特征参数提取的方法。通过对说话人识别系统中最常用的线性预测倒谱系数( LPCC)参数和梅尔倒谱系数( MFCC)参数提取原理以及差分参数的提取算法深入研究,选择LPCC、MFCC以及其一阶差分参数的组合作为最终混合特征参数。首先用主成分分析降低每一帧语音信号特征参数的阶数,然后经过K-means聚类降低帧数,最后通过矢量量化( VQ)来进行说话人识别。实验结果表明,该方法降低了计算复杂度,同时也提升了识别准确性。  相似文献   

18.
基于主成分分析技术、独立分量分析技术以及多数据流模型,将用于数据和信号分析的PCA/ICA方法应用于多数据流模型,提出多数据流关联度分析和模式发现的新模型。该模型适用于解决在线混合数据流分离,对挖掘多数据流潜在独立内因有良好效果。探讨模型的健壮性和实时性,并在实验中验证了系统性能。  相似文献   

19.
丁明勇 《计算机应用》2008,28(1):122-124
在二维主成分分析算法中引入了对称性思想,提出了基于对称的二维主成分分析算法(STDPCA)。在该算法中,首先把人脸图像分解成奇对称图像和偶对称图像,然后分别在这两类图像中进行二维主成分分析,提取所需要的特征。该算法不仅有效利用了二维主成分分析算法的优点,而且也考虑了人脸对称性的特点,因此在人脸识别中有较高的识别率。在著名人脸库ORL、YALE中的实验证明了该算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号