首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
文本聚类是中文文本挖掘中的一种重要分析方法.K均值聚类算法是目前最为常用的文本聚类算法之一.但此算法在处理高维、稀疏数据集等问题时存在一些不足,且对初始聚类中心敏感.本文针时这些不足,提出了用特征词向量空间模型来降低向量的维数;并提出一种新的优化初始聚类中心的算法,即根据文章的特征词选择有代表性的初始聚类中心.实验表明特征词向量空间模型和优化初始聚类中心的算法能降低计算复杂度,增强结果的稳定性,并产生质量较高的聚类结果.  相似文献   

2.
基于自适应在线聚类的背景提取   总被引:1,自引:0,他引:1       下载免费PDF全文
分析目前应用于背景提取的各类聚类方法的原理和存在的问题,提出一种基于自适应在线聚类的背景提取方法。通过使用自适应动态改变的聚类阈值对视频进行在线聚类,无须设定任何参数即能自适应地提取出背景图像。实验结果表明,该方法具有较好的自适应性,能够提取出较优的背景图像,对于各种视频具有较好的鲁棒性。  相似文献   

3.
研究灰度图像的边缘提取的问题。针对传统边缘提取方法容易受到噪声干扰的问题,提出一种利用像素局部方差、信息熵、梯度和分散度特征的聚类算法,并利用Silhouette准则自动测定最优的聚类个数,从而有效地提高聚类和边缘提取的准确性。首先,利用对图像进行预处理,通过对各个像素提取四种不同的特征值,作为聚类分类器的输入;然后,遍历不同的聚类个数,并以Sil-houette作为最优聚类个数的判别标准,最终确定K聚类算法的类别个数。该方法可以有效地提取图像的边缘,尤其对噪声较多的图像能保证很好的边缘提取准确率。  相似文献   

4.
基于PAT-array和模糊聚类的文本聚类方法   总被引:5,自引:0,他引:5  
林建敏  谢康林 《计算机工程》2004,30(12):126-127,177
阐述了基于后缀树的文本聚类(STC)算法,对其所存在的缺陷进行了分析,并在此基础上提出了采用PAT-array和模糊聚类相结合的方法对其进行的改进,以提高聚类的质量。  相似文献   

5.
基于聚类与边缘检测的自然场景文本提取方法   总被引:1,自引:0,他引:1  
为了解决复杂自然场景、光照不均匀及背景纹理丰富图像中文本的有效提取,提出一种基于K-means聚类与边缘检测结合的自然场景文本提取方法.该方法通过改进K-means聚类算法,实现文本区域的分割;然后对分割后的图像进行二值子图分解,将分解后的各子图像的连通区域进行标记与分析,得到候选的字符区域;最后利用文本区域的边缘特征对候选字符区域过滤,实现文本字符的提取.实验结果表明,该方法能有效提取出复杂背景、光照影响及背景纹理丰富图像中的文本字符区域.  相似文献   

6.
基于优化初始中心点的K-means文本聚类算法   总被引:1,自引:0,他引:1  
K-means算法终止于一个局部最优状态,所以初始中心点的选择会在很大程度上影响其聚类效果.该文针对K-means算法所存在的问题,提出了一种优化初始中心点的算法.实验表明可以有效减少迭代次数并提高聚类精度,最终获得较好的聚类效果.  相似文献   

7.
基于类信息的文本聚类中特征选择算法   总被引:2,自引:0,他引:2  
文本聚类属于无监督的学习方法,由于缺乏类信息还很难直接应用有监督的特征选择方法,因此提出了一种基于类信息的特征选择算法,此算法在密度聚类算法的聚类结果上使用信息增益特征选择法重新选择最有分类能力的特征,实验验证了算法的可行性和有效性。  相似文献   

8.
聚类模式下一种优化的K-means文本特征选择   总被引:1,自引:0,他引:1  
文本特征降维是文本自动分类的核心技术。K-means方法是一种常用的基于划分的方法。针对该算法对类中心初始值及孤立点过于敏感的问题,提出了一种改进的K-means算法用于文本特征选择。通过优化初始类中心的选择模式及对孤立点的剔除,改善了文本特征聚类的效果。随后的文本分类试验表明,提出的改进K-means算法具有较好的特征选择能力,文本分类的效率较高。  相似文献   

9.
文本信息中包括许多无用特征,这种噪声特征会影响文本聚类效果,为此提出一种基于粒子群优化的文本特征选择算法.利用词频逆文本频率指数为目标函数评估每个文档的文本特征,从初始文档数据集中求解新的有用特征最优子集;以该最优有用特征子集作为K均值聚类的输入进行文本聚类,得到最优文本聚类结果.利用文档数据集进行聚类测试,其结果表明...  相似文献   

10.
提出融合K均值与改进磷虾群算法的多目标文本聚类算法。利用K均值的局部快速寻优和改进磷虾群的全局搜索能力,以K均值聚类解作为改进磷虾群的初始种群,引入遗传交叉和变异改善个体多样性,提升全局搜索能力;通过磷虾种群的诱导运动、觅食运动和随机扩散进行位置更新,引入余弦相似度和欧氏距离的多目标适应度函数评估磷虾位置优劣,搜索全局最优解。通过基准数据集实验确定磷虾群算法的关键参数,进行系统聚类测试,实验结果表明,该算法在聚类指标上表现更佳,聚类准确性更高,收敛速度更快。  相似文献   

11.
基于二值化聚类的图像文字提取算法   总被引:2,自引:0,他引:2  
戴维  张申生 《计算机应用》2009,29(1):57-59,7
为解决渐变色给文字提取聚类算法带来的问题,研究与实现了基于二值化聚类的图像文字提取算法。图像通过一系列预处理后,得到了利于聚类的二值图像,根据背景图像区域特征,对图像进行聚类分块,再利用文字图像区域特征,聚类识别出文字区域。实验表明,该算法在各类图像上取得了理想的效果。  相似文献   

12.
王靖 《计算机应用研究》2020,37(10):2951-2955,2960
针对同类文本中提取的关键词形式多样,且在相似性与相关性上具有模糊关系,提出一种对词语进行分层聚类的文本特征提取方法。该方法在考虑文本间相同词贡献文本相似度的前提下,结合词语相似性与相关性作为语义距离,并根据该语义距离的不同,引入分层聚类并赋予不同聚类权值的方法,最终得到以词和簇共同作为特征单元的带有聚类权值的向量空间模型。引入了word2vec训练词向量得到文本相似度,并根据Skip-Gram+Huffman Softmax模型的算法特点,运用点互信息公式准确获取词语间的相关度。通过文本的分类实验表明,所提出的方法较目前常用的仅使用相似度单层聚类后再统计的方法,能更有效地提高文本特征提取的准确性。  相似文献   

13.
一种基于密度的K-均值算法   总被引:1,自引:1,他引:0       下载免费PDF全文
针对传统的K-均值算法聚类时所面临的维数灾难、初始聚类中心点难以确定的缺点,提出一种改进的K-均值算法,其核心思想是通过降维、基于密度及散布的初始中心点搜索等方法改进K-均值算法。实验结果证明改进后的算法无论在聚类精度还是在稳定性方面,都明显优于标准的K-均值算法。  相似文献   

14.
为解决数据流聚类中的"链式数据"问题以及文本数据流存在的高维、稀疏、多主题问题,以Squeezer聚类算法为基础,重新定义了聚类过程中类的质心、半径和判别距离.提出了一种改进算法,通过加入数据预处理环节来提高聚类精度,通过投影聚类提高聚类效率并为簇赋予语义.最后通过在互联网新闻语料的聚类实验,表明了所提出的算法能够以较小的速度代价换来聚类效果的大幅提升,性能显著优于Squeezer算法.  相似文献   

15.
文本聚类关键是有效解决特征词向量选择及特征词权重计算方法、文本相似度计算方法、聚类中心确定等三个问题。针对相关算法在三个关键环节上存在的问题,提出了适合自由文本特点的特征词权重计算方法和文本相似度计算方法;在此基础上提出了改进的CBC算法,从全局上自适应地确定文本集中的各个聚类中心。算法在实验中准确地确定了各个聚类中心,并在两个文本集上分别获得88.50%和94.00%的聚类准确率。  相似文献   

16.
基于信息粒度的文本聚类算法   总被引:1,自引:0,他引:1  
根据文本对象数据的高维性,稀疏性的特点,提出一种基于信息粒度原理的文本聚类方法.首先在给出文本的稀疏特征,文本的稀疏特征向量,文本的稀疏相似度,等价关系隶属度,广义的等价关系等定义的基础上,利用信息粒度原理生成初始聚类,然后提出并理论推导类间相似度的计算方法,进行类的归并.该算法聚类过程不依赖于输入样本的排列顺序,文本数据的有效压缩提高了算法的执行效率.  相似文献   

17.
根据科技文献的结构特点,搭建了一个四层挖掘模式,提出了一种应用于科技文献分类的文本特征选择方法。该方法首先依据科技文献的结构将其分为四个层次,然后采用K-means聚类对前三层逐层实现特征词提取,最后再使用Aprori算法找出第四层的最大频繁项集,并作为第四层的特征词集合。在该方法中,针对K-means算法受初始中心点的影响较大的问题,首先采用信息熵对聚类对象赋权的方式来修正对象间的距离函数,然后再利用初始聚类的赋权函数值选出较合适的初始聚类中心点。同时,通过为K-means算法的终止条件设定标准值,来减少算法迭代次数,以减少学习时间;通过删除由信息动态变化而产生的冗余信息,来减少动态聚类过程中的干扰,从而使算法达到更准确更高效的聚类效果。上述措施使得该文本特征选择方法能够在文献语料库中更加准确地找到特征词,较之以前的方法有很大提升,尤其是在科技文献方面更为适用。实验结果表明,当数据量较大时,该方法结合改进后的K-means算法在科技文献分类方面有较高的性能。  相似文献   

18.
根据文本集的中心和初始簇的中心,选择一组具有良好区分度的方向构建IMIC坐标系,在该坐标系下构造出各坐标轴的重新标度函数用于提高聚类决策的有效性。算法IMIC经过多次迭代,收敛到最终解。IMIC算法的时间复杂度与K-means保持在同一量级上。实验结果表明,IMIC算法有较好的聚类质量。  相似文献   

19.
结合聚类思想神经网络文本分类技术研究*   总被引:1,自引:0,他引:1  
针对传统的基于神经网络文本分类算法收敛速度慢等缺点,在分析了文本分类系统的一般模型,以及在应用了互信息量的特征提取方法提取特征项后,提出了一种基于样本中心的径向基神经网络文本分类算法;并引入了聚类算法的核心思想,改进误差反向传播神经网络分类算法收敛速度较慢的缺点。实验结果表明,提出的改进算法与传统的BP神经网络分类算法相比,具有较高的运算速度和较强的非线性映射能力,在收敛速度和准确程度上也有更好的分类效果。  相似文献   

20.
针对量子行为粒子群优化算法中粒子搜索的盲目性以及初始聚类中心的选取对聚类结果的影响问题,提出了一种基于GA优化的QPSO聚类算法.该算法首先利用GA稳健的全局优化性能进行快速的粗略聚类,然后用GA的聚类结果初始化QPSO算法,以降低粒子群搜索的盲目性,从而提高QPSO算法的搜索效率.通过在Reuter-21578真实的文本数据集上实验,该算法在Fmeasure评价标准上获得了较高的查准率和查全率,从而验证了该聚类算法的有效性和可行性,可以在文本聚类领域推广应用.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号