共查询到20条相似文献,搜索用时 78 毫秒
1.
2.
3.
研究灰度图像的边缘提取的问题。针对传统边缘提取方法容易受到噪声干扰的问题,提出一种利用像素局部方差、信息熵、梯度和分散度特征的聚类算法,并利用Silhouette准则自动测定最优的聚类个数,从而有效地提高聚类和边缘提取的准确性。首先,利用对图像进行预处理,通过对各个像素提取四种不同的特征值,作为聚类分类器的输入;然后,遍历不同的聚类个数,并以Sil-houette作为最优聚类个数的判别标准,最终确定K聚类算法的类别个数。该方法可以有效地提取图像的边缘,尤其对噪声较多的图像能保证很好的边缘提取准确率。 相似文献
4.
基于PAT-array和模糊聚类的文本聚类方法 总被引:5,自引:0,他引:5
阐述了基于后缀树的文本聚类(STC)算法,对其所存在的缺陷进行了分析,并在此基础上提出了采用PAT-array和模糊聚类相结合的方法对其进行的改进,以提高聚类的质量。 相似文献
5.
基于优化初始中心点的K-means文本聚类算法 总被引:1,自引:0,他引:1
张世博 《计算机与数字工程》2011,(10):30-31
K-means算法终止于一个局部最优状态,所以初始中心点的选择会在很大程度上影响其聚类效果.该文针对K-means算法所存在的问题,提出了一种优化初始中心点的算法.实验表明可以有效减少迭代次数并提高聚类精度,最终获得较好的聚类效果. 相似文献
6.
基于聚类与边缘检测的自然场景文本提取方法 总被引:1,自引:0,他引:1
为了解决复杂自然场景、光照不均匀及背景纹理丰富图像中文本的有效提取,提出一种基于K-means聚类与边缘检测结合的自然场景文本提取方法.该方法通过改进K-means聚类算法,实现文本区域的分割;然后对分割后的图像进行二值子图分解,将分解后的各子图像的连通区域进行标记与分析,得到候选的字符区域;最后利用文本区域的边缘特征对候选字符区域过滤,实现文本字符的提取.实验结果表明,该方法能有效提取出复杂背景、光照影响及背景纹理丰富图像中的文本字符区域. 相似文献
7.
基于类信息的文本聚类中特征选择算法 总被引:2,自引:0,他引:2
文本聚类属于无监督的学习方法,由于缺乏类信息还很难直接应用有监督的特征选择方法,因此提出了一种基于类信息的特征选择算法,此算法在密度聚类算法的聚类结果上使用信息增益特征选择法重新选择最有分类能力的特征,实验验证了算法的可行性和有效性。 相似文献
8.
9.
文本信息中包括许多无用特征,这种噪声特征会影响文本聚类效果,为此提出一种基于粒子群优化的文本特征选择算法.利用词频逆文本频率指数为目标函数评估每个文档的文本特征,从初始文档数据集中求解新的有用特征最优子集;以该最优有用特征子集作为K均值聚类的输入进行文本聚类,得到最优文本聚类结果.利用文档数据集进行聚类测试,其结果表明... 相似文献
10.
菊花 《计算机工程与设计》2022,43(6):1694-1703
提出融合K均值与改进磷虾群算法的多目标文本聚类算法。利用K均值的局部快速寻优和改进磷虾群的全局搜索能力,以K均值聚类解作为改进磷虾群的初始种群,引入遗传交叉和变异改善个体多样性,提升全局搜索能力;通过磷虾种群的诱导运动、觅食运动和随机扩散进行位置更新,引入余弦相似度和欧氏距离的多目标适应度函数评估磷虾位置优劣,搜索全局最优解。通过基准数据集实验确定磷虾群算法的关键参数,进行系统聚类测试,实验结果表明,该算法在聚类指标上表现更佳,聚类准确性更高,收敛速度更快。 相似文献
11.
基于二值化聚类的图像文字提取算法 总被引:2,自引:0,他引:2
为解决渐变色给文字提取聚类算法带来的问题,研究与实现了基于二值化聚类的图像文字提取算法。图像通过一系列预处理后,得到了利于聚类的二值图像,根据背景图像区域特征,对图像进行聚类分块,再利用文字图像区域特征,聚类识别出文字区域。实验表明,该算法在各类图像上取得了理想的效果。 相似文献
12.
针对同类文本中提取的关键词形式多样,且在相似性与相关性上具有模糊关系,提出一种对词语进行分层聚类的文本特征提取方法。该方法在考虑文本间相同词贡献文本相似度的前提下,结合词语相似性与相关性作为语义距离,并根据该语义距离的不同,引入分层聚类并赋予不同聚类权值的方法,最终得到以词和簇共同作为特征单元的带有聚类权值的向量空间模型。引入了word2vec训练词向量得到文本相似度,并根据Skip-Gram+Huffman Softmax模型的算法特点,运用点互信息公式准确获取词语间的相关度。通过文本的分类实验表明,所提出的方法较目前常用的仅使用相似度单层聚类后再统计的方法,能更有效地提高文本特征提取的准确性。 相似文献
13.
针对传统的K-均值算法聚类时所面临的维数灾难、初始聚类中心点难以确定的缺点,提出一种改进的K-均值算法,其核心思想是通过降维、基于密度及散布的初始中心点搜索等方法改进K-均值算法。实验结果证明改进后的算法无论在聚类精度还是在稳定性方面,都明显优于标准的K-均值算法。 相似文献
14.
文本聚类关键是有效解决特征词向量选择及特征词权重计算方法、文本相似度计算方法、聚类中心确定等三个问题。针对相关算法在三个关键环节上存在的问题,提出了适合自由文本特点的特征词权重计算方法和文本相似度计算方法;在此基础上提出了改进的CBC算法,从全局上自适应地确定文本集中的各个聚类中心。算法在实验中准确地确定了各个聚类中心,并在两个文本集上分别获得88.50%和94.00%的聚类准确率。 相似文献
15.
为解决数据流聚类中的"链式数据"问题以及文本数据流存在的高维、稀疏、多主题问题,以Squeezer聚类算法为基础,重新定义了聚类过程中类的质心、半径和判别距离.提出了一种改进算法,通过加入数据预处理环节来提高聚类精度,通过投影聚类提高聚类效率并为簇赋予语义.最后通过在互联网新闻语料的聚类实验,表明了所提出的算法能够以较小的速度代价换来聚类效果的大幅提升,性能显著优于Squeezer算法. 相似文献
16.
基于信息粒度的文本聚类算法 总被引:1,自引:0,他引:1
根据文本对象数据的高维性,稀疏性的特点,提出一种基于信息粒度原理的文本聚类方法.首先在给出文本的稀疏特征,文本的稀疏特征向量,文本的稀疏相似度,等价关系隶属度,广义的等价关系等定义的基础上,利用信息粒度原理生成初始聚类,然后提出并理论推导类间相似度的计算方法,进行类的归并.该算法聚类过程不依赖于输入样本的排列顺序,文本数据的有效压缩提高了算法的执行效率. 相似文献
17.
唐立力 《计算机工程与应用》2015,51(19):152-157
根据科技文献的结构特点,搭建了一个四层挖掘模式,提出了一种应用于科技文献分类的文本特征选择方法。该方法首先依据科技文献的结构将其分为四个层次,然后采用K-means聚类对前三层逐层实现特征词提取,最后再使用Aprori算法找出第四层的最大频繁项集,并作为第四层的特征词集合。在该方法中,针对K-means算法受初始中心点的影响较大的问题,首先采用信息熵对聚类对象赋权的方式来修正对象间的距离函数,然后再利用初始聚类的赋权函数值选出较合适的初始聚类中心点。同时,通过为K-means算法的终止条件设定标准值,来减少算法迭代次数,以减少学习时间;通过删除由信息动态变化而产生的冗余信息,来减少动态聚类过程中的干扰,从而使算法达到更准确更高效的聚类效果。上述措施使得该文本特征选择方法能够在文献语料库中更加准确地找到特征词,较之以前的方法有很大提升,尤其是在科技文献方面更为适用。实验结果表明,当数据量较大时,该方法结合改进后的K-means算法在科技文献分类方面有较高的性能。 相似文献
18.
19.
结合聚类思想神经网络文本分类技术研究* 总被引:1,自引:0,他引:1
针对传统的基于神经网络文本分类算法收敛速度慢等缺点,在分析了文本分类系统的一般模型,以及在应用了互信息量的特征提取方法提取特征项后,提出了一种基于样本中心的径向基神经网络文本分类算法;并引入了聚类算法的核心思想,改进误差反向传播神经网络分类算法收敛速度较慢的缺点。实验结果表明,提出的改进算法与传统的BP神经网络分类算法相比,具有较高的运算速度和较强的非线性映射能力,在收敛速度和准确程度上也有更好的分类效果。 相似文献