共查询到18条相似文献,搜索用时 140 毫秒
1.
2.
3.
4.
5.
准确地检测出近似重复图像对于冗余去除和版权侵犯检测具有重要的意义。为了改善基于均匀分裂外部支持向量机聚类算法的性能,提出了一种结合贪婪树和外部支持向量机的近似重复图像聚类算法。该方法先利用外部支持向量机将数据集聚为两类,然后采用贪婪树生长算法选择“最优”的类进行分解,重复上述过程直到不可分为止。此外,为了克服图像视觉单词的同义性问题,利用概率潜在语义分析模型将同现的图像视觉单词映射到潜在语义空间中的同一方向上。实验结果表明,与内部支持向量聚类算法和基于均匀分裂的外部支持向量机聚类算法相比,该方法在聚类性能方面有了明显的提高。。 相似文献
6.
孙德刚 《信息技术与信息化》2023,(3):109-112
针对在传统语义融合的文本相似度算法设计与实现中由于汉语语义复杂存在容易形成局部极小值而得不到全局最优、训练次数较多、学习效率降低、隐节点的选取缺乏理论依据等问题,提出一种改进算法。首先在把握文本相似度算法内涵和分类情况的基础上,通过调整数字识别方向、选取合适的数据来源,依据图像识别技术和算法深度学习的共性需求,从语义融合角度提出以核心词为节点进行文本相似度计算;然后通过多特征融合向量空间模型对特征项的类间分布问题进行分析,最终通过加权计算得到文本相似度。从算法实现效果来看,相较于传统算法能够获得更高文本分类准确度,改进基于文本相似度算法的语言处理技术更加高效、准确。 相似文献
7.
传统的文本关键词提取方法忽略了上下文语义信息,不能解决一词多义问题,提取效果并不理想。基于LDA和BERT模型,文中提出LDA-BERT-LightG BM(LB-LightG BM)模型。该方法选择LDA主题模型获得每个评论的主题及其词分布,根据阈值筛选出候选关键词,将筛选出来的词和原评论文本拼接在一起输入到BERT模型中,进行词向量训练,得到包含文本主题词向量,从而将文本关键词提取问题通过LightG BM算法转化为二分类问题。通过实验对比了textrank算法、LDA算法、LightG BM算法及文中提出的LB-LightG BM模型对文本关键词提取的准确率P、召回率R以及F1。结果表明,当Top N取3~6时,F1的平均值比最优方法提升3.5%,该方法的抽取效果整体上优于实验中所选取的对比方法,能够更准确地发现文本关键词。 相似文献
8.
文本聚类技术在文本挖掘和信息检索系统中发挥着重要的作用。目前,文本聚类方法大多数采用基于关键词集的经典向量模型来表征文本,这种方式忽略了词与词之间的语义关系,存在词频维数过高,聚类算法计算复杂度高等问题。为了解决这些问题,提出一种基于主题概念聚类的中文文本聚类方法,该方法利用HowNet提取文本的主题概念,然后使用Chameleon算法将主题概念聚类,再依据主题概念的聚类结果完成对文本的聚类。该方法用概念代替单个词条表示文本,减少文本特征之间的依赖关系,有效地降低了文本聚类的时间复杂度。 相似文献
9.
特征选择是文本聚类的重要环节,传统的阈值截断特征选择方法偏重高权重项,受特征词权重计算公式影响较大。遗传算法具有全局搜索的能力,并允许权重低的特征项以一定概率参与遗传进化。另外,本文提出基于《知网》特征词合并算法,通过合并具有高度相似性的特征词,实现初步降维。实验结果表明,基于《知网》和遗传算法的中文文本聚类特征选择方法能够有效降低特征向量维度,并且聚类结果较为稳定。 相似文献
10.
首先提出了一种优化初始中心点方法用以解决聚类的局部最优问题.同时通过样本的模糊加权减少边缘噪音数据对聚类效率的影响.文本聚类试验表明,该模糊文本聚类算法取得较好的聚类效果. 相似文献
11.
12.
针对自然场景中任意形状文本图像因文本行难以区分导致的信息丢失问题,提出了 一种基于深度学习的场景文本检测算法。首先构建特征提取模块,使用Resnet50作为骨干 网络,在增加跨层连接的金字塔网络结构中引入并联的空洞卷积模块,以提取更多语义信息; 其次,对得到的特征图进行多尺度特征融合,学习不同尺度的特征;最后预测出不同内核大 小的文本实例,并通过尺度扩展逐渐扩大文本行区域,直到得到最终的检测结果。实验结果 表明,该方法在SCUT-CTW1500弯曲文本数据集上的准确率、召回率及F1值分别达到88.5%、 77.0%和81.3%,相比其他基于分割的算法,该算 法对弯曲文本的检测效果良好,具有一定的 应用价值。 相似文献
13.
文章提出了一种基于模糊聚类的文本分类器构造方法,介绍了文本中特征词之间模糊相似度的度量方法,给出了利用“编网法”思想实现模糊聚类的算法。通过比较文本中特征词之间的模糊相似度,实现特征词的聚类,最终获取能够识别文本主题类别的特征词集合,并给出了分类器性能的测试结果。 相似文献
14.
15.
16.
对社会化媒体产生的大量短文本进行聚类分析具有重要的应用价值,但短文本往往具有噪音数据多、增长迅速且数据量大的特点,导致现有相关算法难于有效处理.提出一种基于增量式鲁棒非负矩阵分解的短文本在线聚类算法STOCIRNMF.STOCIRNMF基于非负矩阵分解构建短文本聚类模型,通过l2,1范数设计模型的优化求解目标函数提高鲁棒性,同时应用增量式迭代更新规则实现短文本的在线聚类.在搜狐新闻标题和微博短文本数据集上进行相关实验,结果表明STOCIRNMF不仅比现有代表性算法具有更好的聚类性能,而且能够有效对微博话题进行在线检测. 相似文献
17.
针对高斯噪声信道下MASK、MFSK和MPSK信号的类间识别问题,提出了一种基于短时傅里叶变换(Short Time Fourier Transform,STFT)和仿射传播聚类(Affinity Propagation Clustering,AP)相结合的信号类间识别方法。通过对在高斯信道下3类信号时域和频域特征的联合分析,提取出信号的时频特征。通过仿射传播聚类算法对信号进行聚类,通过信息迭代更新,可以快速、自动地找到聚类中心和聚类数目。仿真结果表明,在信噪比(SNR)较低的情况下仍能达到很好的分类效果。 相似文献
18.
聚类集成是数据挖掘研究的一个热点。它是利用同一数据集的多个聚类划分集成在一起,以提高聚类分析的性能。当前相关研究大多没有考虑进行集成的聚类成员的质量,因此较差的成员会对集成结果产生不良影响。文中提出了一种基于加权co-occurrence矩阵的聚类集成算法(WCSCE)。该方法首先计算出聚类成员基于属性值的co-occurrence矩阵,然后对聚类成员的质量进行简单评价并赋予权重,生成加权co-occurrence矩阵,进而产生集成结果。最后通过实验验证了该算法的有效性,并提高了聚类质量。 相似文献