首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
基于VSM的文本聚类忽略了文本关键词稀疏带来的相似度漂移问题和关键词之间的语义信息和各维度之间的关系,致使文本的相似度计算不精确,文中对相似度计算方法 TF-IDF进行了改进,并提出一种新的聚类方法,利用分布式估计算法和禁忌搜索算法进行聚类,融合分布式估计算法的收敛速度快和禁忌搜索算法能跳出局部搜索的优点,首先对文本进行预处理,然后用分布式估计算法和禁忌搜索算法聚类,既能快速聚类又能防止聚类收敛到局部最优。测试结果表明这种算法行之有效。  相似文献   

2.
基于VSM的文本聚类忽略了文本关键词稀疏带来的相似度漂移问题和关键词之间的语义信息和各维度之间的关系,致使文本的相似度计算不精确,文中对相似度计算方法TF—IDF进行了改进,并提出一种新的聚类方法,利用分布式估计算法和禁忌搜索算法进行聚类,融合分布式估计算法的收敛速度快和禁忌搜索算法能跳出局部搜索的优点,首先对文本进行预处理,然后用分布式估计算法和禁忌搜索算法聚类,既能快速聚类又能防止聚类收敛到局部最优。测试结果表明这种算法行之有效。  相似文献   

3.
《信息技术》2019,(12):76-80
文中讨论在文本类目数未知的情况下,如何对数据量过少的短文本进行有效聚类的问题。短文本的特点是每一份样本文章数据少,数据稀疏,用常规的聚类方法进行文本聚类不能取得很好的效果。文中提出了一种基于K-means的改进算法,提出一种简单降维方式和新的判别样本点距离的方法,经实验验证,文中改进算法比原K-means算法有更高的准确性。  相似文献   

4.
对海量数据进行聚类,从中获取有价值的隐含知识,已经成为一项迫切的需求。传统的基于词频或距离的文本聚类技术在准确度方面存在较大差距。引入文本语义信息的聚类方法,提高了聚类的准确度。实验结果表明,基于语义特征的模糊聚类算法具有较好的聚类效果。  相似文献   

5.
准确地检测出近似重复图像对于冗余去除和版权侵犯检测具有重要的意义。为了改善基于均匀分裂外部支持向量机聚类算法的性能,提出了一种结合贪婪树和外部支持向量机的近似重复图像聚类算法。该方法先利用外部支持向量机将数据集聚为两类,然后采用贪婪树生长算法选择“最优”的类进行分解,重复上述过程直到不可分为止。此外,为了克服图像视觉单词的同义性问题,利用概率潜在语义分析模型将同现的图像视觉单词映射到潜在语义空间中的同一方向上。实验结果表明,与内部支持向量聚类算法和基于均匀分裂的外部支持向量机聚类算法相比,该方法在聚类性能方面有了明显的提高。。   相似文献   

6.
针对在传统语义融合的文本相似度算法设计与实现中由于汉语语义复杂存在容易形成局部极小值而得不到全局最优、训练次数较多、学习效率降低、隐节点的选取缺乏理论依据等问题,提出一种改进算法。首先在把握文本相似度算法内涵和分类情况的基础上,通过调整数字识别方向、选取合适的数据来源,依据图像识别技术和算法深度学习的共性需求,从语义融合角度提出以核心词为节点进行文本相似度计算;然后通过多特征融合向量空间模型对特征项的类间分布问题进行分析,最终通过加权计算得到文本相似度。从算法实现效果来看,相较于传统算法能够获得更高文本分类准确度,改进基于文本相似度算法的语言处理技术更加高效、准确。  相似文献   

7.
传统的文本关键词提取方法忽略了上下文语义信息,不能解决一词多义问题,提取效果并不理想。基于LDA和BERT模型,文中提出LDA-BERT-LightG BM(LB-LightG BM)模型。该方法选择LDA主题模型获得每个评论的主题及其词分布,根据阈值筛选出候选关键词,将筛选出来的词和原评论文本拼接在一起输入到BERT模型中,进行词向量训练,得到包含文本主题词向量,从而将文本关键词提取问题通过LightG BM算法转化为二分类问题。通过实验对比了textrank算法、LDA算法、LightG BM算法及文中提出的LB-LightG BM模型对文本关键词提取的准确率P、召回率R以及F1。结果表明,当Top N取3~6时,F1的平均值比最优方法提升3.5%,该方法的抽取效果整体上优于实验中所选取的对比方法,能够更准确地发现文本关键词。  相似文献   

8.
文本聚类技术在文本挖掘和信息检索系统中发挥着重要的作用。目前,文本聚类方法大多数采用基于关键词集的经典向量模型来表征文本,这种方式忽略了词与词之间的语义关系,存在词频维数过高,聚类算法计算复杂度高等问题。为了解决这些问题,提出一种基于主题概念聚类的中文文本聚类方法,该方法利用HowNet提取文本的主题概念,然后使用Chameleon算法将主题概念聚类,再依据主题概念的聚类结果完成对文本的聚类。该方法用概念代替单个词条表示文本,减少文本特征之间的依赖关系,有效地降低了文本聚类的时间复杂度。  相似文献   

9.
特征选择是文本聚类的重要环节,传统的阈值截断特征选择方法偏重高权重项,受特征词权重计算公式影响较大。遗传算法具有全局搜索的能力,并允许权重低的特征项以一定概率参与遗传进化。另外,本文提出基于《知网》特征词合并算法,通过合并具有高度相似性的特征词,实现初步降维。实验结果表明,基于《知网》和遗传算法的中文文本聚类特征选择方法能够有效降低特征向量维度,并且聚类结果较为稳定。  相似文献   

10.
首先提出了一种优化初始中心点方法用以解决聚类的局部最优问题.同时通过样本的模糊加权减少边缘噪音数据对聚类效率的影响.文本聚类试验表明,该模糊文本聚类算法取得较好的聚类效果.  相似文献   

11.
邹杜  唐文军  龙卫江  张凌 《通信学报》2013,34(Z2):30-162
相似文本标定是抄袭检测的一个重要环节,现有标定方法大多采用直接对文本或指纹进行合并的方式,标定精度受干扰信息影响较大。针对这种局限性,分析了匹配指纹对的语义特征,提出基于斜率密度的相似文本聚类方法,将文本匹配合并问题转化成稠密样本点聚类问题,并在PAN公用语料库上对该方法进行了测试,得到的主要指标优于PAN10前3名。目前已将该方法用于华南理工大学特色专业教学平台的作业查抄,取得了较好的效果。  相似文献   

12.
针对自然场景中任意形状文本图像因文本行难以区分导致的信息丢失问题,提出了 一种基于深度学习的场景文本检测算法。首先构建特征提取模块,使用Resnet50作为骨干 网络,在增加跨层连接的金字塔网络结构中引入并联的空洞卷积模块,以提取更多语义信息; 其次,对得到的特征图进行多尺度特征融合,学习不同尺度的特征;最后预测出不同内核大 小的文本实例,并通过尺度扩展逐渐扩大文本行区域,直到得到最终的检测结果。实验结果 表明,该方法在SCUT-CTW1500弯曲文本数据集上的准确率、召回率及F1值分别达到88.5%、 77.0%和81.3%,相比其他基于分割的算法,该算 法对弯曲文本的检测效果良好,具有一定的 应用价值。  相似文献   

13.
文章提出了一种基于模糊聚类的文本分类器构造方法,介绍了文本中特征词之间模糊相似度的度量方法,给出了利用“编网法”思想实现模糊聚类的算法。通过比较文本中特征词之间的模糊相似度,实现特征词的聚类,最终获取能够识别文本主题类别的特征词集合,并给出了分类器性能的测试结果。  相似文献   

14.
基于有限元法分析了光子晶体光纤模场半径,为了提高计算速度,提出了一种工作波长为1.55μm时,光子晶体光纤模场半径的快速估算方法,进而实现光子晶体光纤熔接损耗的快速估算。分析表明,本文提出的方法能够准确快速的实现光子晶体光纤熔接损耗的估算。  相似文献   

15.
基于知网的概念特征抽取方法   总被引:14,自引:0,他引:14  
文本特征抽取是文本过滤的一项重要基础,但通常采取的用字、词作为特征项的显著缺点是无法表达文本的语义信息,所以本文在向量空间模型的基础上提出了一种以知网为语义知识库、基于语义信息的文本特征项抽取方法。该方法比单纯的词汇信息更能体现文本的概念特征,提高过滤系统的性能;同时还能降低文本向量的维数,减少计算量,提高过滤效率。我们在引入了该方法的中文文本过滤系统上进行的实验结果也充分证实了其有效性。  相似文献   

16.
贺超波  汤庸  张琼  刘双印  刘海 《电子学报》2019,47(5):1086-1093
对社会化媒体产生的大量短文本进行聚类分析具有重要的应用价值,但短文本往往具有噪音数据多、增长迅速且数据量大的特点,导致现有相关算法难于有效处理.提出一种基于增量式鲁棒非负矩阵分解的短文本在线聚类算法STOCIRNMF.STOCIRNMF基于非负矩阵分解构建短文本聚类模型,通过l2,1范数设计模型的优化求解目标函数提高鲁棒性,同时应用增量式迭代更新规则实现短文本的在线聚类.在搜狐新闻标题和微博短文本数据集上进行相关实验,结果表明STOCIRNMF不仅比现有代表性算法具有更好的聚类性能,而且能够有效对微博话题进行在线检测.  相似文献   

17.
针对高斯噪声信道下MASK、MFSK和MPSK信号的类间识别问题,提出了一种基于短时傅里叶变换(Short Time Fourier Transform,STFT)和仿射传播聚类(Affinity Propagation Clustering,AP)相结合的信号类间识别方法。通过对在高斯信道下3类信号时域和频域特征的联合分析,提取出信号的时频特征。通过仿射传播聚类算法对信号进行聚类,通过信息迭代更新,可以快速、自动地找到聚类中心和聚类数目。仿真结果表明,在信噪比(SNR)较低的情况下仍能达到很好的分类效果。  相似文献   

18.
聚类集成是数据挖掘研究的一个热点。它是利用同一数据集的多个聚类划分集成在一起,以提高聚类分析的性能。当前相关研究大多没有考虑进行集成的聚类成员的质量,因此较差的成员会对集成结果产生不良影响。文中提出了一种基于加权co-occurrence矩阵的聚类集成算法(WCSCE)。该方法首先计算出聚类成员基于属性值的co-occurrence矩阵,然后对聚类成员的质量进行简单评价并赋予权重,生成加权co-occurrence矩阵,进而产生集成结果。最后通过实验验证了该算法的有效性,并提高了聚类质量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号