首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
文本聚类技术在文本挖掘和信息检索系统中发挥着重要的作用。目前,文本聚类方法大多数采用基于关键词集的经典向量模型来表征文本,这种方式忽略了词与词之间的语义关系,存在词频维数过高,聚类算法计算复杂度高等问题。为了解决这些问题,提出一种基于主题概念聚类的中文文本聚类方法,该方法利用HowNet提取文本的主题概念,然后使用Chameleon算法将主题概念聚类,再依据主题概念的聚类结果完成对文本的聚类。该方法用概念代替单个词条表示文本,减少文本特征之间的依赖关系,有效地降低了文本聚类的时间复杂度。  相似文献   

2.
基于相似度的词聚类算法   总被引:1,自引:1,他引:0  
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文提出了词相似度定义、词集合相似度定义,一种自下而上的分层聚类算法.这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,从而提高聚类的使用效果.  相似文献   

3.
基于特征聚类的海量恶意代码在线自动分析模型   总被引:1,自引:0,他引:1  
针对传统海量恶意代码分析方法中自动特征提取能力不足以及家族判定时效性差等问题,通过动静态方法对大量样本行为构成和代码片段分布规律的研究,提出了基于特征聚类的海量恶意代码在线自动分析模型,包括基于API行为和代码片段的特征空间构建方法、自动特征提取算法和基于LSH的近邻聚类算法。实验结果表明该模型具有大规模样本自动特征提取、支持在线数据聚类、家族判定准确率高等优势,依据该模型设计的原型系统实用性较强。  相似文献   

4.
基于SVM的快速中文组块分析方法   总被引:1,自引:0,他引:1  
基于结构风险最小化的SVM(支持向量机)统计学习理论随着样本数量的增加,不仅训练模型的时间开销会非线性地增长,而且分类的时间开销也会随着支持向量个数的增加而增大.为了使语言分析模型涵盖足够的语言现象并能快速完成模型训练和句子分析,采用了先将组块识别看成文本切分的二分类问题的办法,通过SVM对语料中不同类别词语分别建模,再从组块的构成知识进一步判定组块类型.实验结果表明,这种方法的分析速度和准确率都有一定的提高.  相似文献   

5.
特征选择是文本聚类的重要环节,传统的阈值截断特征选择方法偏重高权重项,受特征词权重计算公式影响较大.遗传算法具有全局搜索的能力,并允许权重低的特征项以一定概率参与遗传进化.另外,本文提出基于<知网>特征词合并算法,通过合并具有高度相似性的特征词,实现初步降维.实验结果表明,基于<知网>和遗传算法的中文文本聚类特征选择方法能够有效降低特征向量维度,并且聚类结果较为稳定.  相似文献   

6.
特征选择是文本聚类的重要环节,传统的阈值截断特征选择方法偏重高权重项,受特征词权重计算公式影响较大。遗传算法具有全局搜索的能力,并允许权重低的特征项以一定概率参与遗传进化。另外,本文提出基于《知网》特征词合并算法,通过合并具有高度相似性的特征词,实现初步降维。实验结果表明,基于《知网》和遗传算法的中文文本聚类特征选择方法能够有效降低特征向量维度,并且聚类结果较为稳定。  相似文献   

7.
现代电子战场的电磁环境日趋复杂,传统的雷达信号分选方法已经很难完成高密集信号环境下的分选任务.提出一种基于集对分析聚类的雷达信号分选算法,该算法融合集对分析中的同异反模式识别的择近原则和聚类分析的思想,将雷达侦察接收机接收的雷达脉冲信号与知识库中已知雷达脉冲信号组成集对,利用信息熵确定分选参数的权重,通过计算集对之间的同异反联系度实现雷达信号分选.仿真实验证明了算法的有效性和可行性,为解决复杂电磁环境下雷达信号分选问题提供了新途径.  相似文献   

8.
9.
空间数据挖掘技术是从空间数据库中提取隐含的、用户感兴趣的知识.针对当前的聚类算法没有很好考虑到空间数据的复杂性和数据之间的联系,再加上聚类的精确度不高,设计了一种新的算法—基于信息熵的空间聚类算法(ESCA算法),该算法优先考虑空间数据的复杂性和数据之间的联系,并采用蚁群优化机制改善传统算法中聚类簇数不确定的缺点.实验结果表明该算法是可行,并且具有更高的精确度.  相似文献   

10.
一种基于密度的k-means聚类算法   总被引:1,自引:0,他引:1  
针对k-means算法中对初始聚类中心和孤立点敏感的缺点,提出一种基于密度的改进k-means算法.该算法引入信息熵和加权距离,从近邻密度出发,去除孤立点对算法的影响,同时确定初始聚类中心,使得聚类中心相对稳定.实验表明,该算法在准确性、运行效率上均有10%以上的提升.  相似文献   

11.
12.
深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟而造成性能显著下降,而在实际中对所有未知领域的训练语料进行人工标注和训练模型并不可行。为了解决这个问题,该文构建了一个基于新词发现的跨领域中文分词系统,可以自动完成从目标领域语料中提取新词、标注语料和训练网络模型的工作。此外,针对现有新词发现算法提取出的词表垃圾词串多以及自动标注语料中存在噪声样本的问题,提出了一种基于向量增强互信息和加权邻接熵的无监督新词发现算法以及一种基于对抗式训练的中文分词模型。实验中将使用北大开源新闻语料训练的网络模型提取出的特征迁移到医疗、发明专利和小说领域,结果表明该文所提方法在未登录词率、准确率、召回率和分词F值方面均优于现有方法。  相似文献   

13.
基于信息网格的分词服务的研究   总被引:2,自引:4,他引:2  
文章首先分析了信息网格的体系结构,然后基于开放网格服务结构的核心思想提出了一个构筑在信息网格上的中文分词服务,并重点介绍了该服务基于OGSA的架构的设计技术以及面向服务的应用.  相似文献   

14.
针对传统的基于模糊C -均值(FCM)聚类的数据关联算法存在的缺陷,提出了一种基于改进核函数模糊C-均值(KFCM)聚类的数据关联算法.该算法以改进的KFCM聚类为基础,通过放宽KFCM聚类的约束条件来增强系统的鲁棒性,并引入信息熵自动确定目标数以作为数据关联的前期准备,再将改进的KFCM聚类算法引入JPDA算法,通过避免对联合事件的概率计算和对确认矩阵的拆分,以实现数据的正确关联和对多目标的实时跟踪.仿真结果表明算法有效可行.  相似文献   

15.
针对传统共词聚类分析法中共词矩阵构建不能全面反映主题词之间的关联问题,提出了基于高频主题词共现于同一篇文献多种格式内容构建共词矩阵的方法,针对传统聚类算法对于类团非球状且类团大小相异较大导致聚类效果不理想等问题,利用改进的CRUE聚类算法对共词矩阵聚类。并对PubMed中肺癌领域相关文献进行共词聚类分析,实验论证了改进后共词聚类分析方法的可行性。  相似文献   

16.
《电子学报:英文版》2017,(6):1221-1226
Category-based statistic language model is an important method to solve the problem of sparse data in statistical language models. But there are two bottlenecks about this model: 1) The problem of word clustering, it is hard to find a suitable clustering method that has good performance and has not large amount of computation; 2) Class-based method always loses some prediction ability to adapt the text of different domain. In order to solve above problems, a novel definition of word similarity by utilizing mutual information was presented. Based on word similarity, the definition of word set similarity was given and a bottom-up hierarchical clustering algorithm was proposed. Experimental results show that the word clustering algorithm based on word similarity is better than conventional greedy clustering method in speed and performance, the perplexity is reduced from 283 to 207.8.  相似文献   

17.
基于信息源聚类的最大熵加权信任分析算法   总被引:2,自引:0,他引:2       下载免费PDF全文
在信息网络中,不同的信息源以不同的可信性和准确性提供了各式各样的信息。为了预测这些信息反映事实的真实度,学者们提出了一些信任分析算法来迭代地计算信息源的信任度及其提供事实的准确度。然而这些算法往往忽略了信息源和事实描述对象之间的相关性。本文作者提出了一种基于信息源聚类的最大熵加权信任分析算法,该算法使我们能够在进行信任分析时有效地融合诸如描述对象属性、信息源关联性等信息。实验证明该算法能够明显的提高分析性能。  相似文献   

18.
基于层次的K-均值聚类   总被引:1,自引:1,他引:1  
介绍一种基于层次的K-均值聚类算法(HKMA)。在统计力学的基础上,对传统K-均值聚类划分矩阵里的元素("隶属"概率)做了形式上的改变,并引入一个调控实际聚类数目的因子。这样,在对同一组数据集进行聚类时,调控因子值不同,结果得到的类数目就不同。用一组二维正态分布的数据集和一组用来测试聚类算法的标准数据集(Iris数)进行测试,结果表明该算法具有层次聚类的性质和较满意的聚类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号