首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 153 毫秒
1.
针对传统的文本分类算法存在着各特征词对分类的结果影响相同、分类准确率较低、造成算法时间复杂度增加的问题,提出了一种改进的最大熵C-均值聚类文本分类方法。该方法充分结合了C-均值聚类和最大熵值算法的优点,以香农熵作为最大熵模型中的目标函数,简化分类器的表达形式,然后采用C-均值聚类算法对最优特征进行分类。仿真实验结果表明,与传统的文本分类方法相比,提出的方法能够快速得到最优分类特征子集,大大提高了文本分类准确率。  相似文献   

2.
提出一种密度敏感模糊核最大熵聚类算法.该算法首先通过核函数将原始非线性非高斯的数据集转化为核空间数据集,然后利用核函数的相似性抵消不属于该聚类的样本数据在聚类过程中对聚类中心求解的干扰,消除正则化系数对聚类结果的影响,进而抑制传统最大熵聚类算法的趋同性.最后通过引入相对密度项,解决因样本数据在特征空间的分布差异而导致的聚类中心求解偏差问题,从而提高聚类结果的准确性.实验部分,本文讨论了算法参数间的关系以及对聚类结果的影响.通过与传统模糊C均值聚类算法、核模糊C均值聚类算法、最大熵聚类算法、最大熵规范化权重核模糊C均值聚类算法以及其他两种改进最大熵聚类算法的聚类结果进行对比分析,结果表明本文提出的密度敏感模糊核最大熵聚类算法的聚类性能明显优于其他算法.  相似文献   

3.
提出了一种结合C-均值聚类算法和模糊熵的图像分割方法,该方法先采用C均值聚类算法对含噪图像进行初步分割,再利用模糊熵准则作后续处理。该方法一方面能够继承C-均值聚类算法的优点,可以灵活地用在基于多特征和多阂值的图像分割中,另一方面充分考虑了图像的区域信息,利用模糊熵最小作为准则,对c均值聚类算法初步分割结果的错分类点作了进一步的处理,克服了C-均值聚类算法对噪声敏感的缺点。实验结果表明,本文方法在运算开销上只比C-均值聚类算法多4~6S,对于低信噪比的图像能够取得优于C-均值聚类算法的分割效果。  相似文献   

4.
基于熵理论的企业危机预警模型研究   总被引:1,自引:0,他引:1  
基于熵的最优化原理建立了一种新的企业危机预警模型.首先利用最小判别熵选取企业危机预警特征值;然后提出一种新的聚类算法--极大熵聚类算法,并对预测结果进行分类,判断企业的危机状态.该算法是硬C-均值算法的发展和推广.通过实例分析表明,该模型有效、可行,为企业危机预警提供了一条新的途径.  相似文献   

5.
初始聚类中心优化选取的核C-均值聚类算法   总被引:4,自引:1,他引:3  
在通常的核C-均值聚类算法中,聚类结果对初始聚类中心敏感,随机选取初始聚类中心时,会使得迭代次数较多、分类结果不稳定.针对该问题提出一种优化选取仞始聚类中心的算法.该方法采用一种改进的最大最小距离算法对原始空间中的数据进行粗分类,将粗分类结果中每类类心作为初始聚类中心,再运用核C-均值聚类算法进行分类.仿真实验结果表明方法能有效减少迭代次数,使分类结果更加稳定,分类识别率也有一定程度的提高.  相似文献   

6.
基于快速二维熵的加权模糊C均值聚类图像分割   总被引:1,自引:0,他引:1  
提出了一种结合快速二维熵和加权模糊C均值聚类的图像分割方法。采用快速二维熵算法对实际图像进行初步分割求得目标和背景的中心,然后采用样本点像素与其邻域灰度像素的差别表征该样本点对分类的影响程度,最后利用加权模糊C均值聚类算法完成图像分割。该方法一方面解决了传统的模糊C均值聚类算法对初始值敏感的问题,另一方面克服了传统的聚类算法对数据集进行等划分的缺陷。实验结果表明,该方法不仅具有良好的收敛性,而且还可以有效地把目标从背景中分割出来,具有重要的实际应用价值。  相似文献   

7.
分类数和初始聚类中心的选取对红外图像的分割结果有较大的影响。传统的模糊C均值算法的分类数和聚类中心往往设定为经验值。为获得最佳的分类数,提出采用轮廓指标确定出较理想的分类数。针对传统的模糊C均值聚类算法对初始聚类中心比较敏感的问题,提出了基于直方图灰度值的最小最大距离法来确定初始聚类中心。实验结果表明该方法有效可行。  相似文献   

8.
分级聚类与平面划分结合方法在网页分类中的应用   总被引:2,自引:0,他引:2  
文章研究分级聚类与平面划分结合方法在网页分类中的应用。阐述了网页分类问题中样本特征分布的特点和复杂性,分级聚类能够生成层次化的嵌套类,且具有较高的准确度,但具有较高的计算复杂度,不适合计算大量样本的计算问题。K-均值算法受初始聚类中心的选择影响较大,对于不规则分布的样本往往聚类的效果不佳。文章考虑利用少数样本和分级聚类算法进行样本集合的初始聚类中心的划分,再利用K-均值算法对整个样本集合做聚类,则既可以避免分级聚类算法的计算复杂又可充分利用K-均值算法的快速特点;另一方面则利用了分级聚类算法准确度高为确定初始聚类中心提供了可靠的方法。文中给出了纯K-均值方法、分级聚类与平面划分结合方法在解决文本分类问题上的实验结果。  相似文献   

9.
为了使分类器能够在某个强度级别的行为样本集上训练而在其他强度级别上正确分类行为,提出了行为识别的随机逼近模型。在训练阶段从加速度计的时间序列数据提取特征,然后将特征送入聚类算法。数据依据行为聚类,聚类的均值和方差组合成相对应的SAM。在识别随机行为阶段,测试样本和每种行为类别的SAM进行比较。利用聚类算法和随机逼近给每种行为创建模型,然后使用启发式随机逼近最近邻方法来对行为进行分类。在实验中结合k-均值和高斯混合模型两种聚类算法,验证了提出的随机逼近模型的性能优于其他几种流行的行为分类方案。  相似文献   

10.
针对传统基于最大熵模糊 C 均值聚类算法(MEFCM)仅适用于球状或椭圆状聚类,为了解决数据分布混乱以及高度相关难以划分的情形,引入 Mercer 核函数,使原来没有显现的特征突现出来,从而使聚类效果更好。然而在实际问题中,大多数样本集的样本数据都存在着重要性(权重)不同的现象,主要针对样本集中各个数据的不同重要程度来设计加权方法,同时为了克服聚类算法对初始聚类中心选取的敏感性这一弱点,提出了一个初始聚类中心优化的加权最大熵核模糊聚类算法(WKMEFCM)。通过实验验证,该算法与原MEFCM算法比较,其聚类结果更加稳定、准确,从而达到更好的聚类划分效果。  相似文献   

11.
一种基于反向文本频率互信息的文本挖掘算法研究   总被引:1,自引:0,他引:1  
针对传统的文本分类算法存在着各特征词对分类结果的影响相同,分类准确率较低,同时造成了算法时间复杂度的增加,在分析了文本分类系统的一般模型,以及在应用了互信息量的特征提取方法提取特征项的基础上,提出一种基于反向文本频率互信息熵文本分类算法。该算法首先采用基于向量空间模型(vector spacemodel,VSM)对文本样本向量进行特征提取;然后对文本信息提取关键词集,筛选文本中的关键词,采用互信息来表示并计算词汇与文档分类相关度;最后计算关键词在文档中的权重。实验结果表明了提出的改进算法与传统的分类算法相比,具有较高的运算速度和较强的非线性映射能力,在收敛速度和准确程度上也有更好的分类效果。  相似文献   

12.
在海量短文本中由于特征稀疏、数据维度高这一问题,传统的文本分类方法在分类速度和准确率上达不到理想的效果。针对这一问题提出了一种基于Topic N-Gram(TNG)特征扩展的多级模糊最小-最大神经网络(MLFM-MN)短文本分类算法。首先通过使用改进的TNG模型构建一个特征扩展库并对特征进行扩展,该扩展库不仅可以推断单词分布,还可以推断每个主题文本的短语分布;然后根据短文本中的原始特征,计算这些文本的主题倾向,根据主题倾向,从特征扩展库中选择适当的候选词和短语,并将这些候选词和短语放入原始文本中;最后运用MLFM-MN算法对这些扩展的原始文本对象进行分类,并使用精确率、召回率和F1分数来评估分类效果。实验结果表明,本文提出的新型分类算法能够显著提高文本的分类性能。  相似文献   

13.
研究了文本挖掘精确度问题。针对传统的聚类文本分类算法在文本分类中存在高维性和稀疏性,特别是同义词和近义词难以进行分类,使得分类的精确度低等问题,提出了一种聚类平均信息量文本分类算法。算法从信息论观点分析文本空间向量,将文本看做一个信息源,通过求得该信息源的各个特征的次数来积累文本信息量,以领域特征明显的词和短语作为聚类对象,然后采用层次平均信息量进行特征提取。仿真实验结果表明,提出的算法能够有效地提取文本信息,提高了文本分类的精度,具有一定的实际应用价值。  相似文献   

14.
基于语义扩展的短问题分类   总被引:1,自引:0,他引:1  
问题分类是问答系统任务之一。特别是语音交互方式中,用户的提问较短,具有口语化特征,利用传统文本分类方法对问题进行分类的效果不佳。为此提出一种基于语义扩展的短问题分类方法,该方法使用搜索引擎对问题进行知识扩展;然后,使用主题模型进行特征词选择;最后,利用词语相似度计算获取问题的类别。实验结果表明,所提方法在1365条真实问题集上平均F-measure值达到0.713,其值高于支持向量机(SVM)、K近邻(KNN)算法和最大熵方法。因此,该方法在问答系统中可以帮助系统提升问题分类的准确率。  相似文献   

15.
黄熠  王娟 《计算机科学》2017,44(Z6):446-450
中文文本的情感倾向分析是网络舆情信息挖掘和分析的关键技术之一。提出了一种粒子群-高斯过程算法(PSO-GP)的中文文本情感倾向分类方法,采用粒子群优化算法(Particle Swarm optimization,PSO)进行高斯过程(Gaussian Process)超参数的最优搜索,解决了传统高斯过程中共轭梯度法迭代次数难确定、对初值依赖性强和易陷入局部极小值等问题。首先采用多线程网络爬虫技术采集文本数据组成语料库,构建特定领域情感词典,然后通过情感词匹配选择最有效的特征,降低数据维度,并利用TF-IDF算法计算特征词的权重以生成特征向量。最终,将测试样本输入PSO-GP分类模型。实验结果表明,与传统GP方法相比,提出的改进高斯过程分类模型的分类准确率提高了近15%。  相似文献   

16.
分类问题普遍存在于现代工业生产中。在进行分类任务之前,利用特征选择筛选有用的信息,能够有效地提高分类效率和分类精度。最小冗余最大相关算法(mRMR)考虑最大化特征与类别的相关性和最小化特征之间的冗余性,能够有效地选择特征子集;但该算法存在中后期特征重要度偏差大以及无法直接给出特征子集的问题。针对该问题,文中提出了结合邻域粗糙集差别矩阵和mRMR原理的特征选择算法。根据最大相关性和最小冗余性原则,利用邻域熵和邻域互信息定义了特征的重要度,以更好地处理混合数据类型。基于差别矩阵定义了动态差别集,利用差别集的动态演化有效去除冗余属性,缩小搜索范围,优化特征子集,并根据差别矩阵判定迭代截止条件。实验选取SVM,J48,KNN和MLP作为分类器来评价该特征选择算法的性能。在公共数据集上的实验结果表明,与已有算法相比,所提算法的平均分类精度提升了2%左右,同时在特征较多的数据集上能够有效地缩短特征选择时间。所提算法继承了差别矩阵和mRMR的优点,能够有效地处理特征选择问题。  相似文献   

17.
文本分类任务作为文本挖掘的核心问题,已成为自然语言处理领域的一个重要课题.而短文本分类由于稀疏性、实时性和不规范性等特点,已经成为文本分类的亟待解决的问题之一.在某些特定的场景,短文本存在大量隐含语义,由此对挖掘有限文本内的隐含语义特征等任务带来挑战.已有的方法对短文本分类主要是采用传统机器学习或深度学习算法,但是该类算法的模型构建复杂且工作量大,效率不高.此外,短文本包含有效信息较少且口语化严重,对模型的特征学习能力要求较高.针对以上问题,本文提出了KAeRCNN模型,该模型在TextRCNN模型的基础上,融合了知识感知与双重注意力机制.知识感知包含了知识图谱实体链接和知识图谱嵌入,可以引入外部知识以获取语义特征,同时双重注意力机制可以提高模型对短文本中有效信息提取的效率.实验结果表明,KAeRCNN模型在分类准确度、F1值和实际应用效果等方面显著优于传统的机器学习算法.我们对算法的性能和适应性进行了验证,准确率达到95.54%,F1值达到0.901,对比四种传统机器学习算法,准确率平均提高了约14%,F1值提升了约13%.与TextRCNN相比,KAeRCNN模型在准确性方面提升了约3%.此外,与深度学习算法的对比实验结果也说明了我们的模型在其它领域的短文本分类中也有较好的表现.理论和实验结果都证明,提出的KAeRCNN模型对短文本分类效果更优.  相似文献   

18.
文本特征提取和分类器优化是文本分类的两个关键问题,为了提高文本分类正确率,提出一种聚类加权(CW)和布谷鸟(CS)算法优化最小二乘支持向量机(LSSVM)的文本分类模型。采用TF-IDF算法计算特征词的权重,根据特征词的位置进行加权,经过特征聚类处理降低特征冗余度,采用LSSVM建立文本分类器,采用CS算法对LSSVM参数进行优化。采用复旦大学语料库对模型性能进行仿真测试,仿真结果表明,模型不仅提高了文本分类的正确率,而且提高了文本分类的效率。  相似文献   

19.
文本分类有着广泛的应用,对其分类算法的研究也一直备受关注。但是,传统文本分类算法普遍存在文本特征向量化维度过高、没有考虑关键词之间语义关系、训练参数过多等问题,这些都将影响到分类准确率等性能。针对这些问题,提出了一种结合词向量化与GRU的文本分类算法。对文本进行预处理操作;通过GloVe进行词向量化,尽可能多地蕴含文本语义和语法信息,同时降低向量空间维度;再利用GRU神经网络模型进行训练,最大程度保留长文本中长距离词之间的语义关联。实验结果证明,该算法对提高文本分类性能有较明显的作用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号