共查询到20条相似文献,搜索用时 214 毫秒
1.
结合聚类思想神经网络文本分类技术研究* 总被引:1,自引:0,他引:1
针对传统的基于神经网络文本分类算法收敛速度慢等缺点,在分析了文本分类系统的一般模型,以及在应用了互信息量的特征提取方法提取特征项后,提出了一种基于样本中心的径向基神经网络文本分类算法;并引入了聚类算法的核心思想,改进误差反向传播神经网络分类算法收敛速度较慢的缺点。实验结果表明,提出的改进算法与传统的BP神经网络分类算法相比,具有较高的运算速度和较强的非线性映射能力,在收敛速度和准确程度上也有更好的分类效果。 相似文献
2.
基于改进的互信息特征选择的文本分类 总被引:1,自引:0,他引:1
使用传统的互信息评估函数进行特征选择方法,得到的分类精度并不高.提出了一种考虑词频作用的互信息评估函数,并采用了K-近邻算法进行文本分类测试,通过分析测试结果,使用改进的互信息评估函数进行特征选择,提高了文本分类的精度. 相似文献
3.
文本分类是信息检索和文本挖掘的重要基础,朴素贝叶斯是一种简单而高效的分类算法,可以应用于文本分类.但是其属性独立性和属性重要性相等的假设并不符合客观实际,这也影响了它的分类效果.如何克服这种假设,进一步提高其分类效果是朴素贝叶斯文本分类算法的一个难题.根据文本分类的特点,基于文本互信息的相关理论,提出了基于互信息的特征项加权朴素贝叶斯文本分类方法,该方法使用互信息对不同类别中的特征项进行分别赋权,部分消除了假设对分类效果的影响.通过在UCIKDD数据集上的仿真实验,验证了该方法的有效性. 相似文献
4.
针对单一极限学习机(ELM)在癫痫脑电信号研究中分类结果不稳定、泛化能力差的缺陷,提出一种基于互信息(MI)的AdaBoost极限学习机分类算法。该算法将AdaBoost引入到极限学习机中,并嵌入互信息输入变量选择,以强学习器最终的性能作为评价指标,实现对输入变量以及网络模型的优化。利用小波变换(WT)提取脑电信号特征,并结合提出的分类算法对UCI脑电数据集以及波恩大学癫痫脑电数据进行分类。实验结果表明,所提方法相比传统方法以及其他同类型研究,在分类精度和稳定性上有着明显提高,并具有较好的泛化性能。 相似文献
5.
6.
7.
提出一种基于颜色熵极值及颜色熵互信息的双重熵快速提取感兴趣区域(Region of Interest, ROI)的多特征图像优化分类方法。首先使用颜色熵极值性确定最相关区域,然后基于颜色熵互信息进行子区域增长,快速确定连续ROI区域,并基于所提取的ROI对图像进行Dense-SIFT特征描述,随后使用K-means聚类生成视觉词典,为了利用空间局部信息,采用金字塔匹配方法,最后将特征输入到SVM进行分类。分别在Caltech101和Caltech256数据库上选取8组数据进行实验,使用ROI提取算法获得的平均分类准确率较未使用之前提高6.86%,收敛速率提升近一半。加入颜色熵、颜色三阶矩特征后,平均分类准确率进一步提高2.36%,较改进之前总共提高9.22%。 相似文献
8.
基于模糊软集合理论的文本分类方法 总被引:3,自引:0,他引:3
为提高文本分类精度,提出一种基于模糊软集合理论的文本分类方法。该方法把文本训练集表示成模糊软集合表格形式,通过约简、构造软集合对照表方法找出待分类文本所属类别,并针对文本特征提取过程中由于相近特征而导致分类精度下降问题给出一种基于正则化互信息特征选择算法,有效地解决了上述问题。与传统的KNN和SVM分类算法相比,模糊软集合方法在文本分类的精度和准度上都有所提高。 相似文献
9.
提出了一种针对分类属性数据特征选择的新算法。通过给出一种能够直接评价分类属性数据特征选择的评价函数新定义,重新构造能实现分类属性数据信息量、条件互信息、特征之间依赖度定义的计算公式,并在此基础上,提出了一种基于互信息较大相关、较小冗余的特征选择(MRLR)算法。MRLR算法在特征选择时不仅考虑了特征与类标签之间的相关性,而且还考虑了特征之间的冗余性。大量的仿真实验表明,MRLR算法在针对分类属性数据的特征选择时,能获得冗余度小且更具代表性的特征子集,具有较好的高效性和稳定性。 相似文献
10.
11.
分类激活图(CAM)具有稀疏、不连续、不完整等问题,并且目前大部分研究仅将其用于可视化分析。基于此,首先利用扩张卷积设计了自动加权的多尺度特征学习来弥补分类激活图存在的问题,并将该多尺度特征与分类激活图生成方法结合,设计了多尺度分类激活图生成方法。进一步,将该多尺度的分类激活图嵌入到网络中构成了端到端的结构,实现分类性能增强的目的。以残差网络ResNet为骨干网络,提出了分类增强模型ResNet-CE。在三个公开数据集CIFAR10、CIFAR100和STL10上,对该模型进行了大量的实验。实验表明:ResNet-CE在这三个数据集上的分类性能与参数量相当的ResNet相比有明显的提升,识别的错误率分别降低了0.23%、3.56%和7.96%,并且分类性能优于当前大部分的分类网络。提出的算法能够简单地迁移到已有的分类模型中,提高原有模型的分类性能。同时,该算法保留了对模型判断依据可视化和解释的功能,这在医疗影像中的疾病识别、无人驾驶的场景识别等场景中具有一定的应用价值和意义。 相似文献
12.
遥感图像分类是遥感领域的研究热点之一.提出了一种基于自适应区间划分的模糊关联遥感图像分类方法(fuzzy associative remote sensing classification,FARSC).算法根据遥感图像分类的特点,利用模糊C均值聚类算法自适应地建立连续型属性模糊区间,使用新的剪枝策略对项集进行筛选从而避免生成无用规则,采用一种新的规则重要性度量方法对多模糊分类规则进行融合,从而有效地提高分类效率和精确度.在UCI数据和遥感图像上所作实验结果表明,算法具有较高的分类精度以及对样本数量变化的不敏感性,对于解决遥感图像分类问题,FARSC算法具有较高的实用性,是一种有效的遥感图像分类方法. 相似文献
13.
基于模糊区域分布的分类规则提取及推理算法 总被引:5,自引:0,他引:5
基于不同分类的样本在各规则对应模糊区域的隶属度分布,定义了一种规则相对匹配度,比分类匹配度更能体现样本在不同模糊区域的分布对比.设计了模糊区域分布矩阵,由该矩阵可以算得规则相对匹配度和分类匹配度,并提出了基于规则相对匹配度的分类规则提取算法,同分类匹配度算法相比,该算法充分考虑了每条规则之间的隶属度分布对比,同时以各分类样本的相对数量作为加权系数,从而兼顾了学习空间的全局密度优势和局部数量优势.通过解模糊器实现了基于规则的分类推理,其推理过程比以往算法具有更好的解释性和简洁性.最后,由Iris数据和Wine数据的分类实验证明:无论样本数量均衡与否,由规则相对匹配度提取规则都具有更好的分类效果. 相似文献
14.
本文对现有的电视图象分类算法和检索算法作了的分析,并在图象分类方面提出了一种自适应分类算法;在检索方面提出了一种基于颜色的样本与非样本学习相结合的方法。自适应分类算法的计算量与相邻帧间的变化量成正比;对纡绝大多数相邻帧,只要计算数目极小的区域就可完成分类工作。实验证明,本文提出的分类与检索方法在速度与精度上均有明显的提高。 相似文献
15.
文本分类是Internet文本信息处理的基础,该文通过对传统文本分类方法的研究,如支持向量机理论、多组判别分析、贝叶斯方法和中心向量法等分类方法,观察到分类器对于不同类别的文本其区分程度有所不同,因此提出了一种基于综合评价方法的多分类器决策机制。在参数训练过程中,引入了最优化理论中的直接搜索方法,形成一个容纳多个分类器的容器,它是各个分类器的最优化的组合,旨在获得最佳的分类精度。通过实验验证,得到了比较理想的分类效果。 相似文献
16.
情绪分类是自然语言处理问题中的重要研究问题之一。情绪分类旨在对文本包含的情绪进行自动分类,该任务是情感分析的一项基本任务。然而,已有的研究都假设各情绪类别的样本数量平衡,这与实际情况并不相符合。该文的研究主要面向不平衡数据的情绪分类任务。具体而言,该文提出了一种基于多通道LSTM神经网络的方法来解决不平衡情绪分类问题。首先,该方法使用欠采样方法获取多组平衡训练语料;其次,使用每一组训练语料学习一个LSTM模型;最后,通过融合多个LSTM模型,获得最终分类结果。实验结果表明该方法明显优于传统的不平衡分类方法。 相似文献
17.
18.
文本层次分类系统的研究 总被引:4,自引:0,他引:4
文章提出了层次分类模型,将类别按相似程度形成一棵树形结构,对文章分类时是一层一层逐层比较的,这样就使得文本分类时文本与类别之间的比较次数大为减少,同时由于大的类别的特征之间的区别比较明显,因此又能在一定程度上提高文本分类的精准率。考虑到一篇文章的标题和正文对决定文章所处的类别上所起的作用是不同的,文中将标题和正文分开处理。还有在进行特征选择时将TFIDF和MI结合起来,这也是该文的创新之处。实验结果表明,层次分类的方法在速度上比一般分类快15%左右,而精准率又有一定程度的提高。 相似文献
19.
针对现有关联分类算法资源消耗大、规则剪枝难、分类模型复杂的缺陷,提出了一种基于分类修剪的关联分类算法改进方案ACCP.根据分类属性值的不同对分类规则前项进行分块挖掘,并对频繁项集挖掘过程和规则修剪进行了改进,有效提高了分类准确率和算法运行效率.实验结果表明,此算法改进方案相比传统CBA算法和C4.5决策树算法有着更高的分类准确率,取得了较好的应用效果. 相似文献
20.
科研项目文本的分类往往需要耗费巨大的人力、物力,因此采用智能方法实现对项目文本分类意义重大。文本分类方法的核心在于文本语义特征的提取,高效的特征提取方法有助于准确构建文本到类别之间的映射。已有的文本分类方法往往基于整个文本或者一部分文本作为分类依据,可能出现信息的冗余或缺失。该文针对结构化的项目文本,在BERT等预训练网络的基础上,创新性地提出基于单交叉注意力机制的两视图项目文本分类学习方法(Two-View Cross Attention, TVCA)和基于双交叉注意力机制的多视图项目文本分类学习方法(Multi-View Cross Attention, MVCA)。MVCA方法基于项目文本的一个主要视图(项目摘要)和两个辅助视图(研究内容、目的和意义),通过两个交叉注意力机制提取包含更丰富语义信息的特征向量,进一步改善分类模型的性能。我们将TVCA和MVCA方法应用于英文论文数据Web of Science Meta-data和南方电网科技项目文本的分类任务中,实验结果验证了TVCA和MVCA方法无论从分类效果还是收敛速度上,都明显优于已有的比较方法。 相似文献