首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
文本分类是当今信息检索和数据挖掘等领域的研究热点,而特征加权是文本分类过程中的重要步骤.为了提高分类质量,文章通过深入分析粗糙集理论和逆文本频率加权的思想,提出了一种基于粗糙集的特征加权方法,从近似分类精度和近似分类质量两个方面考虑特征词对分类的全局作用,将文本的类别属性信息引入到权重中.通过文本分类实验证明,该加权方法有助于提高分类系统的分类效果.  相似文献   

2.
为解决电力信息通信客服系统在故障研判时存在故障分类准确率低甚至误分的问题,提出基于层次化类别嵌入的文本分类方法,进行电力信息通信系统故障识别.首先,基于电力信息通信系统故障的用户保修工单文本数据构建电力信息通信系统层次化电力故障标签;其次,提出了基于层次化深层金字塔卷积神经网络和基于层次化中断循环神经网络2种层次化文本分类方法,采用层次化类别嵌入方法逐层进行故障类型分类.实验结果表明,基于层次化深层金字塔卷积神经网络的方法效果最优,可以提供高效、准确的故障识别服务.  相似文献   

3.
针对博文内容包含多主题、类别归属不明显,以及传统的文本分类方法直接应用于博文效果不理想等问题,提出了一种基于标签的博客文章分类方法.该方法将文本分类问题转化为图优化问题,并提出了一种利用迭代算法计算图中节点属于各类别的概率值.实验结果表明,与传统的文本分类方法相比,所提出的分类方法有效地提高了博文的分类性能.  相似文献   

4.
为使文本向量能准确表达文本信息、提升文本分类效果,提出了一种强化类别贡献的文本特征权重方案.利用后验概率定义了特征词的类别贡献度函数,结合相关频率权重因子,得到兼顾类别贡献度与类间分布差异的文本特征权重量化方案.在4个标准语料集上的测试结果表明,该方案实现简单,能更准确地刻画不同特征对分类的贡献差异,优化文本表示,并显著地提高文本分类效果.  相似文献   

5.
对文本特征表示模型和文本特征提取方法进行了探讨,分析了分类效果的影响因素,设计了一种动态调整训练集的文本分类算法,并结合支持向量机验证了该分类系统的类别特征信息和分类适应性.  相似文献   

6.
随着网络上非平衡数据的大量涌现,使得对非平衡数据分类的研究成为一个新的研究热点.根据特征在类别中的分布特点,提出了基于类间、类内分布的方法.该方法不但充分考虑了稀有类别信息对特征选择的影响,使得构造的类别分布函数能够相当好地反映稀有特征的信息,而且能够选出对非平衡数据分类贡献大的特征.实验结果表明:此方法的MacroF...  相似文献   

7.
提出了一种快速的文本倾向性分类方法,即采用类别空间模型描述词语对类别的倾向性,基于词的统计特征实现分类;针对倾向性分类的复杂性,在综合考虑词频、词的文本频、词的分布三种统计特征的基础上,提出一种新的二次特征提取方法:第一次特征提取,采用组合特征提取方法,除去低频词以及在各类中均匀分布的噪音词;第二次特征提取,去除类别倾向性不明显的词。实验表明该分类方法不仅具有较高的分类性能,而且运行速度快,在信息检索、信息过滤、内容安全管理等方面具有一定的实用价值。  相似文献   

8.
针对互联网热点信息发现的需求,提出一种基于先分类再聚类的互联网信息热点发现及分析系统构建方法.通过对互联网样本信息文本的特征提取,构建文本向量空间模型,使用Maxent最大熵分类模型对文本进行分类,对分类结果使用OPTICS聚类算法获取文本热点簇,最终获取有效热点信息.实验证明,通过先分类再聚类的方法可以有效避免语义类别不同但字面意义混淆的文章对聚类算法的影响,有效提高聚类结果的精度和运算效率.  相似文献   

9.
摘要:为提高处理文本相似度的效果,提出了一种基于相对熵度量文本差异的KNN算法.该算法首先对文本进行预处理(分字与删去停用字)和构建特征字字典; 然后计算训练集中所有文本特征字的概率,并组成训练集(特征字概率矩阵); 最后计算预测文本的特征字概率向量,并通过计算和统计K个预测文本与训练集文本间相对熵最小的文本类别个数后将数目最多的类别作为测试样本的类别.实验结果表明,该算法的分类效果不仅显著优于传统KNN、SVM、Decision Tree、朴素Bayes算法的分类效果,且在小样本数据情况下  相似文献   

10.
提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核心特征词权重因子对核心特征词权重加权,以提高类别特征向量中类别特征信息的含量。实验结果显示,这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。  相似文献   

11.
针对现有欠定盲分离混合矩阵估计方法中存在的估计精度低以及时间复杂度高等缺点,提出一种基于相似度检测的欠定混合矩阵估计方法.该方法能够在没有任何先验信息的条件下自适应地估计出源信号数目以及混合矩阵,而且不需要进行迭代,时间复杂度低.仿真结果表明,与现有的一些混合矩阵估计方法,如改进K-均值聚类法和拉普拉斯势函数法相比,所提出的方法在源信号数目估计准确率、混合矩阵估计精度以及时间复杂度等方面都具有明显优势.  相似文献   

12.
基于免疫网络原理,提出了一种新的无监督式分类算法。首先基于形态空间理论给出了抗体、抗原和免疫网络的形式化定义,建立了抗体克隆选择、高频变异以及免疫记忆的动态模型和相应的数学方程,最后给出了分类过程。实验表明该算法的分类精度要高于其它传统的聚类算法,并具有很好的持续学习、动态调节、特性记忆等特性。如果把抗体视为某种既定模式,合理地调整抗原集合,则该模型具有广泛的用途。  相似文献   

13.
Considering neutrosophic C-means clustering algorithm with weak ability of suppressing noise, a neutrosophic C-means clustering segmentation algorithm based on the hidden Markov random field is proposed. First, the hidden Markov random field is used to describe the prior information of the arbitrary pixels classification. Second, information divergence between the prior information and sample classification membership is taken as a regular term and embedded into the existing neutrosophic C-means clustering objective function. Third, the samples in the European Space is mapped into the high-dimensional space through the kernel function, and the iterative expression for the neutrosophic C-means clustering segmentation algorithm based on the hidden Markov random field is obtained by the optimization method. Many standard, actual, and synthetic images corrupted by noise are used to validate the segmentation performance of the improved clustering segmentation algorithm. Experimental results show that the anti-noise performance of the proposed segmentation algorithm is improved significantly than the fuzzy C-means clustering algorithm based on the hidden Markov random field, and other fuzzy clustering segmentation algorithms.  相似文献   

14.
为了判别微表情种类,提出基于深度卷积神经网络和迁移学习的微表情种类判别网络MecNet.为了提高MecNet在CASME Ⅱ、SMIC和SAMM联合数据库上的微表情种类判别准确率,提出基于自编码器的微表情生成网络MegNet,以扩充训练集.使用CASME Ⅱ亚洲人的微表情样本,生成欧美人的微表情样本.设计卷积结构实现图像编码,设计基于子像素卷积的特征图上采样模块实现图像解码,设计基于图像结构相似性的损失函数用于网络优化.将生成的欧美人的微表情样本加入MecNet训练集.实验结果表明,使用MegNet扩充训练集能够有效地提高MecNet微表情种类判别准确率.结合MegNet、MecNet的算法在CASME Ⅱ、SMIC和SAMM组成的联合数据库上的表现优于大部分现有算法.  相似文献   

15.
针对大型室内场景下现有指纹定位算法运算复杂度高、定位精度低的问题,提出一种基于模拟退火聚类的室内定位算法。该算法采用模拟退火聚类的方法完成对指纹空间的聚类和划分,有效降低了指纹匹配所需的候选指纹数量,并消除了具有一定特征相似性的奇异点,从而降低了运算复杂度,提高了定位精度。实验结果表明,该算法可计算出定位环境下指纹空间的最优聚类数从而确保定位精度,较K 均值聚类定位算法和KNN算法定位精度高,且定位精度不受初始值影响。  相似文献   

16.
Classification systems such as Slope Mass Rating(SMR) are currently being used to undertake slope stability analysis. In SMR classification system, data is allocated to certain classes based on linguistic and experience-based criteria. In order to eliminate linguistic criteria resulted from experience-based judgments and account for uncertainties in determining class boundaries developed by SMR system,the system classification results were corrected using two clustering algorithms, namely K-means and fuzzy c-means(FCM), for the ratings obtained via continuous and discrete functions. By applying clustering algorithms in SMR classification system, no in-advance experience-based judgment was made on the number of extracted classes in this system, and it was only after all steps of the clustering algorithms were accomplished that new classification scheme was proposed for SMR system under different failure modes based on the ratings obtained via continuous and discrete functions. The results of this study showed that, engineers can achieve more reliable and objective evaluations over slope stability by using SMR system based on the ratings calculated via continuous and discrete functions.  相似文献   

17.
基于Hausdorff距离的视觉监控轨迹分类算法   总被引:1,自引:1,他引:1  
针对智能视觉监控系统中的运动目标轨迹分类问题,提出了一种基于多维Hausdorff距离的轨迹聚类算法。该算法使用流矢量序列描述目标运动轨迹,由多维Hausdorff距离进行轨迹相似性测量,通过谱聚类实现轨迹分类。该算法在轨迹描述中同时包含位置和方向信息,解决了Hausdorff距离不能区分轨迹运动方向的问题。为降低计算复杂度,本文还提出一种保距变换对轨迹相似性测量进行优化。与相关算法的对比实验表明,提出的轨迹分类算法可达到更高的聚类准确率;提出的保距变换可以显著降低算法的计算复杂度。  相似文献   

18.
针对因特网流量分类面临的流量类别标记瓶颈和类别样本数分布不平衡,提出基于Bootstrapping的流量分类方法,使用少量有标记样本训练初始分类器,迭代利用无标记样本扩展样本集并更新分类器. 在构建扩展样本集过程中,将无标记样本在某后验概率分布下的正确分类行为视为一个概率事件,建立新的置信度计算方法,以减少扩展样本集中的噪声样本;基于概率近似正确学习理论建立启发式规则,注重选择小类样本加入扩展样本集,缓解类别样本数分布的不平衡. 实验结果表明,与初始分类器相比,基于Bootstrapping的流量分类器总体分类准确率可提高9.46%;与现有半监督学习方法相比,小类分类准确率提高2.22%.  相似文献   

19.
为解决超限学习机复杂度较高的问题,提出了一种新型的超限学习机更新策略,称为序列超限学习机.避免了复杂度较高的逆矩阵运算,而且能够应用于嵌入式系统中.序列超限学习机比各种广泛应用的机器学习分类器具有更低的计算复杂度.基于实际数据集的仿真结果表明,序列超限学习机的分类精度比传统超限学习机和其他广泛应用的分类器更高,而且具有更短的训练时间.  相似文献   

20.
针对脑功能连接数据维度过高、冗余特征过多影响神经网络分类准确率的问题,提出一种基于显著稀疏强关联的脑功能连接分类方法. 该方法利用显著特征稀疏模块对原始特征进行筛选增强;采用稀疏强关联特征上下文融合模块对不同感受野内的显著特征信息进行聚合;使用全连接神经网络进行分类预测. 在ABIDE以及ADHD-200数据集上的实验结果表明,所提方法相较于现有的脑功能连接分类算法在准确率上分别提升了10.41%和12.50%. 重要特征的可视化结果表明所提方法能准确定位与疾病相关的脑区,具有一定实际应用价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号