首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
对文本分类评测方法稳定性的研究   总被引:1,自引:0,他引:1  
文本分类算法一般采用宏平均精度、宏平均召回率以及宏平均F1值作为评价指标,然而同一个分类器在不同数据集上所得的评测数值往往存在很大差异,使得评测数值只在特定的数据集上有价值,而在其他数据集上没有意义.为了解决这个问题,本文提出3个因素来刻画数据集对分类结果的影响,并利用这3个因素构造一种评测指标newmacro-F1.这一评测指标将数据集的因素从评测过程中独立出来,使得newmacro-F1表示的仅仅是分类算法本身.实验结果表明使用该评测指标同一分类器在不同的数据集上波动较小.通过分类器在1个数据集上的表现,可以近似计算得到该分类器在另一个数据集卜的分类质量.  相似文献   

2.
李劲  张华  吴浩雄  向军  辜希武 《计算机应用》2012,32(5):1335-1339
社会标注是一种用户对网络资源的大众分类,蕴含了丰富的语义信息,因此将社会标注应用到信息检索技术中有助于提高信息检索的质量。研究了一种基于社会标注的文本分类改进算法以提高网页分类的效果。由于社会标注属于大众分类,标注的产生具有很大的随意性,标注的质量差别很大,因此首先利用文档间的语义相似度以及标注间的语义相似度来对标注的质量进行量化评估。在此基础上对标注进行质量过滤,利用质量相对较好的标注对文档向量空间模型进行扩展,将文档表示成由文档单词以及文档标注信息组成的扩展向量。同时采用支持向量机分类算法进行分类实验。实验结果表明,通过对标注进行质量评估并过滤质量差的标注,同时结合文档内容以及标注来对文档能提高分类的效果,同传统的基于文档内容的分类算法相比,分类结果的F1度量值提高了6.2%。  相似文献   

3.
大部分数据流分类算法解决了数据流无限长度和概念漂移这两个问题。但是,这些算法需要人工专家将全部实例都标记好作为训练集来训练分类器,这在数据流高速到达并需要快速分类的环境中是不现实的,因为标记实例需要时间和成本。此时,如果采用监督学习的方法来训练分类器,由于标记数据稀少将得到一个弱分类器。提出一种基于主动学习的数据流分类算法,该算法通过选择全部实例中的一小部分来人工标记,其中这小部分实例是分类置信度较低的样本,从而可以极大地减少需要人工标记的实例数量。实验结果表明,该算法可以在数据流存在概念漂移情况下,使用较少的标记数据对数据流训练出分类器,并且分类效果良好。  相似文献   

4.
为了提高基于大容量指纹库的自动指纹识别系统的检索效率,提出一种基于独立分类特征的指纹多级分类算法。依据评测指标对输入指纹图像进行质量评估,若指纹质量不合格,则提醒用户重新输入;若指纹质量合格,则分别利用指纹图像的纹型类别、奇异点间脊线数、中心区域脊线平均频率3个相互独立的分类特征实现多级分类,从而逐级减小检索空间。实验结果表明,该分类算法检索效率高、鲁棒性强,为大容量指纹库提供了一种快速有效的索引机制,具有很强的实用性。  相似文献   

5.
针对现有中文微博观点分类方法对上下文利用不足、数据表示稀疏和特征依赖于人工设计等问题,提出基于卷积神经网络的中文微博观点分类方法.首先利用交互上下文扩充不同主题下的微博内容,使用低维密集向量初始化微博文本.然后构造卷积神经网络模型,实现特征抽取和组合.最后基于softmax分类函数估计中文微博观点类别.实验表明,相比基准方法,文中方法在精确度和F1值上的效果更好.  相似文献   

6.
针对研究生培养质量评估中存在的主观性强、数据类别不平衡问题,文章提出一种基于过采样与集成学习的研究生培养质量预测算法(K-means SMOTE Random_Stacking,KSRS)。首先,通过K-means SMOTE算法调整数据集样本分布,使其各类别平衡;其次,基于平衡数据集采用Random_Stacking算法构建研究生培养质量预测模型;最后,利用模型对研究生培养质量进行预测。根据真实的研究生培养数据验证所提模型的有效性。结果表明:对比其他分类算法,KSRS算法在指标召回率、F1值、精确率上均有较大提升,为研究生培养质量评估提供一种科学有效的方法参考。  相似文献   

7.
现有的过滤式特征选择算法忽略了特征之间的关联性。鉴于此,提出了一种新的过滤式特征选择算法——基于持续同调的特征选择算法(Rel-Betti算法),该算法能够识别特征之间的关联性以及组合效果。通过提出相关贝蒂数概念,筛选出数据集中重要的拓扑特征信息。该算法对数据集进行预处理后,根据类标签将数据集分类,计算不同类中的相关贝蒂数,获得数据信息的特征均值,按特征均值差值大小对特征进行重要性排序。利用UCI数据集中的8个数据,将该算法与其他常见算法在决策树、随机森林、K近邻和支持向量机这4种学习模型下进行比较实验。结果表明,该算法是一种有效的特征选择算法,其能够提高分类的准确率和F1值,并且不依赖于特定的机器学习模型。  相似文献   

8.
集成分类通过将若干个弱分类器依据某种规则进行组合,能有效改善分类性能。在组合过程中,各个弱分类器对分类结果的重要程度往往不一样。极限学习机是最近提出的一个新的训练单隐层前馈神经网络的学习算法。以极限学习机为基分类器,提出了一个基于差分进化的极限学习机加权集成方法。提出的方法通过差分进化算法来优化集成方法中各个基分类器的权值。实验结果表明,该方法与基于简单投票集成方法和基于Adaboost集成方法相比,具有较高的分类准确性和较好的泛化能力。  相似文献   

9.
针对术前无创准确判断肝细胞癌(HCC)病理分化程度这一问题,提出了一种基于影像组学的肝细胞癌病理分级方法。该方法结合多模态融合及AdaBoost算法构建模型。首先,基于影像组学方法提取磁共振成像(MRI)的影像组学特征,通过特征递归消除等算法进行特征筛选和降维后进行多模态融合;然后,采用过采样方法解决数据类别不平衡问题优化模型性能;最后,基于Adaboost算法建模对HCC进行病理分化等级细分类。实验结果表明,所提方法在相同数据集的F1值比现有的加权融合方法、基于支持向量机(SVM)算法的方法相比均要高5个百分点。对比基于单模态构建的F1值最优模型,使用的多模态融合方法的F1值提高了7个百分点。  相似文献   

10.
滚动轴承的故障诊断对于提高工业生产效率,保障工业生产的稳定安全地运行具有重要意义。为了提高滚动轴承故障识别的正确率,提出一种使用KNN-朴素贝叶斯决策组合算法对滚动轴承故障诊断。组合算法利用朴素贝叶斯算法对使用不同K值的KNN算法初步分类结果进行再分类以达到提高滚动轴承故障识别的目的。首先,使用小波包能量法对滚动轴承振动信号进行能量特征提取,然后使用多个参数K值不同的KNN算法对能量特征数据预分类,得到多个KNN算法分类结果集,将分类结果集进行处理得到预分类结果集,将预分类结果集作为朴素贝叶斯算法的输入,使用朴素贝叶斯算法对数据再分类。实验结果表明,组合算法相较于传统KNN算法及贝叶斯算法在滚动轴承的故障诊断率得到了有效提高,实现了对滚动轴承故障的有效诊断。  相似文献   

11.
Associative classification (AC) is a new, effective supervised learning approach that aims to predict unseen instances. AC effectively integrates association rule mining and classification, and produces more accurate results than other traditional data mining classification algorithms. In this paper, we propose a new AC algorithm called the Fast Associative Classification Algorithm (FACA). We investigate our proposed algorithm against four well-known AC algorithms (CBA, CMAR, MCAR, and ECAR) on real-world phishing datasets. The bases of the investigation in our experiments are classification accuracy and the F1 evaluation measures. The results indicate that FACA is very successful with regard to the F1 evaluation measure compared with the other four well-known algorithms (CBA, CMAR, MCAR, and ECAR). The FACA also outperformed the other four AC algorithms with regard to the accuracy evaluation measure.  相似文献   

12.
在如今的软件开发中, 开源软件的使用越来越普遍, 但是对大型开源软件的理解和维护仍然是一项复杂的工作. 开源软件通常缺乏完善的文档和注释, 想要完整的理解开源系统难度较大, 研究界产生了一种通过分析大型开源软件的源代码, 进而深入理解系统, 发现和修复系统漏洞的软件分析型任务. 源代码分析注释是软件分析型任务的一项重要产出, 它是一种以注释形式存在的细粒度代码分析报告, 数量庞大, 难以快速做出质量评价. 在传统的软件质量评价中, 对注释的评价通常局限于覆盖度和文本长度, 不能满足源代码分析注释质量评价的要求. 为了更好的评价源代码分析注释的质量, 本文结合现有的对代码注释质量评价的研究以及信息质量领域的评价方法, 提出了一种综合考虑客观质量属性和主观质量属性的质量评价框架. 结合实际的项目数据分析, 本文的方法可以更有效的检测出注释中的冗余以及无关内容, 发现相关质量问题, 从而对源代码分析注释进行更全面的质量评价.  相似文献   

13.
特征权重计算是文本分类过程的基础,传统基于概率的特征权重算法,往往只对词频,逆文档频和逆类频等进行统计,忽略了类别之间的相互关系。而对于多分类问题,类别之间的关系对统计又有重要意义。因此,针对这一不足,本文提出了基于类别方差的特征权重算法,通过计算类别文档频率的方差来度量类别之间的联系,并在搜狗新闻数据集上对五种特征权重算法进行分类实验。结果表明,与其他四种特征权重算法相比,本文提出的算法在F1宏平均和F1微平均上都有较大的提高,提升了文本分类的效果。  相似文献   

14.
姚杰  谭建明  陈婧 《计算机应用研究》2012,29(10):3956-3959
目前基于结构相似性的图像质量评价算法均是对图像进行整体质量分析,但人类视觉系统对图像中不同部分的敏感程度不同,而对图像进行整体质量分析无法有效反映出这些差异。鉴于此,提出了一种基于内容划分的图像质量评价算法,根据图像不同区域的梯度将图像分为四个部分,分别进行质量评价。之后,采用基于运动补偿的帧加权方式将上述方法扩展为视频质量评价。实验证明,所述算法与目前比较流行的几个算法相比具有较高的评价准确性。  相似文献   

15.
近年来,用户评论情感分类方法成为自然语言处理领域的重要研究内容.本文利用自注意力机制在文本中捕捉重要局部特征的优势,在没有外部语法信息的条件下自动学习上下文关系,并结合卷积神经网络模型TextCNN,提出一种基于自注意力机制的文本分类模型(TextCNN Attention,TextCNN-Att),TextCNN-A...  相似文献   

16.
文本分类任务作为文本挖掘的核心问题,已成为自然语言处理领域的一个重要课题.而短文本分类由于稀疏性、实时性和不规范性等特点,已成为文本分类亟待解决的问题之一.在某些特定场景,短文本存在大量隐含语义,由此给挖掘有限文本内的隐含语义特征等任务带来挑战.已有的方法对短文本分类主要采用传统机器学习或深度学习算法,但该类算法的模型构建复杂且工作量大,效率不高.此外,短文本包含有效信息较少且口语化严重,对模型的特征学习能力要求较高.针对以上问题,提出了KAe RCNN模型,该模型在TextRCNN模型的基础上,融合了知识感知与双重注意力机制.知识感知包含了知识图谱实体链接和知识图谱嵌入,可以引入外部知识以获取语义特征,同时,双重注意力机制可以提高模型对短文本中有效信息提取的效率.实验结果表明,KAe RCNN模型在分类准确度、F1值和实际应用效果等方面显著优于传统的机器学习算法.对算法的性能和适应性进行了验证,准确率达到95.54%, F1值达到0.901,对比4种传统机器学习算法,准确率平均提高了约14%, F1值提升了约13%.与TextRCNN相比,KAe RCNN模型在准确性方面提升了约3%...  相似文献   

17.
提出了一种改进的四进制哈夫曼树的生成算法,通过分析算法的平均码长和编码效率,论证了算法相对于传统的四进制算法的优点。并用C语言分别实现两种算法,进行了压缩比和压缩时间的比较,证明了改进算法在压缩比和压缩速度上的提升。  相似文献   

18.
建立了评判耦合策略优劣的定量分析方法,发现了现有带中间启动局部搜索(local search,LS)的粒子群混合算法的不足,进而提出一种简单高效的耦合策略.基于该策略,在全局性能优异的综合学习粒子群(comprehensive learning particle swarm optimizer,CLPSO)算法中引入具有快速收敛性能的传统LS方法,提出了带LS的CLPSO混合算法(CLPSO hybrid algorithm with LS,CLPSO-LS).以10维、30维和50维的11个标准函数,对基于不同LS方法的4种混合算法的性能进行大量测试.结果表明,4种CLPSO-LS混合算法的性能均优于CLPSO算法,验证了混合算法的有效性.其中,基于BFGS拟牛顿方法的混合算法的综合性能最优.最后,与8种先进粒子群算法的对比,结果表明CLPSO-LS混合算法作为一种改进CLPSO算法,其性能优于包括已有CLPSO改进算法在内的对比算法,进一步验证了其优越性.  相似文献   

19.
卷积神经网络具有高效的特征提取能力和较少的参数量,被广泛应用于图像处理、目标跟踪、自然语言等领域。针对传统分类模型对于结构化非平衡数据分类效果较差的问题,提出一种基于卷积神经网络的二分类结构化非平衡数据分类算法。设计结构化数据处理算法Data-Shuffle,将原始非平衡一维结构化数据转换为三维数组形式的多通道非平衡数据,为卷积神经网络提供更多的特征值,通过改进的VGG网络构建适合非平衡数据的网络结构卷积组,以提取不同的特征。在此基础上,提出更新权重加权采样算法UWSCNN,在每个迭代次数之后,根据模型的训练结果对易错样本进行重新加权,以优化训练结果。在adult、shoppers和diabetes数据集上的实验结果表明,相比逻辑回归、随机森林等传统机器学习模型,所提的Data-Shuffle算法的F1值提升了1%~19%,G-mean提升了2%~24%,相比SMOTECNN、BSMOTECNN、SMOTECNN+CS等采样算法,所提的UWSCNN算法对非平衡数据的分类效果提升了1%~13%,有效提高模型对非平衡数据的分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号