期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于Boosting算法的文本自动分类器设计 总被引：2，自引：0，他引：2

董乐红耿国华周明全《计算机应用》2007,27(2):384-386

Boosting算法是目前流行的一种机器学习算法。采用一种改进的Boosting算法Adaboost.MHKR作为分类算法,设计了一个文本自动分类器,并给出了评估方法和结果。评价表明,该分类器有很好的分类精度。相似文献

2.

唐晓衡夏利民《计算机工程》2008,34(5):225-227

提出一种基于Boosting模糊分类的入侵检测方法。采用遗传算法来获取入侵检测的模糊规则,利用Boosting算法不断改变训练样本的分布,使每次遗传算法产生的模糊分类规则重点考虑误分类和无法分类的样本。以kddcup’99为数据源进行了仿真实验,结果表明该方法具有良好的分类识别性能。相似文献

3.

基于Boosting机制的Naive Bayesian文本分类器

崔林付克明石生树宋瀚涛《计算机工程与应用》2005,41(8):31-33,67

Naive Bayesian分类器是一种有效的文本分类方法,但由于具有较强的稳定性,很难通过Boosting机制提高其性能。因此用Naive Bayesian分类器作为Boosting的基分类器需要解决的最大问题,就是如何破坏Naive Bayesian分类器的稳定性。提出了3种破坏Naive Bayesian学习器稳定性的方法。第一种方法改变训练集样本,第二种方法采用随机属性选择社团,第三种方法是在Boosting的每次迭代中利用不同的文本特征提取方法建立不同的特征词集。实验表明,这几种方法各有其优缺点,但都比原有方法准确、高效。相似文献

4.

基于遗传FCM算法的文本聚类 总被引：4，自引：1，他引：3

况夯罗军《计算机应用》2009,29(2):558-560

本文提出基于遗传FCM算法的文本聚类方法,首先采用LSI方法对文本特征进行降维,然后通过聚类有效性分析得到文本的类别数,最后再采用遗传FCM算法对文本进行聚类,这种方法较好的克服了FCM算法收敛于局部最优的缺陷,很好的解决了FCM算法对初值敏感的问题。实验表明提出的方法具有较好的聚类性能。相似文献

5.

基于Boosting的迭代加权集成分类算法

杜诗语韩萌申明尧张春砚孙蕊《计算机应用研究》2021,38(4):1038-1043

在集成分类中,如何对基分类器实现动态更新和为基分类器分配合适的权值一直是研究的重点。针对以上两点,提出了BIE和BIWE算法。BIE算法通过最新训练的基分类器的准确率确定集成是否需要替换性能较差的基分类器及需替换的个数,实现对集成分类器的动态迭代更新;BIWE算法在此基础上提出了一个加权函数,对具有不同参数特征的数据流可以有针对性地获得基分类器的最佳权值,从而提升集成分类器的整体性能。实验结果表明,BIE算法相较对比算法在准确率持平或略高的情况下,可以减少生成树的叶子数、节点数和树的深度;BIWE算法相较对比算法不仅准确率较高,而且能大幅度减少生成树的规模。相似文献

6.

多类型分类器融合的文本分类方法研究

李惠富陆光《计算机应用研究》2019,36(3)

传统的文本分类方法大多数使用单一的分类器,而不同的分类器对分类任务的侧重点不同,就使得单一的分类方法有一定的局限性,同时每个特征提取方法对特征词的考虑角度不同。针对以上问题,提出了多类型分类器融合的文本分类方法。该模型使用了word2vec、主成分分析、潜在语义索引以及TFIDF特征提取方法作为多类型分类器融合的特征提取方法。并在多类型分类器加权投票方法中忽略了类别信息的问题,提出了类别加权的分类器权重计算方法。通过实验结果表明,多类型分类器融合方法在二元语料库、多元语料库以及特定语料库上都取得了很好的性能,类别加权的分类器权重计算方法比多类型分类器融合方法在分类性能方面提高了1.19%。相似文献

7.

基于改进TFIDF算法的文本分类研究 总被引：1，自引：0，他引：1

郑霖徐德华《计算机与现代化》2014,(9):6-9

由于文本分类在信息检索、邮件过滤、网页分类、个性化推荐等领域有着广泛的应用价值,所以自文本分类的概念提出以来,受到了学者们的广泛关注。在文本分类的研究中,学者们运用了很多方法,其中TFIDF是文档特征权重计算的最常用算法之一,但是传统的TFID算法忽略了特征项在类内和类间的分布,导致很多区分度不大的特征项被赋予了较大的权重。针对传统TFIDF算法的不足,本文在IDF的计算过程中,用词条在类内与类间的文档占比来考虑词条在类内与类间的分布。在实验中,用改进的权重算法表示文本向量,通过考察分类的效果,验证了改进算法的有效性。相似文献

8.

基于示例的文本标题分类机制 总被引：13，自引：0，他引：13

林鸿飞《计算机研究与发展》2001,38(9):1132-1136

文本分类有助于用户有选择地阅读和处理海量文本,给出了基于示例邀请魔王标题分类机制,它以具有确定分类标准的标题分类为应用前景,在计算标题与分类主题词表直接匹配的基础上,利用基于分类树的上位概念匹配机制和基于潜在语义空间的相似度判定,综合评价文本标题与类别的相关关系,其特点是充分利用上下文环境来确定标题与类别相关程度,而不是单纯地依赖于其共现信息。相似文献

9.

基于模糊认知图的文本分类推理算法 总被引：3，自引：0，他引：3

张桂芸刘洋王元元《计算机工程与应用》2007,43(12):155-158

文本分类是信息处理的重要研究方向,现在应用较多的是基于统计计算的分类方法。介绍了利用模糊认知图的文本分类推理理论与算法,该方法是基于数值推理的,实现将统计与规则融合推理,灵活性较大,不需要语料的多次训练,适合于训练不充分和新主题的文本分类和多类分类,并具有一定的鲁棒性。相似文献

10.

一个中文文本自动分类器的设计

董乐红耿国华周明全《计算机应用与软件》2008,25(4):14-16

Boosting算法是目前流行的一种机器学习算法。采用Boosting家族的Adaboost．MH算法作为分类算法,设计了一个中文文本自动分类器,并给出了评估方法和结果。评价表明,该分类器和SVM的分类精度相当,而较基于其他分类算法的分类器有更好的分类精度。相似文献

11.

一种大规模数据的快速潜在语义索引 总被引：3，自引：3，他引：0

卫威王建民《计算机工程》2009,35(15):35-37,4

潜在语义索引（LSI）已应用到现代信息检索的多个领域,但矩阵奇异值分解的高复杂度阻碍了该技术在大规模数据上的应用。提出一种大规模数据的快速LSI方法。给出一个降维问题的统一框架,LSI作为一种特征提取算法,可以在这个框架下转化为一个特征选择问题。利用该技术在最大程度保持LSI降维效果的同时,简化LSI的计算,使其能够应用于大规模数据。相似文献

12.

使用基于SVM的局部潜在语义索引进行文本分类

张秋余刘洋《计算机应用》2007,27(6):1382-1384

潜在语义索引(LSI)通过奇异值分解(SVD)获得原始词—文档矩阵的潜在语义结构,在一定程度上解决了一词多义和多词一义问题。但目前文本分类中使用LSI方法的效果并不理想,这是因为没有充分考虑分类信息。为解决该问题,提出一种改进的局部潜在语义索引(LLSI)方法,使用支持向量机(SVM)来产生局部区域。实验结果表明,该方法是有效的。相似文献

13.

基于LSI和SVM分类法的定题邮件过滤研究 总被引：1，自引：0，他引：1

杨清李方敏《计算机工程与应用》2006,42(35):168-171

潜在语义索引(LSI)是一种有效的信息查询方法,同时也被成功地应用到了文本分类中。LSI能解决同义和多义的问题,通过降低原始文档-术语矩阵的噪声来凸现出词条和文档之间的语义关系。为了识别和过滤有害的、不期望的定题的信息或Email,在双语言环境下(包括中文和英文),提出了一个基于改进的LSI方法的定题邮件类信息过滤系统,该系统采用潜在语义模型来表示被过滤的信息类,通过奇异值分解和正例监护学习方法,选择支持向量机(SVM)来识别和分类预定义的定题信息。实验结果表明:基于LSI的特征选择的SVM分类算法是一种更有效的信息识别和文本分类方法,不但具有较好的分类性能,同时也能大大减小计算的复杂性。相似文献

14.

新型快速中文文本分类器的设计与实现 总被引：1，自引：0，他引：1

陈艳秋熊耀华《计算机工程与应用》2009,45(22):53-55

为了提高中文文本分类的效率与精度,设计了一种新型的分类器。该分类器采用基于词频、互信息和类别信息的综合评估函数进行选择特征;在特征权重计算上,由于传统TF-IDF方法没有考虑特征类间和类内分布,提出了一种将词频和综合评估函数值相结合的权重计算方法;最后设计了一种基于贝叶斯原理的快速分类器。实验证明该分类器简单有效。相似文献

15.

基于成对约束的主动半监督文本聚类

钟将刘龙海梁传伟《计算机工程》2011,37(13):183-186

在主动选取成对约束方法的基础上,提出一种基于成对约束的主动半监督文本聚类方法.利用潜在语义索引方法对文本特征空间进行降维,在聚类过程中,采用构造的约束选取方法主动地选取成对约束信息,并利用选取的成对约束信息指导文本聚类.实验结果表明,该方法能利用少量的监督信息提高文本聚类的分类准确率. 相似文献

16.

基于非负矩阵分解的中文文本主题分类

张磊冯晓森项学智《计算机工程》2009,35(13):26-27,5

提出基于非负矩阵分解（NMF）的中文文本主题分类方法,应用NMF算法分解词．文本矩阵获取词之间的相关性,有效地解决同义词、多义词的影响。实验结果表明,与基于奇异值分解的潜在语义索引方法相比,该方法计算速度快、占用存储空间较少。在潜在语义数据降低较大的情况下,NMF方法具有更好的分类精度。相似文献

17.

基于多种特征选择的NB组合文本分类器设计

樊康新《计算机工程》2009,35(24):191-193

针对朴素贝叶斯（NB）分类器在分类过程中存在诸如分类模型对样本具有敏感性、分类精度难以提高等缺陷,提出一种基于多种特征选择方法的NB组合文本分类器方法。依据Boosting分类算法,采用多种不同的特征选择方法建立文本的特征词集,训练NB分类器作为Boosting迭代过程的基分类器,通过对基分类器的加权投票生成最终的NB组合文本分类器。实验结果表明,该组合分类器较单NB文本分类器具有更好的分类性能。相似文献

18.

新的文本分类特征选择方法研究

张玉芳王勇刘明熊忠阳《计算机工程与应用》2013,(5)

特征降维是文本分类过程中的一个重要环节。在现有特征选择方法的基础上,综合考虑特征词在正类和负类中的分布性质,综合四种衡量特征类别区分能力的指标,提出了一个新的特征选择方法,即综合比率(CR)方法。实验采用K-最近邻分类算法(KNN)来考查CR方法的有效性,实验结果表明该方法能够取得比现有特征选择方法更优的降维效果。相似文献