首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
针对大量电子文档需要准确地进行多层次自动分类管理的现实需求,提出基于多重特征选择和多分类器融合技术的层次分类方法。通过引入可信度函数对单分类器效果进行评价,适时采用辅助分类器对较难分类的文档进行分类投票判决。实验结果表明,相对于单分类器,该方法无论在平面分类和层次分类语料上都获得了更好的分类精度,且具有较好的时间复杂性,有很好的实际应用前景。  相似文献   

2.
开放网络环境下存在大量的信息文档,如何判断文档内容的可信性、安全性一直是一个值得深入研究的问题。论文研究了可信文本分类的方法,收集了体现文本可信性的点滴素材,建立了文本的信任特征向量,并结合已有的特征选择方法,实现了一个基于向量空间模型的文本可信性分类算法,实验表明该方法具有较好的分类效果。  相似文献   

3.
设计一个有效地基于朴素贝叶斯的中文海事文本多分类器。在文本分类的预处理步骤中,在中文分词上选取领域词典和停用词典有效地降低特征维数、选取IG特征提取方法、改进的TF-IDF公式中特征词权重的计算方法,以建立词频矩阵等,最后用选取的海事样本数据进行训练建立分类库。实验数据表明,本文的基于朴素贝叶斯的中文海事文本多分类器具有很好的高效性和准确性。  相似文献   

4.
文本分类是Internet文本信息处理的基础,该文通过对传统文本分类方法的研究,如支持向量机理论、多组判别分析、贝叶斯方法和中心向量法等分类方法,观察到分类器对于不同类别的文本其区分程度有所不同,因此提出了一种基于综合评价方法的多分类器决策机制。在参数训练过程中,引入了最优化理论中的直接搜索方法,形成一个容纳多个分类器的容器,它是各个分类器的最优化的组合,旨在获得最佳的分类精度。通过实验验证,得到了比较理想的分类效果。  相似文献   

5.
面向特定领域文本分类的实际应用,存在大量样本相互掺杂的现象,使其无法线性表述,在SVM中引入核函数可以有效地解决非线性分类的问题,而选择不同的核函数可以构造不同的SVM,其识别性能也不同,因此,选择合适的核函数及其参数优化成为SVM的关键.本文基于单核核函数的性质,对多项式核函数与径向基核函数进行线性加权,构建具有良好的泛化能力与良好的学习能力的组合核函数.仿真实验结果表明,在选择正确参数的情况下,组合核函数SVM的宏平均准确率、宏平均召回率及宏平均综合分类率都明显优于线性核、多项式核与径向基核,而且能够兼顾准确率与召回率.  相似文献   

6.
信任函数组合与局部冲突处理   总被引:7,自引:1,他引:7  
在证据理论框架中,数据融合是将几个来自不同证据源的信任函数组合成一个信任函数,Dempster组合规则是人们常用的方法,但由于此规则是通过按比例放大组合后焦元的基本信任指派值而使其满足信任函数的标准定义,尽管这一标准化方法有逻辑上的解释,但还是招致诸多批评,并提出了一些修正的组合规则。Dempster组合规则尤其在较强冲突情形下其组合结果是不符合常理的,因此不同证据源的冲突处理是信息融合的主要问题。该文通过分析比较已有的主要组合规则,提出了一种处理冲突的新方法--局部冲突处理法,此方法可克服已有方法的缺点,而且组合结果更加合理。  相似文献   

7.
基于密度的kNN文本分类器训练样本裁剪方法   总被引:38,自引:2,他引:36  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。kNN方法作为一种简单、有效、非参数的分类方法,在文本分类中得到广泛的应用。但是这种方法计算量大,而且训练样本的分布不均匀会造成分类准确率的下降。针对kNN方法存在的这两个问题,提出了一种基于密度的kNN分类器训练样本裁剪方法,这种方法不仅降低了kNN方法的计算量,而且使训练样本的分布密度趋于均匀,减少了边界点处测试样本的误判。实验结果显示,这种方法具有很好的性能。  相似文献   

8.
以解决公安部门犯罪信息文本数据自动分类问题为应用目的,通过对已有多层文本自动分类技术的研究,给出多层文本分类器的过程模型,并对模型中的特征提取方法进行深入研究,提出改进后的特征提取权重计算公式。实验证明,该分类器能够有效解决犯罪信息文本的自动分类问题。  相似文献   

9.
基于Boosting算法的文本自动分类器设计   总被引:2,自引:0,他引:2  
Boosting算法是目前流行的一种机器学习算法。采用一种改进的Boosting算法Adaboost.MHKR作为分类算法,设计了一个文本自动分类器,并给出了评估方法和结果。评价表明,该分类器有很好的分类精度。  相似文献   

10.
基于信任机制设计了一种无须特征选择的高效的线性文本分类方法.面向特征与文档类的信任关系,使用bata概率密度函数评估特征的可靠度,提出特征对文档类的忠诚度的计算模型,基于忠诚度实现简单的线性文本分类器.采用20Newsgroup、复旦中文分类语料、SEWM2007评测语料等3个具有典型特征的单标签语料集,以朴素贝叶斯、KNN为比照算法进行了比较实验.实验结果表明,相对于传统算法,该算法分类性能显著提高,对不均匀语料和高维特征处理表现出很强的稳定性,同时算法执行速度快,适于大规模文本分类.  相似文献   

11.
朴素贝叶斯分类器是一种简单且有效实现的文本自动类方法,但其独立性假设在实际中是不存在的。在TAN结构贝叶斯分类算法中,考虑了两两属性间的关联性,对属性间的独立性假设有了一定程度的降低。  相似文献   

12.
自然场景中的文本检测对于视频、图像和图片等海量信息的检索管理具有重要意义.针对自然场景中的文本检测面临着图像背景复杂、分辨率低和分布随意的问题,提出一种场景文本检测的方法.该方法将最大稳定极值区域算法与卷积深度置信网络进行结合,把从最大稳定极值区域中提取出来的候选文本区域输入到卷积深度置信网络中进行特征提取,由Softmax分类器对提取的特征进行分类.该方法在ICDAR数据集和SVT数据集上进行实验,实验结果表明该方法有助于提高场景文本检测的精确率及召回率.  相似文献   

13.
基于深度信念网络的文本分类算法   总被引:2,自引:0,他引:2  
随着网络的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.目前已经有许多不同类型的神经网络应用于文本分类,并且取得良好的效果.但是,大部分模型仅采用文档的少量特征作为输入,没有考虑到足够的信息量;而当考虑到足够的特征时,又会发生维数灾难,导致模型难以训练或者训练时间大幅增加.利用深度信念网络从文本中抽取特征,并利用softmax回归分类器对抽取后的特征分类.深度信念网络不仅具有强大的学习能力,同时还能从高维的原始特征中抽取低维度高度可区分的低维特征,因此利用深度信念网络来对文本分类,不仅能够考虑到文档的足够的信息量,而且能够快速的训练.并且实验结果也表明利用深度信念网络实现文本分类的性能很好.  相似文献   

14.
提出一个文本分类器性能评价模型,对文本分类结果的可信度进行了估计,给出计算可信度的公式。将每一个子分类器的可信度指标用于Bagging集成学习算法,得到了改进的基于子分类器性能评价的Bagging算法(PBagging)。应用支持向量机作为子分类器基本模型,对日本共同社大样本新闻集进行分类。实验表明,与Bagging算法相比,PBagging算法分类准确率有了明显提高。  相似文献   

15.
为了进一步提高文本分类的准确率,文中介绍了一种新的用于文本分类的概率分类器。该分类器首先通过自然语言处理技术对文本进行预处理,然后从训练集中读取文本信息从而产生正、负规则,并计算正负权重系数,最后计算正、负概率。文中给出了计算正负权重系数的算法,并根据计算出来的权重系数及正、负概率值对文本进行分类。将文中提出的概率分类器与SVM分类器进行对比实验,实验结果表明,文中设计的概率分类器对于文本分类效果较好。  相似文献   

16.
为解决多标记文本分类时文本标记关系不明确以及特征维数 过大的问题,提出了基于概率隐语义分析(Probabilistic latent semantic analysis,PL SA)模型的多标记假设重用文本分类算法。该方法首先将训练样本通过PLSA模型映射到隐语 义空间,以文本的主题分布表示一篇文本,在去噪的同时可以大大降低数据维度。在此基础 上利用多标记假设重用算法(Multi label algorithm of hypothesis reuse,MAHR)进行 分类,由于经过PLSA降维后的特征组本身就具有语义信息,因此算法能够精确地挖掘出多标 记之间的关系并用于训练基分类器,从而避免了人为输入标记关系的缺陷。实验验证了该方 法能够充分利用PLSA降维得到的语义信息来改善多标记文本分类的性能。  相似文献   

17.
针对训练模式类标签不精确的识别问题,提出了基于可传递信度模型(TBM)的自适应k-NN分类器,它通过运用pignistic变换,可以方便地对待识别模式真正所属的类做出决策,并通过梯度下降来最小化训练模式的输出类标签与目标类标签之间的误差函数,以实现参数的自适应学习.实验表明,该分类器用于处理训练模式类标签不精确的模式识别问题是有效的,且与参数优化前的基于TBM的k-NN分类器相比,其误分类率更低、鲁棒性更强.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号