首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
大数据时代,具有多维海量特征的电力、医疗等行业的分类数据往往是不平衡数据,少数类样本的分类往往伴随着很大的错分代价。对于不同的数据集,数据样本点分布特征也会影响分类器的分类精度。传统的KSVM分类器增加了分类超平面附近易错分点的有效分类信息,但与此同时引入了更多噪声。针对KSVM算法应用在不平衡数据时阈值固定的缺陷,提出一种动态调整阈值的ε-KSVM分类器,降低错分信息的引入。实验表明预测精度得到较大的提升。  相似文献   

2.
现实生活中存在大量的非平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对这些非平衡数据进行分类时会出现少数类样本错分的问题。针对上述问题,在代价敏感的理论基础上,提出了一种新的基于代价敏感集成学习的非平衡数据分类算法--NIBoost(New Imbalanced Boost)。首先,在每次迭代过程中利用过采样算法新增一定数目的少数类样本来对数据集进行平衡,在该新数据集上训练分类器;其次,使用该分类器对数据集进行分类,并得到各样本的预测类标及该分类器的分类错误率;最后,根据分类错误率和预测的类标计算该分类器的权重系数及各样本新的权重。实验采用决策树、朴素贝叶斯作为弱分类器算法,在UCI数据集上的实验结果表明,当以决策树作为基分类器时,与RareBoost算法相比,F-value最高提高了5.91个百分点、G-mean最高提高了7.44个百分点、AUC最高提高了4.38个百分点;故该新算法在处理非平衡数据分类问题上具有一定的优势。  相似文献   

3.
利用多个稀疏表示分类器融合的决策信息对图像进行分类,可避免单个特征对图像分类的影响。提出一种自适应调节权重的多稀疏分类器融合图像分类方法。对原始图像分别提取3组不同特征,并训练出各自稀疏表示分类器;根据各个子分类器的准确率,通过迭代计算自适应确定各分类器最终权重;融合各子分类器的输出结果进行最终类别判断。基于Cifar-10图像数据集进行多组实验,结果表明,相对仅提取单特征的图像分类方法,该方法有效提高了图像分类准确率。  相似文献   

4.
基于全信息矩阵的多分类器集成方法   总被引:12,自引:0,他引:12       下载免费PDF全文
唐春生  金以慧 《软件学报》2003,14(6):1103-1109
自动文本分类是提高信息利用效率和质量的有效方法,而多分类器的有效组合能够得到更高的分类准确率.给出了样本集在多分类器下的全信息矩阵概念,并提出一种权重自适应调整的多分类器集成方法.该方法能够自适应地选择分类器组合及确定分类器权重,并利用分类统计信息指导分类结果的集成判决.通过在标准文本集Reuters-21578上的实验表明:该方法能从查准率和查全率两方面提高文本分类的整体性能,同时表明了该方法的有效性.  相似文献   

5.
与中低分辨率相比,高分辨率遥感影像的信息比较丰富,在使用常规k-NN分类方法基于像元进行高分辨率遥感影像分类时会产生大量的“椒盐噪声”和地物类别错分。根据地理学第一定律,引入地统计模型,将地理权重加入到常规k-NN分类方法中,形成新的地理权重k-NN分类器(Geographically Weighted k-NN,GWk-NN)。该方法首先通过条件概率函数计算出训练样本数据的空间分布特征,然后通过地统计模型对空间分布特征进行拟合,为每种地物选择合适的权重模型,这样既保留了遥感影像中地物的光谱特征,又融入了地物的空间特征,在一定程度上减少甚至消除了“椒盐噪声”,提高了分类精度。GWk\|NN和常规k\|NN分类器分析对比表明:GWk-NN分类方法提高了高分辨率影像的分类精度。  相似文献   

6.
焦庆争  蔚承建 《计算机应用》2009,29(12):3303-3306
针对文本分类问题,基于特征分布评估权值调节特征概率标准差设计了一种无须特征选择的高效的线性文本分类器。该算法的基本思路是使用特征概率标准差量化特征在文档类中的离散度,并作为特征的基础权重,同时以后验概率的Beta分布函数为基础,运用概率确定性密度函数,评估特征在类别中的分布信息得到特征分布权值,将其调节基础权重得到特征权重,实现了线性文本分类器。在20Newsgroup、复旦中文分类语料、Reuters-21578三个语料集进行了比较实验,实验结果表明,新算法分类性能相对传统算法优势显著,且稳定、高效、实用,适于大规模文本分类任务。  相似文献   

7.
提出一种新的标记迭代过程中错分样本的AdaBoost算法(MWBoost),该算法通过在提升过程中,把上一个分类器错分的样本全部参入到下一个分类器的训练中,并在分类正确的样本中进行重采样,从而使得后一轮提升中分类器能够更快速地关注那些难以分类的样本.该算法在UCI的多个数据集上进行了测试,并且与传统的AdaBoost算法进行了比较,实验结果表明,新的算法具有更好的分类精度.  相似文献   

8.
针对卷积神经网络提取特征信息不完整导致图像分类方法分类精度不高等问题,利用深度学习的方法搭建卷积神经网络模型框架,提出一种基于迭代训练和集成学习的图像分类方法。利用数据增强对图像数据集进行预处理操作,在提取图像特征时,采用一种迭代训练卷积神经网络的方式,得到充分有效的图像特征,在训练分类器时,采用机器学习中集成学习的思想。分别在特征提取后训练分类器,根据各分类器贡献的大小,赋予它们不同的权重值,取得比单个分类器更好的性能,提高图像分类的精度。该方法在Stanford Dogs、UEC FOOD-100和CIFAR-100数据集上的实验结果表明了其较好的分类性能。  相似文献   

9.
为提高细粒度图像分类的准确率和速度,提出区域投票分类模型和区域置信度机制以及基于轻量化区域置信网络的细粒度图像分类方法。将轻量化卷积神经网络分类器替换为区域投票分类器,加入区域置信机制,增加分类网络对于关键特征分类的权重,提升轻量化模型的准确率。在Cub200-2011数据集上的实验结果验证了区域投票模型和区域置信机制的有效性。相较于其它主流细粒度图像分类算法,改进后的模型仅损失了少量精度,却大幅减少了参数量和所需运算资源。  相似文献   

10.
一种新的基于SVM权重向量的云分类器*   总被引:1,自引:0,他引:1  
提出了一种用支持向量机(SVM)权重向量解决高维对象分类的方法,并结合云理论建立了基于SVM权重向量的云分类器。采用云模型建立训练集的各属性模型,分类模型由属性模型集成得到,属性权重根据SVM权重向量得到,属性权重越大,其对分类的贡献越大;反之,越小。将新分类器与云模型分类器对积雨云、卷云和卷层云进行分类模拟实验,新分类器的分类准确度比后者总体提升了, 经过交叉验证, 结果表明新分类器性能稳定。  相似文献   

11.
We propose a systematic ECG quality classification method based on a kernel support vector machine(KSVM) and genetic algorithm(GA) to determine whether ECGs collected via mobile phone are acceptable or not. This method includes mainly three modules, i.e., lead-fall detection, feature extraction, and intelligent classification. First, lead-fall detection is executed to make the initial classification. Then the power spectrum, baseline drifts, amplitude difference, and other time-domain features for ECGs are analyzed and quantified to form the feature matrix. Finally, the feature matrix is assessed using KSVM and GA to determine the ECG quality classification results. A Gaussian radial basis function(GRBF) is employed as the kernel function of KSVM and its performance is compared with that of the Mexican hat wavelet function(MHWF). GA is used to determine the optimal parameters of the KSVM classifier and its performance is compared with that of the grid search(GS) method. The performance of the proposed method was tested on a database from PhysioNet/Computing in Cardiology Challenge 2011, which includes 1500 12-lead ECG recordings. True positive(TP), false positive(FP), and classification accuracy were used as the assessment indices. For training database set A(1000 recordings), the optimal results were obtained using the combination of lead-fall, GA, and GRBF methods, and the corresponding results were: TP 92.89%, FP 5.68%, and classification accuracy 94.00%. For test database set B(500 recordings), the optimal results were also obtained using the combination of lead-fall, GA, and GRBF methods, and the classification accuracy was 91.80%.  相似文献   

12.
传统的文本分类方法大多数使用单一的分类器,而不同的分类器对分类任务的侧重点不同,就使得单一的分类方法有一定的局限性,同时每个特征提取方法对特征词的考虑角度不同。针对以上问题,提出了多类型分类器融合的文本分类方法。该模型使用了word2vec、主成分分析、潜在语义索引以及TFIDF特征提取方法作为多类型分类器融合的特征提取方法。并在多类型分类器加权投票方法中忽略了类别信息的问题,提出了类别加权的分类器权重计算方法。通过实验结果表明,多类型分类器融合方法在二元语料库、多元语料库以及特定语料库上都取得了很好的性能,类别加权的分类器权重计算方法比多类型分类器融合方法在分类性能方面提高了1.19%。  相似文献   

13.
以解决公安部门犯罪信息文本数据自动分类问题为应用目的,通过对已有多层文本自动分类技术的研究,给出多层文本分类器的过程模型,并对模型中的特征提取方法进行深入研究,提出改进后的特征提取权重计算公式。实验证明,该分类器能够有效解决犯罪信息文本的自动分类问题。  相似文献   

14.
In order to meet the requirement of customised services for online communities, sentiment classification of online reviews has been applied to study the unstructured reviews so as to identify users’ opinions on certain products. The purpose of this article is to select features for sentiment classification of Chinese online reviews with techniques well performed in traditional text classification. First, adjectives, adverbs and verbs are identified as the potential text features containing sentiment information. Then, four statistical feature selection methods, such as document frequency (DF), information gain (IG), chi-squared statistic (CHI) and mutual information (MI), are adopted to select features. After that, the Boolean weighting method is applied to set feature weights and construct a vector space model. Finally, a support vector machine (SVM) classifier is employed to predict the sentiment polarity of online reviews. Comparative experiments are conducted based on hotel online reviews in Chinese. The results indicate that the highest accuracy of the sentiment classification of Chinese online reviews is achieved by taking adjectives, adverbs and verbs together as the feature. Besides that, different feature selection methods make distinct performances on sentiment classification, as DF performs the best, CHI follows and IG ranks the last, whereas MI is not suitable for sentiment classification of Chinese online reviews. This conclusion will be helpful to improve the accuracy of sentiment classification and be useful for further research.  相似文献   

15.
情感分类是一项具有实用价值的分类技术。目前英语和汉语的情感分类的研究比较多,而针对维吾尔语的研究较少。以n-gram模型作为不同的文本表示特征,以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法,选择不同的特征数量,以Naǐve Bayes、ME(最大熵)和SVM(支持向量机)作为不同的文本分类方法,分别进行了维吾尔语情感分类实验,并对实验结果进行了比较,结果表明:采用UniGrams特征表示方法、在5 000个特征数量和合适的特征选择函数,ME和SVM对维吾尔语情感分类能取得较好的效果。  相似文献   

16.
在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文 本特征选择方法(TDpIU)。首先对数据集按类进行特征选择,以减少数据集不平衡性对特征选取的影响。其次运用 特征出现概率计算信息增益权值,以降低低频词对特征选择的千扰。最后使用离散度分析特征在每类中的信息增益 值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。 通过对比实验表明,选取的特征具有更好的分类性能。  相似文献   

17.
基于监督学习的中文情感分类技术比较研究   总被引:6,自引:0,他引:6  
情感分类是一项具有较大实用价值的分类技术,它可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。目前针对中文情感分类的研究相对较少,其中各种有监督学习方法的分类效果以及文本特征表示方法和特征选择机制等因素对分类性能的影响更是亟待研究的问题。本文以n-gram以及名词、动词、形容词、副词作为不同的文本表示特征,以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法,以中心向量法、KNN、Winnow、Nave Bayes和SVM作为不同的文本分类方法,在不同的特征数量和不同规模的训练集情况下,分别进行了中文情感分类实验,并对实验结果进行了比较,对比结果表明: 采用BiGrams特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的情况下,情感分类能取得较好的效果。  相似文献   

18.
基于SVM的离线图像目标分类算法   总被引:1,自引:0,他引:1  
目标分类是计算机视觉与模式识别领域的关键环节. SVM(支持向量机)是在统计学习理论基础上提出的一种新的机器学习方法.提出一种支持向量机结合梯度直方图特征的离线图像目标分类算法.首先对训练集进行预处理,然后对处理后的图片进行梯度直方图特征提取,最后通过训练得到可以检测图像目标的分类器.利用得到的分类器对测试图片进行测试,测试结果表明,对目标分类检测有良好的效果.  相似文献   

19.
针对标签随着时间变化的动态多标签文本分类问题,提出了一种基于标签语义相似的动态多标签文本分类算法。该算法在训练阶段,首先按照标签固定训练得到一个基于卷积神经网络的多标签文本分类器,然后以该分类器的倒数第二层的输出为文本的特征向量。由于该特征向量是在有标签训练得到的,因而相对于基于字符串即文本内容而言,该特征向量含有标签语义信息。在测试阶段,将测试文档输入训练阶段的多标签文本分类器获取相应的特征向量,然后计算相似性,同时乘以时间衰减因子修正,使得时间越近的文本具有较高的相似性。最后,采用最近邻算法分类。实验结果表明,该算法在处理动态多标签文本分类问题上具有较优的性能。  相似文献   

20.
在动态的数据流中,由于其不稳定性以及存在概念漂移等问题,集成分类模型需要有及时适应新环境的能力.目前通常使用监督信息对基分类器的权重进行更新,以此来赋予符合当前环境的基分类器更高的权重,然而监督信息在真实数据流环境下无法立即获得.为了解决这个问题,文中提出了一种基于信息熵更新基分类器权重的数据流集成分类算法.首先使用随...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号