首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
提出一种基于训练集分解的不平衡分类算法,该算法使用能输出后验概率的支持向量机作为分类器,使用基于测度层次信息源合并规则实现分类器的集成.在4个不同领域的不平衡数据集上的仿真实验表明:该算法有效提高分类器对正类样本的正确率,同时尽量减少对负类样本的误判.实验结果验证集成学习算法处理不平衡分类问题的有效性.  相似文献   

2.
蓝欢玉 《信息与电脑》2023,(14):120-122
采用传统不平衡数据集聚类算法直接对数据集编码树进行构建,而未对数据集密度特征进行提取,造成传统算法数据聚类效果差,因此提出了基于最小生成树的不平衡数据集聚类算法。先利用数据区域密度的敏感性,提取数据密度特征,再利用提取的数据集密度特征构建编码树,并计算不平衡聚类状态下的数据集,最后基于最小生成树实现不平衡数据集聚类。设计对比实验,实验结果表明该研究算法聚类效果最好,具有研究价值。  相似文献   

3.
杨军  邢琪  诸昌钤  彭强 《计算机应用》2007,27(10):2522-2524
针对带噪声的点云数据提出了一种基于贝叶斯(Bayesian)统计理论的曲面重建算法。算法的主要思想是在可能的重建概率空间上寻找最大后验概率。首先,分别计算测量过程数学模型和曲面先验概率模型;其次,通过共轭梯度优化算法确定每一个点的最大后验重建位置;最后,应用Surface Splatting 算法绘制点模型。实验结果表明,该先验概率模型不仅能去除扫描点云数据的噪声,同时还能增强曲面的细节特征。和已有的研究工作相比,本算法能获得更好的重建结果。  相似文献   

4.
针对传统密度聚类算法因使用全局变量导致对不平衡数据集的适应能力较差的问题,提出了一种基于最小生成树的密度聚类算法.首先进行数据集密度峰值计算,用于估计全局密度;然后通过密度聚类将数据集划分为高密度区域和低密度区域;接着构建和分割最小生成树对低密度区域内样本进行关联挖掘,用于将高密度区域与低密度区域互联;最后计算簇密度并以此作为特征进行簇合并,得到聚类结果.该算法结合图论知识,将数据按密度特征进行分块后合并处理,克服了传统密度聚类算法存在的局限性.通过选取多个不平衡人工数据集和UCI数据集对该算法进行测试,验证了该算法的有效性与鲁棒性.  相似文献   

5.
传统的加权K最近邻算法中以距离作为权值,随着数据维度的增加,计算距离与真实距离的误差越来越大。针对这一问题,提出了一种贝叶斯后验概率的加权K最近邻算法——贝叶斯后验概率(Bayes ian Posterior Probability-Weighted K-Nearest Neighbor,BPP-WKNN)方法。首先用支持向量机算法分类选取测试点的近邻指纹点,其次计算测试点到每个近邻指纹点的贝叶斯后验概率,最后以贝叶斯后验概率的大小作为权值进行BPPWKNN算法定位。实验果表明:与基于曼哈顿距离的加权K最近邻算法和基于欧氏距离的加权K最近邻算法相比,改进后的BPP-WKNN定位算法的定位精确度和稳定性更高;利用支持向量机算法的稀疏性定位完成时间分别缩短了49%与42%。  相似文献   

6.
利用贝叶斯算法检测僵尸网络具有较高的准确性,但僵尸网络具有流量大的特征,同时贝叶斯分类训练阶段需要对大量的网络数据集进行训练,用单一结点来检测僵尸网络将会遇到计算时间和计算资源瓶颈。为此设计了基于MapReduce检测僵尸网络的贝叶斯算法,把贝叶斯算法训练阶段的先验概率、条件概率和检测阶段的后验概率的计算并行化处理。通过大量运行在Hadoop平台上的实验表明,该方法提高了检测僵尸网络的效率。  相似文献   

7.
将经典Logistic回归推广到高维RKHS空间,提出了一种基于特征矢量选择的核Logistic回归算法-FVS-KLR.该算法利用特征矢量选择(FVS)从训练样本集中选择一个特征矢量集,原样本在RKHS空间中的映射可用该集合中元素映射的线性组合近似.以特征矢量集为基得到核Logistic回归的目标泛函,并采用Newton-Raphson方法寻优,将优化的计算量由O(N^3)降到O(NL^2),L〈〈N.同时文章推导了多类情况下的核Logistic回归算法.通过与SVM的对比实验表明,该算法对后验概率的估计优于SVM方法,同时在分类错误率不高于SVM的基础上能显著降低分类器的计算量.  相似文献   

8.
类别不平衡问题广泛存在于现实生活中,多数传统分类器假定类分布平衡或误分类代价相等,因此类别不平衡数据严重影响了传统分类器的分类性能。针对不平衡数据集的分类问题,提出了一种处理不平衡数据的概率阈值Bagging分类方法-PT Bagging。将阈值移动技术与Bagging集成算法结合起来,在训练阶段使用原始分布的训练集进行训练,在预测阶段引入决策阈值移动方法,利用校准的后验概率估计得到对不平衡数据分类的最大化性能测量。实验结果表明,PT Bagging算法具有更好的处理不平衡数据的分类优势。  相似文献   

9.
概率模型是解决不确定性推理和数据分析的有效工具。针对本体匹配的不确定性,提出一种基于马尔科夫网的本体匹配改进算法。采用多种传统匹配算法计算相似度矩阵,改进相似度传播规则,添加2种结构稳定性约束规则和1种Disjoint一致性约束规则,定义其对应团的势函数。根据相似度矩阵和上述规则,给出马尔科夫网的构造方法,使用循环置信度传播算法计算随机变量的后验概率,依据后验概率得到最后的本体匹配结果。在OAEI2010数据集上进行实验,结果表明,与iMatch本体匹配系统相比,该算法能有效降低概率模型的复杂度,提高本体匹配的准确率和召回率。  相似文献   

10.
定位是无线网络应用中的关键技术。分析了无线网络中基于无线信号强度(RSSbased)的定位原理,并对比了以下四种定位算法:基于无线信号传播模型(RSS-modelbased)的多点测距和最大后验概率估计算法;基于实测信号强度地图(RSS-mapbased)的点匹配和最大后验概率估计算法。通过室外实验对比了四种算法的定位精度以及数据点个数、信标点个数对定位精度的影响,并分析了四种算法的标定、计算量和存储量。结果表明较高的标定、计算存储代价以及数据点、信标点的增多可以显著提高定位精度。  相似文献   

11.
不平衡数据分类是当前机器学习的研究热点,传统分类算法通常基于数据集平衡状态的前提,不能直接应用于不平衡数据的分类学习.针对不平衡数据分类问题,文章提出一种基于特征选择的改进不平衡分类提升算法,从数据集的不同类型属性来权衡对少数类样本的重要性,筛选出对有效预测分类出少数类样本更意义的属性,同时也起到了约减数据维度的目的.然后结合不平衡分类算法使数据达到平衡状态,最后针对原始算法错分样本权值增长过快问题提出新的改进方案,有效抑制权值的增长速度.实验结果表明,该算法能有效提高不平衡数据的分类性能,尤其是少数类的分类性能.  相似文献   

12.
万志超  胡峰  邓维斌 《计算机应用》2019,39(11):3127-3133
传统的特征选择方法在面对不平衡文本情感倾向性分类时会有很大的局限性,这种局限性主要体现在特征维数过高、特征过于稀疏和特征分布不平衡,这会使得分类的准确度大幅度下降。根据不平衡文本情感特征分布的特点,结合三支决策的思想,提出了一种面向不平衡文本情感分类的三支决策特征选择方法(TWD-FS)。该方法将两种有监督特征选择方法相结合,将选择出的特征词进一步筛选,使得最终选择出的特征词同时满足类间离散度最大和类内离散度最小的特点,有效地减少了特征词的数量,降低了特征维度;此外,通过组合正负类情感特征,缓解了情感特征的不平衡性,有效提高了不平衡样本中少数类情感的分类效果。在COAE2013中文微博非平衡数据集等多个数据集上的实验结果表明,所提的特征选择算法TWD-FS可以有效提高不平衡文本情感分类的准确度。  相似文献   

13.
Real-life datasets are often imbalanced, that is, there are significantly more training samples available for some classes than for others, and consequently the conventional aim of reducing overall classification accuracy is not appropriate when dealing with such problems. Various approaches have been introduced in the literature to deal with imbalanced datasets, and are typically based on oversampling, undersampling or cost-sensitive classification. In this paper, we introduce an effective ensemble of cost-sensitive decision trees for imbalanced classification. Base classifiers are constructed according to a given cost matrix, but are trained on random feature subspaces to ensure sufficient diversity of the ensemble members. We employ an evolutionary algorithm for simultaneous classifier selection and assignment of committee member weights for the fusion process. Our proposed algorithm is evaluated on a variety of benchmark datasets, and is confirmed to lead to improved recognition of the minority class, to be capable of outperforming other state-of-the-art algorithms, and hence to represent a useful and effective approach for dealing with imbalanced datasets.  相似文献   

14.
面向非平衡文本情感分类的TSF特征选择方法   总被引:1,自引:1,他引:0  
王杰  李德玉  王素格 《计算机科学》2016,43(10):206-210, 224
非平衡数据中样本数量的不平衡分布往往伴随着特征分布的不平衡,在多数类文本中经常出现的特征,在少数类中却很少出现。针对非平衡数据特征分布的特点,提出了一种新的双边fisher特征选择算法TSF。该方法通过显式地组合正相关和负相关特征,缓解了特征层面的非平衡性,较好地表示了文本的信息。TSF方法在图书评论和COAE2014微博非平衡数据上进行实验,结果验证了该方法是可行的。  相似文献   

15.
王林  郭娜娜 《计算机应用》2017,37(4):1032-1037
针对传统分类技术对不均衡电信客户数据集中流失客户识别能力不足的问题,提出一种基于差异度的改进型不均衡数据分类(IDBC)算法。该算法在基于差异度分类(DBC)算法的基础上改进了原型选择策略。在原型选择阶段,利用改进型的样本子集优化方法从整体数据集中选择最具参考价值的原型集,从而避免了随机选择所带来的不确定性;在分类阶段,分别利用训练集和原型集、测试集和原型集样本之间的差异性构建相应的特征空间,进而采用传统的分类预测算法对映射到相应特征空间内的差异度数据集进行学习。最后选用了UCI数据库中的电信客户数据集和另外6个普通的不均衡数据集对该算法进行验证,相对于传统基于特征的不均衡数据分类算法,DBC算法对稀有类的识别率平均提高了8.3%,IDBC算法对稀有类的识别率平均提高了11.3%。实验结果表明,所提IDBC算法不受类别分布的影响,而且对不均衡数据集中稀有类的识别能力优于已有的先进分类技术。  相似文献   

16.
在许多实际应用中,数据经常呈现高维不平衡特征,特征还根据需求在不同时间段动态生成.基于此种情况,文中提出基于邻域粗糙集的高维类不平衡数据的在线流特征选择算法.算法设计基于小类重要度的粗糙依赖度计算公式,同时,提出在线相关性分析、在线冗余度分析、在线重要度分析三种策略,用于选择在大类和小类之间具有高可分离性的特征.在7个高维类不平衡数据集上的实验表明,文中算法可以有效选择一个较好的特征子集,性能较优.  相似文献   

17.
Fisher Score (FS)是一种快速高效的评价特征分类能力的指标,但传统的FS指标既无法直接应用于多标记学习,也不能有效处理样本极值导致的类中心与实际类中心的误差。提出一种结合中心偏移和多标记集合关联性的FS多标记特征选择算法,找出不同标记下每类样本的极值点,以极值点到该类样本的中心距离乘以半径系数筛选新的样本,从而获得分布更为密集的样本集合,以此计算特征的FS得分,通过整体遍历全体样本的标记集合中的每个标记,并在遍历过程中针对具有更多标记数量的样本自适应地赋以标记权值,得到整体特征的平均FS得分,以特征的FS得分进行排序过滤出目标子集实现特征选择目标。在8个公开的多标记文本数据集上进行参数分析及5种指标性能比较,结果表明,该算法具有一定的有效性和鲁棒性,在多数指标上优于MLNB、MLRF、PMU、MLACO等多标记特征选择算法。  相似文献   

18.
Currently, web spamming is a serious problem for search engines. It not only degrades the quality of search results by intentionally boosting undesirable web pages to users, but also causes the search engine to waste a significant amount of computational and storage resources in manipulating useless information. In this paper, we present a novel ensemble classifier for web spam detection which combines the clonal selection algorithm for feature selection and under-sampling for data balancing. This web spam detection system is called USCS. The USCS ensemble classifiers can automatically sample and select sub-classifiers. First, the system will convert the imbalanced training dataset into several balanced datasets using the under-sampling method. Second, the system will automatically select several optimal feature subsets for each sub-classifier using a customized clonal selection algorithm. Third, the system will build several C4.5 decision tree sub-classifiers from these balanced datasets based on its specified features. Finally, these sub-classifiers will be used to construct an ensemble decision tree classifier which will be applied to classify the examples in the testing data. Experiments on WEBSPAM-UK2006 dataset on the web spam problem show that our proposed approach, the USCS ensemble web spam classifier, contributes significant classification performance compared to several baseline systems and state-of-the-art approaches.  相似文献   

19.
在分析了传统支持向量机(SVM)对不平衡数据的学习缺陷后,提出了一种改进SVM算法,采用自适应合成(ADASYN)采样技术对数据集进行部分重采样,增加少类样本的数量;对不同的样本点分配不同的权重,减弱噪声对训练结果的影响;使用基于代价敏感的SVM算法训练,缓解不平衡数据对超平面造成的偏移.选择UCI数据库中的6组不平衡数据集进行测试,实验结果表明:在各个数据集上改进SVM算法的性能优于其他算法,并在少类准确率和多类准确率上取得了很好的平衡.  相似文献   

20.
大型搜索系统对用户查询的快速响应尤为必要,同时在计算候选文档的特征相关性时,必须遵守严格的后端延迟约束。通过特征选择,提高了机器学习的效率。针对排序学习中快速特征选择的起点多为单一排序效果最好的特征的特点,首先提出了一种用层次聚类法生成特征选择起点的算法,并将该算法应用于已有的2种快速特征选择中。除此之外,还提出了一种充分利用聚类特征的新方法来处理特征选择。在2个标准数据集上的实验表明,该算法既可以在不影响精度的情况下获得较小的特征子集,也可以在中等子集上获得最佳的排序精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号