首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
Chu  Hong-Min  Huang  Kuan-Hao  Lin  Hsuan-Tien 《Machine Learning》2019,108(8-9):1193-1230

We study multi-label classification (MLC) with three important real-world issues: online updating, label space dimension reduction (LSDR), and cost-sensitivity. Current MLC algorithms have not been designed to address these three issues simultaneously. In this paper, we propose a novel algorithm, cost-sensitive dynamic principal projection (CS-DPP) that resolves all three issues. The foundation of CS-DPP is an online LSDR framework derived from a leading LSDR algorithm. In particular, CS-DPP is equipped with an efficient online dimension reducer motivated by matrix stochastic gradient, and establishes its theoretical backbone when coupled with a carefully-designed online regression learner. In addition, CS-DPP embeds the cost information into label weights to achieve cost-sensitivity along with theoretical guarantees. Experimental results verify that CS-DPP achieves better practical performance than current MLC algorithms across different evaluation criteria, and demonstrate the importance of resolving the three issues simultaneously.

  相似文献   

2.
多标签代价敏感分类集成学习算法   总被引:12,自引:2,他引:10  
付忠良 《自动化学报》2014,40(6):1075-1085
尽管多标签分类问题可以转换成一般多分类问题解决,但多标签代价敏感分类问题却很难转换成多类代价敏感分类问题.通过对多分类代价敏感学习算法扩展为多标签代价敏感学习算法时遇到的一些问题进行分析,提出了一种多标签代价敏感分类集成学习算法.算法的平均错分代价为误检标签代价和漏检标签代价之和,算法的流程类似于自适应提升(Adaptive boosting,AdaBoost)算法,其可以自动学习多个弱分类器来组合成强分类器,强分类器的平均错分代价将随着弱分类器增加而逐渐降低.详细分析了多标签代价敏感分类集成学习算法和多类代价敏感AdaBoost算法的区别,包括输出标签的依据和错分代价的含义.不同于通常的多类代价敏感分类问题,多标签代价敏感分类问题的错分代价要受到一定的限制,详细分析并给出了具体的限制条件.简化该算法得到了一种多标签AdaBoost算法和一种多类代价敏感AdaBoost算法.理论分析和实验结果均表明提出的多标签代价敏感分类集成学习算法是有效的,该算法能实现平均错分代价的最小化.特别地,对于不同类错分代价相差较大的多分类问题,该算法的效果明显好于已有的多类代价敏感AdaBoost算法.  相似文献   

3.
The last decade has seen an increase in the attention paid to the development of cost-sensitive learning algorithms that aim to minimize misclassification costs while still maintaining accuracy. Most of this attention has been on cost-sensitive decision tree learning, whereas relatively little attention has been paid to assess if it is possible to develop better cost-sensitive classifiers based on Bayesian networks. Hence, this paper presents EBNO, an algorithm that utilizes Genetic algorithms to learn cost-sensitive Bayesian networks, where genes are utilized to represent the links between the nodes in Bayesian networks and the expected cost is used as a fitness function. An empirical comparison of the new algorithm has been carried out with respect to (a) an algorithm that induces cost-insensitive Bayesian networks to provide a base line, (b) ICET, a well-known algorithm that uses Genetic algorithms to induce cost-sensitive decision trees, (c) use of MetaCost to induce cost-sensitive Bayesian networks via bagging (d) use of AdaBoost to induce cost-sensitive Bayesian networks, and (e) use of XGBoost, a gradient boosting algorithm, to induce cost-sensitive decision trees. An empirical evaluation on 28 data sets reveals that EBNO performs well in comparison with the algorithms that produce single interpretable models and performs just as well as algorithms that use bagging and boosting methods.  相似文献   

4.
联合嵌入式多标签分类算法   总被引:1,自引:0,他引:1  
刘慧婷  冷新杨  王利利  赵鹏 《自动化学报》2019,45(10):1969-1982
现有的一些多标签分类算法,因多标签数据含有高维的特征或标签信息而变得不可行.为了解决这一问题,提出基于去噪自编码器和矩阵分解的联合嵌入多标签分类算法Deep AE-MF.该算法包括两部分:特征嵌入部分使用去噪自编码器对特征空间学习得到非线性表示,标签嵌入部分则是利用矩阵分解直接学习到标签空间对应的潜在表示与解码矩阵.Deep AE-MF将特征嵌入和标签嵌入的两个阶段进行联合,共同学习一个潜在空间用于模型预测,进而得到一个有效的多标签分类模型.为了进一步提升模型性能,在Deep AE-MF方法中对标签间的负相关信息加以利用.通过在不同数据集上进行实验证明了提出Deep AE-MF方法的有效性和鲁棒性.  相似文献   

5.
郭冰楠  吴广潮 《计算机应用》2019,39(10):2888-2892
在网络贷款用户数据集中,贷款成功和贷款失败的用户数量存在着严重的不平衡,传统的机器学习算法在解决该类问题时注重整体分类正确率,导致贷款成功用户的预测精度较低。针对此问题,在代价敏感决策树敏感函数的计算中加入类分布,以减弱正负样本数量对误分类代价的影响,构建改进的代价敏感决策树;以该决策树作为基分类器并以分类准确度作为衡量标准选择表现较好的基分类器,将它们与最后阶段生成的分类器集成得到最终的分类器。实验结果表明,与已有的常用于解决此类问题的算法(如MetaCost算法、代价敏感决策树、AdaCost算法等)相比,改进的代价敏感决策树对网络贷款用户分类可以降低总体的误分类错误率,具有更强的泛化能力。  相似文献   

6.
为了缓解推荐系统中不同用户社交空间与兴趣空间的内在信息差异和忽视高阶邻居的问题,提出了一种融合用户社交关系的自适应图卷积推荐算法(adaptive graph convolutional recommendation algorithm integrating user social relationships,AGCRSR)。首先,模型在嵌入层使用映射矩阵将初始特征向量转换为自适应嵌入;其次,引入注意力机制聚合不同方面的用户嵌入,通过图卷积网络来线性学习用户和项目的潜在表示;最后,通过自适应模块聚合用户表示并利用内积函数预测用户对项目的最终推荐结果。在数据集LastFM和Ciao上与其他基线算法进行了对比实验,实验结果表明AGCRSR的推荐效果较其他算法有显著提升。  相似文献   

7.
分析了目前基于可执行文件隐写算法的不足,提出了一种基于程序源文件修改的隐写算法。该算法将无意义的冗余函数以及后门代码均匀嵌入到程序源文件中,编译生成可执行文件载体。用隐秘信息分组替换冗余函数,从而达到嵌入信息的目的。通过算法的具体实现,验证了算法的可行性与有效性。与其他算法相比,明显提高了嵌入率,并且能够抵抗杀毒软件的检测。实验结果表明,该算法嵌入率高,嵌入容量大,算法安全性强。最后通过分析影响算法安全性的因素,提出了进一步提高算法安全性的可行性方案。  相似文献   

8.
张翔宇  杨阳  冯国徽  秦川 《计算机应用》2022,42(6):1716-1723
针对加密前预留空间(RRBE)嵌入算法需要进行一系列的预处理工作,以及加密后腾出空间(VRAE)嵌入算法嵌入空间较小的缺点,为了在提高嵌入率的同时缩减算法流程和减少工作量,提出一种基于多目标优化的加密图像可逆信息隐藏算法。该算法将RRBE与VRAE中两个具有代表性的算法在同一载体中结合使用,并以信息嵌入量、直接解密图像失真、提取错误率、计算复杂度等性能评价指标作为优化子目标,再利用功效系数法建立模型求解出两种算法应用比例的相对最优解。实验结果表明,所提算法不仅能够降低单独使用RRBE算法的计算复杂度,还能使图像处理用户够根据实际应用场景中不同的需求灵活地分配优化目标,同时也能获得较好的图像质量和令人满意的信息嵌入量。  相似文献   

9.
There are nine major types of cost involved in cost-sensitive learning that are with heterogeneous units in general, referred to heterogeneous costs. Extant cost-sensitive learning (CSL) algorithms are based on the assumption that all involved costs can be transformed into a unified unit, called as homogeneous assumption of costs. While it is a challenge to construct many suitable transformation functions for the costs with diverse units, this paper designs a heterogeneous-cost sensitive learning (HCSL) algorithm to make split attribute selection more effective. This paper first proposes an efficient method of reducing the heterogeneity caused by both cost mechanisms and attribute information. And then, all heterogeneous costs with attribution information together are incorporated into the process of split attribute selection, called as HCAI-based split attribute selection. Third, the over-fitting is tackled by designing a simple and effective smoothing strategy, so as to build cost-sensitive decision tree classifiers with the HCSL algorithm. Experiments are conducted to evaluate the proposed HCSL algorithm on six UCI datasets. Experimental results show that the proposed approach outperforms existing methods for handling the heterogeneity caused by cost mechanisms and attribute information.  相似文献   

10.
已有标记分布学习(LDL)算法在一定程度上破坏不同标记间的关联性及标记分布的整体结构,同时,大多仅以提升标记分布的预测性能为目的,忽略计算代价和噪声鲁棒性在实际应用中的重要性.为了缓解上述不足,文中提出基于局部协同表达的标记分布学习算法(LCR-LDL).在LCR-LDL中,一个未标记样本可被视作由该未标记样本邻域构建...  相似文献   

11.
Efficient aggregation algorithms for compressed data warehouses   总被引:9,自引:0,他引:9  
Aggregation and cube are important operations for online analytical processing (OLAP). Many efficient algorithms to compute aggregation and cube for relational OLAP have been developed. Some work has been done on efficiently computing cube for multidimensional data warehouses that store data sets in multidimensional arrays rather than in tables. However, to our knowledge, there is nothing to date in the literature describing aggregation algorithms on compressed data warehouses for multidimensional OLAP. This paper presents a set of aggregation algorithms on compressed data warehouses for multidimensional OLAP. These algorithms operate directly on compressed data sets, which are compressed by the mapping-complete compression methods, without the need to first decompress them. The algorithms have different performance behaviors as a function of the data set parameters, sizes of outputs and main memory availability. The algorithms are described and the I/O and CPU cost functions are presented in this paper. A decision procedure to select the most efficient algorithm for a given aggregation request is also proposed. The analysis and experimental results show that the algorithms have better performance on sparse data than the previous aggregation algorithms  相似文献   

12.
正交化近邻关系保持的降维及分类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对近邻关系保持嵌入(NPE)算法易于受到降低后的维数影响,而且性能依赖于正确的维数估计的问题,提出了一种正交化的近邻关系保持的嵌入降维方法——ONPE。ONPE方法是使用数据点间的近邻关系来构造邻接图,假设每个数据点都能由其近邻点的线性组合表示,则可以通过提取数据点的局部几何信息,并在降维中保持提取的局部几何信息,迭代地计算正交基来得到数据的低维嵌入坐标。同时,在ONPE算法的基础上,利用局部几何信息,提出了一种在低维空间中使用标签传递(LNP)的分类算法——ONPC。其是假设高维空间中的局部近邻关系在降维后的空间中依然得到保持,并且数据点的类别可由近邻点的类别得到。在人工数据和人脸数据上的实验表明,该算法在减少维数依赖的同时,能有效提高NPE算法的分类性能。  相似文献   

13.
将决策粗糙集与代价敏感学习相结合,提出了一种基于决策粗糙集的代价敏感分类方法。依据决策粗糙集理论和属性约简方法,对待预测样本分别计算最优测试属性集,使得样本在最优测试属性集上计算的分类结果具有最小误分类代价和测试代价,依此给出样本的最小总代价分类结果。针对全局最优测试属性集求解过程中计算复杂度高的问题,提出了局部最优测试属性集的启发式搜索算法。该算法以单个属性对降低总分类代价的贡献率为启发函数,搜索各样本的局部最优测试属性集,并输出在局部最优测试属性集上样本的代价敏感分类结果。在UCI数据上的实验分析显示,所提算法有效地降低了分类结果的总代价和测试属性个数,使得样本分类结果同时具有较小的误分类代价和较小的测试代价。  相似文献   

14.
基于支持向量机的代价敏感挖掘   总被引:4,自引:0,他引:4  
针对一些数据挖掘应用中反例样本和正例样本具有不同误分类代价的情况,提出一种代价敏感支持向量机算法CS-SVM.CS-SVM包括3个步骤:首先,引入Sigmoid函数,根据样本到分类超平面的距离估计其后验概率;然后,根据误分类代价最小原则重构训练样本的类标号;最后,在重构后的训练集上使用标准SVM进行学习即得到嵌入误分类代价的最优分类超平面.基于CS-SVM的思路,提出一个通用的嵌入误分类代价的代价敏感分类算法G-CSC.试验结果表明:相比于SVM,CS-SVM大大降低测试集上的平均误分类代价.  相似文献   

15.
在现实生活中的很多应用里,对不同类别的样本错误地分类往往会造成不同程度的损失,这些损失可以用非均衡代价来刻画.代价敏感学习的目标就是最小化总体代价.提出了一种新的代价敏感分类方法——代价敏感大间隔分布学习机(cost-sensitive large margin distribution machine, CS-LDM).与传统的大间隔学习方法试图最大化“最小间隔”不同,CS-LDM在最小化总体代价的同时致力于对“间隔分布”进行优化,并通过对偶坐标下降方法优化目标函数,以有效地进行代价敏感学习.实验结果表明,CS-LDM的性能显著优于代价敏感支持向量机CS-SVM,平均总体代价下降了24%.  相似文献   

16.
赵慧超  胡坤  王小超 《图学学报》2022,43(4):659-666
本文提出并实现了一种结合纹理复杂度和二维经验模态分解(BEMD)的灰度水印图像算法。该算法首先对Arnold变换的水印图像进行BEMD分解,得到不同尺度的内蕴模态函数及余量信息。其次,对宿主图像分块进行纹理复杂度的计算,选择纹理复杂度高的区域作为嵌入位置;为了使水印图像的内蕴模态函数能与宿主图像更好地融合,对宿主图像进行了与水印图像相同筛分条件的BEMD分解。最后,将水印信息重复地嵌入到宿主图像预先选好的位置中,再对嵌入水印信息后的内蕴模态函数及余量重建得到嵌入水印后的图像。水印提取则为水印嵌入的逆过程。通过对不同纹理程度的宿主图像进行实验,得到嵌入水印后图像的峰值信噪比均在40 dB以上,面对8种常见攻击时提取水印的NC值均在0.95以上。与现有算法进行对比,该算法在大比例剪切、噪声攻击、图像滤波和JPEG压缩攻击上表现出色,且结果整体优于对比算法。  相似文献   

17.

In this paper, we propose the problem of online cost-sensitive classifier adaptation and the first algorithm to solve it. We assume that we have a base classifier for a cost-sensitive classification problem, but it is trained with respect to a cost setting different to the desired one. Moreover, we also have some training data samples streaming to the algorithm one by one. The problem is to adapt the given base classifier to the desired cost setting using the steaming training samples online. To solve this problem, we propose to learn a new classifier by adding an adaptation function to the base classifier, and update the adaptation function parameter according to the streaming data samples. Given an input data sample and the cost of misclassifying it, we update the adaptation function parameter by minimizing cost-weighted hinge loss and respecting previous learned parameter simultaneously. The proposed algorithm is compared to both online and off-line cost-sensitive algorithms on two cost-sensitive classification problems, and the experiments show that it not only outperforms them on classification performances, but also requires significantly less running time.

  相似文献   

18.
黄琴    钱文彬    王映龙  吴兵龙 《智能系统学报》2019,14(5):929-938
在多标记学习中,特征选择是提升多标记学习分类性能的有效手段。针对多标记特征选择算法计算复杂度较大且未考虑到现实应用中数据的获取往往需要花费代价,本文提出了一种面向代价敏感数据的多标记特征选择算法。该算法利用信息熵分析特征与标记之间的相关性,重新定义了一种基于测试代价的特征重要度准则,并根据服从正态分布的特征重要度和特征代价的标准差,给出一种合理的阈值选择方法,同时通过阈值剔除冗余和不相关特征,得到低总代价的特征子集。通过在多标记数据的实验对比和分析,表明该方法的有效性和可行性。  相似文献   

19.
针对信息隐藏算法中提高嵌入量与增强鲁棒性之间的矛盾问题,提出一种多载体信息隐藏算法。使用多幅人脸表情图像作为载体,采用局部二值模式(LBP)纹理特征识别人脸表情区域来嵌入加密信息;计算出载体区域的相邻像素差值矩阵,通过对差值矩阵的对应元素的直方图进行移位构造出嵌入空间来实现加密信息的可逆隐藏与载体图像的无损恢复。算法分析证明了比现有算法具有更大的嵌入容量并保持较高的鲁棒性的优势,在最大嵌入容量达到0.561时具有38.421 dB的信噪比(PSNR),且在识别的嵌入区域PSNR值达到46.286。鲁棒性实验表明,该算法对于滤波攻击可以与原始信息图像的相似度大于99%;面对剪切、平移攻击时,秘密图像归一化系数◢NC◣最小为0.743和0.728,远大于其他算法。从与其他算法的对比实验结果看,该算法是有效的。  相似文献   

20.
社区发现与链路预测任务是网络数据研究中的热点问题, 兼顾网络传递性与区块结构有助于捕捉个体之间的有效关联、探测数据中蕴含的内在规律, 帮助研究者挖掘更多数据价值进而做出决策. 当前的算法与模型多侧重于网络传递性或区块结构单一层面的分析, 且依赖一定的假设条件. 本文提出网络嵌入随机块模型(NE-SBM)用于社区发现与链路预测. 搭建贝叶斯框架完成模型参数的正则化, 利用Metropolis Hasting-Gibbs算法获得节点嵌入表示的隐位置与社区隶属关系, 基于多维尺度变换算法解决隐位置可识别性问题. 本方法可解决传统启发式算法中过分依赖判断准则或评价函数的问题, 对各类型的数据都具有更好的适应性. 人工数据及真实数据的实验结果进一步验证了该方法在社区发现与链路预测中有更优的表现.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号