首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
Logistic Model Trees   总被引:2,自引:0,他引:2  
Tree induction methods and linear models are popular techniques for supervised learning tasks, both for the prediction of nominal classes and numeric values. For predicting numeric quantities, there has been work on combining these two schemes into model trees, i.e. trees that contain linear regression functions at the leaves. In this paper, we present an algorithm that adapts this idea for classification problems, using logistic regression instead of linear regression. We use a stagewise fitting process to construct the logistic regression models that can select relevant attributes in the data in a natural way, and show how this approach can be used to build the logistic regression models at the leaves by incrementally refining those constructed at higher levels in the tree. We compare the performance of our algorithm to several other state-of-the-art learning schemes on 36 benchmark UCI datasets, and show that it produces accurate and compact classifiers.Editor Johannes FürnkranzThis is an extended version of a paper that appeared in the Proceedings of the 14th European Conference on Machine Learning (Landwehr et al., 2003).  相似文献   

2.
基于链接的Web网页分类*   总被引:1,自引:1,他引:0  
基于链接的特点,提出了获取链接信息的模型,将得到的链接信息结合对象本身的属性来共同训练分类规则。针对网页链接的特殊性,对链接有向图重新建模。实验证明链接信息的加入可以有效地改善分类的结果,链接有向图的重新建模同样提高了分类的准确性。  相似文献   

3.
This paper gives a new iterative algorithm for kernel logistic regression. It is based on the solution of a dual problem using ideas similar to those of the Sequential Minimal Optimization algorithm for Support Vector Machines. Asymptotic convergence of the algorithm is proved. Computational experiments show that the algorithm is robust and fast. The algorithmic ideas can also be used to give a fast dual algorithm for solving the optimization problem arising in the inner loop of Gaussian Process classifiers. Editor: Shai Ben-David  相似文献   

4.
许心炜  蔡斌  向宏  桑军 《密码学报》2020,7(2):179-186
随着计算能力的发展,机器学习得到了广泛的应用,数据的安全问题也成为一个重要问题.同态加密技术可以在不泄露明文信息的情况下,对密文进行运算并在解密后得到与在明文上执行相应运算一致的结果.因此,同态加密是一种可行的有潜力的数据安全外包解决方案.为了解决现实生活中出现的多分类问题,本文基于Cheon等提出的HEAAN同态加密方案,提出了一种能有效保护数据隐私的多分类Logistic回归模型,采用"一对其余"的拆解策略,通过训练多个分类器,将二分类Logistic回归模型推广到多分类.数据持有者可以将数据加密后发送给服务器,服务器使用多分类Logistic回归模型对加密数据进行训练,并将结果传回数据持有者,数据持有者解密结果后可以用来对多分类数据进行预测,整个过程中不会有隐私被泄露.本文通过对UCI的Dermatology和Iris数据集进行了实验,测试模型的性能.Dermatology数据集包含358条样本, 34个特征属性,分为6个类别,训练时间约为36.70分钟,准确率达到77.18%,与明文计算的准确率一致.实验验证了本文的模型在效率和准确率方面的可行性.  相似文献   

5.
中科院SAMP(大型仪器设备共享管理)系统实现了仪器设备信息化管理的方式,极大的提高了仪器设备的管理和使用效率.然而,当前的仪器设备共享管理系统在某些方面依然存在资源配置不科学的现象,如仪器设备管理系统无法监控仪器设备开机之后空机运行、仪器异常时间开机运行等.这种情况迫切的需要我们对仪器设备的使用记录进行分析,找出其中的异常运行数据并对其进行优化.本文将采用贝叶斯分类和logistic回归的数据统计方法来对仪器设备共享管理系统仪器运行时间数据进行分析,并对仪器运行时间数据进行预测分类.将预测分类结果和实际运行时间结果进行对比,找出异常运行时间结果并分析产生异常结果的原因,再结合实际的仪器设备运行情况对仪器设备的管理进行优化,从而达到提高仪器设备使用效率的目的.  相似文献   

6.
利用计算机视觉进行马铃薯产后品质检测分级有十分重要意义。首先对计算机视觉系统获取的马铃薯进行图像分析,利用Otsu法去除马铃薯图像背景,然后针对马铃薯的损伤、绿皮和发芽状态进行图像处理识别;针对马铃薯中的绿皮状态,利用感知器学习算法(PLA)区分正常马铃薯与绿皮马铃薯;然后针对表皮发芽的马铃薯,利用边缘检测法得到图像中马铃薯区域的各部位边缘,结合K-最近邻分类算法(KNN)识别表面发芽的马铃薯,同时通过角点检测确定轮廓上的发芽区域;然后对检测到的边缘利用中值滤波结合面积最大法,确定马铃薯表皮的损伤部位,最终实现马铃薯品质的分级。利用计算机视觉方法马铃薯品质检测实验结果:正常马铃薯识别正确率为96.8%,绿皮马铃薯为89.7%,表皮损伤马铃薯为90.4%,发芽马铃薯为96%。  相似文献   

7.
基于多源的跨领域数据分类快速新算法   总被引:1,自引:0,他引:1       下载免费PDF全文
顾鑫  王士同  许敏 《自动化学报》2014,40(3):531-547
研究跨领域学习与分类是为了将对多源域的有监督学习结果有效地迁移至目标域,实现对目标域的无标记分 类. 当前的跨领域学习一般侧重于对单一源域到目标域的学习,且样本规模普遍较小,此类方法领域自适应性较差,面对 大样本数据更显得无能为力,从而直接影响跨域学习的分类精度与效率. 为了尽可能多地利用相关领域的有用数据,本文 提出了一种多源跨领域分类算法(Multiple sources cross-domain classification,MSCC),该算法依据被众多实验证明有效的罗杰斯特回归模型与一致性方法构建多个源域分类器并综合指导目标域的数据分类. 为了充分高效利用大样本的 源域数据,满足大样本的快速运算,在MSCC的基础上,本文结合最新的CDdual (Dual coordinate descent method)算 法,提出了算法MSCC的快速算法MSCC-CDdual,并进行了相关的理论分析. 人工数据集、文本数据集与图像数据集的实 验运行结果表明,该算法对于大样本数据集有着较高的分类精度、快速的运行速度和较高的领域自适应性. 本文的主要贡 献体现在三个方面:1)针对多源跨领域分类提出了一种新的一致性方法,该方法有利于将MSCC算法发展为MSCC-CDdual快速算法;2)提出了MSCC-CDdual快速算法,该算法既适用于样本较少的数据集又适用于大样本数据集;3) MSCC-CDdual 算法在高维数据集上相比其他算法展现了其独特的优势.  相似文献   

8.
    
Many studies have demonstrated the strong relationships between physiological responses and driving stress, but they have done little to build a model that could be used to identify a driver's stress accurately in real time. The objective of this study is to develop a model that accurately classifies driving stress by monitoring physiological responses—specifically galvanic skin response (GSR). GSR data were collected from nine drivers with licenses obtained in the US in real road driving situations with two stress conditions—rest period (low stress) and highway or city driving (high stress). The validation drive was performed by one driver with licenses obtained in South Korea in real long‐term road driving situations with two stress conditions—rural area (low stress) and highway or highway under construction (high stress). Those two conditions were used to build a binary logistic regression model to classify low stress or high stress based on a driver's measured hand GSR. The overall classification accuracy of the developed model was found to be 85.3%, and the accuracy of cross validation, with a testing dataset, was found to be 83.2%. A simple logit model was developed to identify drivers' stress by incorporating their GSR data. The developed model can be embedded in a wearable device equipped with GSR sensors for drivers to detect their stress level in real time.  相似文献   

9.
2011年以来, 我国多地出现了雾霾天气, 对大气颗粒成分分析有助于人们了解雾霾形成的原因, 制订有效的应对措施. 本文的主要目的是对于大气颗粒物成分进行命名. 传统颗粒物的命名是在经验的基础上, 对颗粒进行逐个的命名. 若将该过程自动化, 难点有两个: 数据规模太大、人工经验难以量化. 本文使用数据挖掘的工具, 首先进行了一次聚类分析, 降低了数据规模. 为了解决人工经验难以量化的问题, 使用逻辑回归分类算法, 并进行了调优, 使正确率达到了业务处理的要求.  相似文献   

10.
传统的跨领域分类学习一般考虑均衡的单一源域到单一目标域的学习,但在现实世界中数据往往是不平衡的.当用于解决不平衡分类问题时,由于分类器的偏向性,其分类精度、抗噪性能往往有不同程度的下降.为了克服域间不平衡性,提出了一种不平衡多源跨领域分类算法(imbalance multisource classfication on cross-domain learning, IMCCL),该算法依据被众多实验证明有效的“逻辑回归模型”与“后验概率最大法则”构建多个训练域分类器并综合指导目标域的数据分类.为了充分高效利用大样本的源域数据,满足大样本的快速运算,在结合CDdual算法的基础上,提出了IMCCL的快速算法(IMCCL-CDdual).将其应用到文本数据分类与图像识别分类的实验结果表明:该算法具有较高的识别率、快速的识别速度和抗干扰性和领域自适应性.  相似文献   

11.
为进一步提高随机森林算法分类准确率,提出一种基于决策边界的倾斜森林(oblique forests based on decision boundary,OFDB)分类算法.将决策边界与自适应权重融入随机森林算法框架,采用决策边界作为分裂准则,使原本垂直于数据空间的分裂准则变为倾斜的超平面,有效提高算法对数据空间结构的...  相似文献   

12.
由于视觉Transformer结构模型参数量大、浮点计算次数高,使得其难以部署到终端设备上。因为注意力矩阵存在低秩瓶颈,所以模型压缩算法和注意力机制加速算法不能很好地平衡模型参数量、模型推理速度和模型性能之间的关系。为了解决上述问题,本文设计一种轻量级的Vi T-SST模型用于图像分类任务。首先,通过将传统全连接层转换为可分离结构,大幅度降低模型参数量且提高了模型推理速度,保证了注意力矩阵不会因出现低秩而破坏模型表达能力;其次,提出一种基于SVD分解的克罗内克积近似分解法,可以将公开的Vi T-Base模型预训练参数转换至Vi T-Base-SST模型,略微缓解了Vi T模型的过拟合现象并提高了模型精度。在常见公开图片数据集CIFAR系列和Caltech系列上的实验验证了本文方法优于对比方法。  相似文献   

13.
A novel logistic multi-class supervised classification model based on multi-fractal spectrum parameters is proposed to avoid the error that is caused by the difference between the real data distribution and the hypothetic Gaussian distribution and avoid the computational burden working in the logistic regression classification directly for hyperspectral data. The multi-fractal spectra and parameters are calculated firstly with training samples along the spectral dimension of hyperspectral data. Secondly, the logistic regression model is employed in our work because the logistic regression classification model is a distribution-free nonlinear model which is based on the conditional probability without the Gaussian distribution assumption of the random variables, and the obtained multi-fractal parameters are applied to establish the multi-class logistic regression classification model. Finally, the Newton–Raphson method is applied to estimate the model parameters via the maximum likelihood algorithm. The classification results of the proposed model are compared with the logistic regression classification model based on an adaptive bands selection method by using the Airborne Visible/Infrared Imaging Spectrometer and airborne Push Hyperspectral Imager data. The results illuminate that the proposed approach achieves better accuracy with lower computational cost simultaneously.  相似文献   

14.
计算机视觉技术大量应用于自动驾驶系统,主要解决物体识别与物体分类问题,本文根据任务提出了一种轻量化的神经网络结构.为解决训练数据规模不足的问题,采用了改进型数据增强算法,使训练数据成倍增加.同时为解决使用数据生成器作为验证集,无法使用tensorboard的问题,提出了解决方案,通过卷积网络可视化方法详细研究了神经网络处理图像信息的原理并提出了优化方法.训练后的模型在验证集上准确率达到了97.5%,满足了自动驾驶系统对分类任务准确率的要求.  相似文献   

15.
基于密度估计的逻辑回归模型   总被引:2,自引:0,他引:2       下载免费PDF全文
介绍了一种基于密度的逻辑回归(Density-based logistic regression,DLR)分类模型以解决逻辑回归中非线性分类的问题. 其主要思想是根据Nadarays-Watson密度估计将训练数据映射到特定的特征空间,然后组建优化模型优化特征权重以及Nadarays-Watson 密度估计算法的宽度. 其主要优点在于:它不仅优于标准的逻辑回归,而且优于基于径向基函数(Radial basis function,RBF)内核的核逻辑回归(Kernel logistic regression,KLR). 特别是与核逻辑回归分析和支持向量机(Support vector machine,SVM)相比,该方法不仅达到更好的分类精度,而且有更好的时间效率. 该方法的另一个显著优点是,它可以很自然地扩展到数值类型和分类型混合的数据集中. 除此之外,该方法和逻辑回归(Logistic regression,LR)一样,有同样的模型可解释的优点,这恰恰是其他如核逻辑回归分析和支持向量机所不具备的.  相似文献   

16.
计算机视觉系统框架的新构思   总被引:2,自引:1,他引:2  
计算机视觉是人类视觉的模拟。计算机视觉四十多年的发展既取得了成绩也存在不足。在计算机视觉发展过程中,相继提出了三个主要的理论框架:计算视觉理论,基于知识的视觉理论和主动视觉理论。该文对这三个理论框架及其存在的问题进行了讨论,并提出了一个完善和通用的计算机视觉的系统框架。  相似文献   

17.
近年来,随着数据量的扩大,计算机性能不断提升,用传统的图像分类方法无法获得大数据下图像分类的高精度准确率,残差网络因其高度准确性和良好收敛性已成为图像分类领域的技术热点,值得深入研究。介绍了残差网络,并从提升分类准确率、减少模型参数量和降低模型计算量三个角度出发,详细讨论了各个变体的内在结构,分析了各个变体的优缺点,给出了各个变体适用场合的建议。从准确率、参数量和计算量三个方面对各个变体的性能进行了直观的对比。提出了残差网络现在面临的挑战和未来的发展方向。  相似文献   

18.
随着深度学习和3D传感技术的快速发展,点云分类已在智能分级等领域得到了广泛的应用。为了更好地推进点云分类技术的研究与应用,利用管道体系结构对相关方法的研究进展进行全面而系统的梳理、分析和总结。首先,根据点云数据处理方式的不同,将现有的点云分类方法归纳为间接基于点云的方法和直接基于点云的方法。然后,着重介绍了具有代表性的方法和最新研究成果,同时比较分析了主要方法的核心思想、优缺点、适用范围、应用场景以及实验结果。最后,从四个方面对点云分类的未来发展以及研究方向进行了展望,结果表明,将间接和直接点云的方法进行2D-3D特征融合是未来的一个重要发展方向。  相似文献   

19.
在定量细胞学研究中,细胞核内DNA物质含量的准确测量是癌症筛查与病理诊断的必要前题与最重要依据。由于算法、设备、环境等因素的影响,在对细胞核的数字显微图像进行处理与分析、测量DNA物质含量时会产生较大的误差。本文提出了一种基于数学形态学和k近邻回归算法的DNA物质含量校正新方法。该方法首先利用膨涨算法对细胞核分割掩码进行处理,从而对DNA物质含量的测量进行空间校正;然后采用k近邻回归算法,充分利用细胞核的形态、纹理等特征参数所蕴含的信息,从而对DNA物质含量进行光学回归校正。实验表明,该方法能够显著提高DNA物质含量测量的准确性和可信度,对提高病理诊断的特异性与敏感性都有积极的意义。  相似文献   

20.
基于内容相关性的场景图像分类方法   总被引:4,自引:0,他引:4       下载免费PDF全文
场景图像分类是计算机视觉领域中的一个基本问题.提出一种基于内容相关性的场景图像分类方法.首先从图像上提取视觉单词,并把图像表示成视觉单词的词频矢量;然后利用产生式模型来学习训练集合中包含的主题,和每一幅图像所包含的相关主题;最后用判定式分类器进行多类学习.提出的方法利用logistic正态分布对主题的相关性进行建模,使得学习得到的类别的主题分布更准确.并且在学习过程中不需要对图像内容进行人工标注.还提出了一种新的局部区域描述方法,它结合了局部区域的梯度信息和彩色信息.在自然场景图像集合和人造场景图像集合上实验了提出的方法,它相对于传统方法取得了更好的结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号