首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
针对机器学习领域中两种常用的预测与分类算法,线性回归和逻辑回归,比较适用于两者的应用场景。基于python sklearn中的糖尿病数据集,采用两种算法建立三个不同模型,即一元线性模型、多元线性模型、逻辑回归模型对同一目标值进行预测并得出预测准确率进行比较。结果表明,在数据集各自变量呈离散分布并与因变量间缺少良好线性关系的情况下,使用线性回归方法所获得的准确率低于使用逻辑回归算法所获得的准确值。  相似文献   

2.
采用回归分析和曲线拟合的方法,并利用JSP技术对毕业生就业数据进行统计和分析,从而描绘出就业率发展趋势图,进而实现对毕业生就业率的预测.  相似文献   

3.
文章研究了分别利用统计学方法和数据挖掘方法,对数据进行分类和预测,具体考察了Logistic回归和决策树的分类效能,并通过ROC曲线进行检验。结果表明:两种分类方法各有利弊,没有明显的孰优孰劣,对预测变量可以进行有效的交叉验证。  相似文献   

4.
提出了一种新的基于分类的SVM非线性回归算法(CSVR),首先将Y扩展为Y+ε和Y-ε两个数据集,再将n维输入空间X中的数据连同Y+ε和Y-ε组成n+1维空间χ中的两类数据,并用Z∈(+1,-1)来标识两类数据,再利用标准的SVM二分类算法求解。利用该算法对一系列的基准函数进行测试,取得了令人满意的结果。该算法对噪声数据不敏感,具有较好的鲁棒性,并且可以根据实际需要设定ε的大小,防止出现过拟合现象。该算法由于不需要先验地建立一个参数未知的回归模型,因此可以用在其他传统统计回归算法失效的场合。  相似文献   

5.
多项式回归是用来确定两种或两种以上变量间相互依赖的非线性定量关系的一种统计分析方法,在大数据分析中有广泛的应用。通常,挖掘的数据集包含一些敏感属性,在数据挖掘过程和数据发布中,如不加保护会引起隐私泄露。基于对代价函数添加噪声的方法,该文设计了一种满足差分隐私的多项式回归算法FM-on-PR,并且针对现实应用中的需求,对该算法进行了优化,获得了两种分别对数据安全性和数据可用性进行加强的算法DPC-on-PR和DPBA-on-PR。通过理论证明了它们满足差分隐私性质,并使用多个数据集进行实验仿真,测试算法性能,结果表明了这些方法具有有效性,并且经过对比,得出了其中拟合优度最高的DPBA-on-PR算法。  相似文献   

6.
在水文学、气象学以及保险理赔评估等领域中,通常假设因变量服从Gamma分布,相比多元线性回归,在Gamma分布假设下建立起的Gamma回归具有更出色的拟合效果。以往获得Gamma回归模型的方法是将数据集中起来进行训练,当数据是由多方提供时,在不交换数据的情况下训练满足隐私保护的Gamma回归模型成为需要解决的问题。为此,提出了一种多方安全的纵向联邦Gamma回归算法,该算法首先使用迭代法推导出纵向联邦Gamma回归模型的对数似然估计表达式,然后结合工程实际确定模型的连接函数,进而构造损失函数建立参数的梯度更新策略,最后对同态加密后的各方参数进行融合更新,获得联邦学习后的Gamma回归模型。在两种公开数据集上进行性能测试,实验结果表明,所提联邦Gamma回归算法在不交换数据的前提下,可有效利用多方数据的价值生成Gamma回归模型,该模型对数据的拟合效果逼近数据在集中情况下学习到的Gamma回归模型,优于单方独立学习获得的Gamma回归模型。  相似文献   

7.
提出了三种基于回归模型的数据抑制方案:其中两种利用了无线传感器网络中数据的时序相关性;另一种利用了感知数据的时序—地理位置相关性。模拟实验表明,相对于简单的数据抑制方案,基于回归的数据抑制方案的通信代价更低。  相似文献   

8.
提出了三种基于回归模型的数据抑制方案:其中两种利用了无线传感器网络中数据的时序相关性;另一种利用了感知数据的时序—地理位置相关性。模拟实验表明,相对于简单的数据抑制方案,基于回归的数据抑制方案的通信代价更低。  相似文献   

9.
流式数据事件具有时间持续性,受采集器频率及外部环境干扰等因素影响,流式数据具有规模大、数据漂移等特征,且事件发生具有随机性特点,导致现有流式数据事件预警方法准确性很低,且在事件完全结束前无法得出判识结果,预警具有滞后性。针对这些问题提出一种两级回归的流式大数据事件自适应预警方法。该方法首先基于海量历史灾害事件,引入一级移动回归法建立权重支持域,提取事件的数据特征点,通过二级线性回归法建立事件回归模型,并对模型进行最小二乘误差分析建立事件置信域,构成预警模型;基于事件预警模型提出判识因子概念,提出流式数据事件分阶预警方法,通过判识因子自适应变换策略对事件未来发展趋势进行预估计,实现事件的实时预警。实验结果表明,该方法对比现有方法在事件预警实时性、预警效率及预警准确性等方面均具有很大优势。  相似文献   

10.
本文围绕110接处警实战应用需求,重点讨论了支撑向量机回归模型,进行了数据探测和评估。对三种常用的回归算法(线性回归、神经网络回归和支撑向量机回归)在建模效果方面进行比较,得出了结论。  相似文献   

11.
A fruitful method of pooling data from disparate sources, such as a set of sample surveys, is developed. This method proceeds by finding the first two moments of two conditional distributions derived from a joint distribution of two sample estimators of employment for each of several geographical areas. The nature of the two estimators is such that one of them can yield a better estimate of national employment than the other. The regression of the former estimator on the latter estimator with stochastic intercept and slope is used to generate an improved estimator that is equal to bias- and error-corrected estimator for each area with probability 1. This analysis is extended to cases where more than two estimates of employment are available for each area.  相似文献   

12.
数据降维对于提高高维数据处理的效率具有重要意义,稀疏编码是目前受到广泛关注的主流降维方法。针对该方法在降维过程中不能保持样本空间几何结构信息的不足,提出一种基于谱回归和图正则最小二乘回归的改进方案,以2个图像数据集和2个基因表达数据集为样本的实验表明该方法优于未加改进的稀疏编码降维法。  相似文献   

13.
It is well known that multiple linear regression models with ill-conditioning can produce coefficient estimates with degraded numerical accuracy. This study examines the numerical accuracy of regression algorithms in the presence a particular type of ill-conditioning, that arising from collinear relationships that involve the intercept term and the independent variables. A benchmark data set is used to produce ill-conditioned data by introducing near linear relationships among the independent variables and the intercept term. The experiments reported here demonstrate that centering does not prevent a loss in numerical accuracy for this particular type of ill-conditioning. In addition, the ability of commonly used diagnostic checks to detect these problems is studied. As an example of the problems that arise from ignoring the relationships studied here we demonstrate that the regression procedures in two widely used statistical packages, SAS and SPSS-X, fail to detect this type of ill-conditioning and report highly inaccurate coefficient estimates.  相似文献   

14.
方书晴 《软件》2012,(6):77-79,82
数据挖掘技术是信息时代的宠儿,而分类和预测是数据分析的两种基本形式,能预测未知数据的趋势。本文主要介绍了何为数据的分类和预测,并且通过判定树归纳细化了数据分类的划分步骤;通过介绍线性回归、多元回归以及非线性回归等预测方法加深了对数据预测的认识;并介绍了分类法准确率评估方法以及分类和预测的异同点。  相似文献   

15.
多元回归分析是一类重要的预测方法。随着计算机网络技术的快速发展,用于统计分析的样本数据有时由网络中不同的用户提供。当用户不愿意公开自己的私有数据信息时,如何在他们数据的并集上进行统计分析是一个重要的研究课题。本文讨论了多个用户协作进行多元回归分析中的私有信息保护问题,介绍了两类协作统计模型,基于安全求和协议及点积协议提出了相应的解决方法。  相似文献   

16.
Switching regression models form a suitable model class for regression problems with unobserved heterogeneity. A basic issue encountered in applications of switching regression models is to choose the number of states of the switching regime. Based on the modified likelihood ratio test (LRT) statistic a test for two against more states of the regime is proposed, and its asymptotic distribution is derived in the case when there is a single switching parameter. Further, it is shown that the asymptotic distribution of the test remains unchanged if the regime is Markov dependent. A simulation study illustrates the finite-sample behavior of the test. Finally, the methodology is applied to the data of a dental health trial. In this case the model selection criteria AIC and BIC favor distinct binomial regression models with switching intercepts (AIC three states, BIC two states). The modified LRT allows us to reject the null hypothesis of two states in favor of three states.  相似文献   

17.
工程应用中通常用插值和回归(曲线拟合)解决函数表达式描述数据的问题。插值算法以某种方法描述数据点之间的关系,在进行高次插值时会出现与原函数不一致的现象;回归算法设法找出某条光滑曲线,让它最佳地拟合数据,但不能保证经过每个数据点。通过算例对插值和回归算法进行比较分析,得到拟合曲线更能反映实际函数数学特性。  相似文献   

18.
针对现有回归算法没有考虑利用特征与输出的关系,各输出之间的关系,以及样本之间的关系来处理高维数据的多输出回归问题易输出不稳定的模型,提出一种新的低秩特征选择多输出回归方法。该方法采用低秩约束去构建低秩回归模型来获取多输出变量之间的关联结构;同时创新地在该低秩回归模型上使用[L2,p]-范数来进行样本选择,合理地去除噪音和离群点的干扰;并且使用[L2,p]-范数正则化项惩罚回归系数矩阵进行特征选择,有效地处理特征与输出的关系和避免“维灾难”的影响。通过实际数据集的实验结果表明,提出的方法在处理高维数据的多输出回归分析中能获得非常好的效果。  相似文献   

19.
Cluster analysis is sensitive to noise variables intrinsically contained within high dimensional data sets. As the size of data sets increases, clustering techniques robust to noise variables must be identified. This investigation gauges the capabilities of recent clustering algorithms applied to two real data sets increasingly perturbed by superfluous noise variables. The recent techniques include mixture models of factor analysers and auto-associative multivariate regression trees. Statistical techniques are integrated to create two approaches useful for clustering noisy data: multivariate regression trees with principal component scores and multivariate regression trees with factor scores. The tree techniques generate the superior clustering results.  相似文献   

20.
Classical nonlinear expectile regression has two shortcomings. It is difficult to choose a nonlinear function, and it does not consider the interaction effects among explanatory variables. Therefore, we combine the random forest model with the expectile regression method to propose a new nonparametric expectile regression model: expectile regression forest (ERF). The major novelty of the ERF model is using the bagging method to build multiple decision trees, calculating the conditional expectile of each leaf node in each decision tree, and deriving final results through aggregating these decision tree results via simple average approach. At the same time, in order to compensate for the black box problem in the model interpretation of the ERF model, the measurement of the importance of explanatory variable and the partial dependence is defined to evaluate the magnitude and direction of the influence of each explanatory variable on the response variable. The advantage of ERF model is illustrated by Monte Carlo simulation studies. The numerical simulation results show that the estimation and prediction ability of the ERF model is significantly better than alternative approaches. We also apply the ERF model to analyse the real data. From the nonparametric expectile regression analysis of these data sets, we have several conclusions that are consistent with the results of numerical simulation.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号