摘 要: | 在机器学习算法的应用中,当使用小规模、多特征数的训练样本时,模型容易出现过拟合现象。正则化方法可以在一定程度上抑制模型过拟合,提高模型的泛化能力。以手写数字识别为例,分别研究了正则化方法在逻辑回归和BP神经网络中的应用,并比较了两种算法的实际结果。从MNIST手写体数据库中随机选取了5000个样本,经过PCA(Principal Component Analysis)降维后,从中选取不同规模样本并分别将其随机划分为60%的训练集,20%的交叉验证集和20%的测试集。分别构建两种算法对样本进行训练和测试,通过学习曲线选取合适的正则化参数,并比较了在合适正则化参数与未加入正则化参数下,模型与对测试集的预测精度。实验结果表明BP神经网络对手写数字的识别效果优于逻辑回归;同时当使用样本集较小时,正则化方法可以有效地抑制模型过拟合的发生,提高模型预测精度;随着样本集规模的增大,抑制效果减弱。
|