摘 要: | 目前广告点击率预估所用的模型对于稀疏、类别分布不平衡的广告数据学习能力有限。针对这一问题,在数据分桶采样的基础上,提出利用因子分解机集成模型进行广告点击率的预估。利用迭代决策树算法提取的高层特征作为因子分解机的输入特征进行自动组合,发现特征间的相关性,解决数据稀疏和不均衡分类问题。在Hadoop大数据平台环境中对迭代决策树算法+因子分解机的融合模型进行并行式训练,可减少时间成本。通过单模型实验、采样实验、模型集成实验以及模型对比实验,确定了最佳采样比例,并验证了集成基于因子分解机的集成模型的有效性。
|