首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 375 毫秒
1.
目前广告点击率预估所用的模型对于稀疏、类别分布不平衡的广告数据学习能力有限。针对这一问题,在数据分桶采样的基础上,提出利用因子分解机集成模型进行广告点击率的预估。利用迭代决策树算法提取的高层特征作为因子分解机的输入特征进行自动组合,发现特征间的相关性,解决数据稀疏和不均衡分类问题。在Hadoop大数据平台环境中对迭代决策树算法+因子分解机的融合模型进行并行式训练,可减少时间成本。通过单模型实验、采样实验、模型集成实验以及模型对比实验,确定了最佳采样比例,并验证了集成基于因子分解机的集成模型的有效性。  相似文献   

2.
互联网广告是一个具有上千亿元规模的市场。广告的点击率是互联网广告投放效果的重要指标。在广告点击率预估模型中,特征提取是关键因素,特征的好坏直接影响到最终模型的效果。针对如何提高广告点击率预估效率问题,在Hadoop大数据平台环境中,提出了基于梯度提升决策树GBDT(Gradient Boost Decision Tree)模型的多维特征提取方法。该方法利用原始数据构建多维基础特征库,并将基础特征库中除ID类特征以外的其余特征输入GBDT模型进行特征刷选,得到高层特征,进一步进行分类。该方法的使用不仅减少了特征提取的人工成本和时间成本,也在很大程度上提升了模型的精度。  相似文献   

3.
陈杰浩  张钦  王树良  史继筠  赵子芊 《软件学报》2019,30(12):3665-3682
随着互联网广告的飞速发展,如何预测目标用户对互联网广告的点击率(click-through rate,简称CTR),成为精确广告推荐投放的关键技术,并成为计算广告领域的研究热点和深度神经网络的应用热点.为了提高广告点击率预估的精确度,提出了基于深度置信网络的广告点击率预估模型,并通过基于Kaggle数据挖掘平台数据集的1 000万条随机数据的实验,研究不同的隐藏层层数和隐含节点数目对预测结果的影响.为了解决深度置信网络在数据规模较大的工业界解决方案中的训练效率问题,通过实验证明:广告点击率预估中,深度置信网络的损失函数存在大量的驻点,并且这些驻点对网络训练效率有极大的影响.为了提高模型效率,从发掘网络损失函数特性入手,进一步提出了基于随机梯度下降算法和改进型粒子群算法的融合算法,以优化网络训练.融合算法在迭代步长小于阈值时可以跳出驻点平面,继续正常迭代.实验结果表明,与传统的基于梯度提升决策树和逻辑回归的广告点击率预估模型以及模糊深度神经网络模型相比,基于深度置信网络的预估模型具有更好的预估精度,在均方误差、曲线下面积和对数损失函数指标上分别提升2.39%,9.70%,2.46%和1.24%,7.61%,1.30%;使用融合方法训练深度置信网络,训练效率提高30%~70%.  相似文献   

4.
广告点击率是互联网广告投放的重要依据,有效地预测广告的点击率,对于提高广告投放的效率有着至关重要的作用。在训练点击率预测模型的过程中,往往面临着广告及用户的数量巨大以及训练数据集稀疏的问题,从而导致点击率预测的准确度下降。针对这些问题提出了一种基于LDA (Latent Dirichlet Allocation)的点击率预测算法,即LDA-FMs,该算法对原有训练集进行基于主题的分割,利用分割后的子训练集分别建立不同主题下的点击率预测模型,在此基础上,利用广告属于不同主题的概率,有权重的结合每个预测模型的预测结果,进而计算广告的点击率。实验基于KDD Cup 2012-Track2的真实数据集,证明了算法的可行性与有效性。  相似文献   

5.
杨诚 《计算机应用》2017,37(10):2866-2870
当前主流的在线广告点击率(CTR)预估算法主要通过机器学习方法从大规模日志数据中挖掘用户与广告间的相关性从而提升点击率预估精度,其不足之处在于没有充分考虑用户实时行为对CTR的影响。对大规模真实在线广告日志进行分析后发现,在会话中,用户CTR的动态变化和用户先前的反馈行为高度相关,不同的用户行为对用户实时CTR的影响不尽相同。基于上述分析结果,提出一种基于用户实时反馈的点击率预估算法。首先,从大规模真实在线广告日志数据中定量分析用户反馈和点击率预估精度的相关关系;然后,根据分析结果将用户的反馈行为特征化;最后,使用机器学习方法对用户的行为进行建模,并根据用户的反馈实时动态调整广告投放,从而提升在线广告系统的点击率预估精度。实验结果表明,用户实时反馈特征和用户点击率高度相关;相比于传统没有用户实时反馈信息的预测模型,该算法在测试集上对AUC(Area Under the Curve)和RIG(Relative Information Gain)指标提升分别为0.83%和6.68%。实验结果表明,用户实时反馈特征显著提高点击率预估的精度。  相似文献   

6.
点击率预估是广告推荐系统中的一个重要方向,现有的点击率预估模型大多是基于特征feature与CTR之间的关系预测一条广告是否被用户点击,但是仍有许多能提高点击率模型性能的信息被忽略.文章提出了一种基于广告特征与用户特征相似度的模型,该模型在DeepFM点击率预测算法的基础上,增加了一个能够拟合广告特征与用户特征之间关系...  相似文献   

7.
传统的低阶特征模型不能充分利用大数据,从多个维度描述数据和用户.专注于高阶特征提取,结合显式和隐式特征交互的点击率预估模型可以利用好大数据的特点.使用Tensorflow框架搭建包含深度神经网络、因子压缩交互网络和多重特征自交互网络结构的模型,使用淘宝展示广告点击率预估数据集进行训练.模型采用对数损失值和ROC曲线下面积作为评价指标,与原始的LR、FM、Deep&Wide等典型模型进行比较,对数损失值降低了0.04,AUC值提高了0.05左右.  相似文献   

8.
章磊敏  董建锋  包翠竹  纪守领  王勋 《软件学报》2022,33(12):4838-4850
视频的点击率预估是视频推荐系统中的重要任务之一,推荐系统可以根据点击率的预估调整视频推荐顺序以提升视频推荐的效果.近年来,随着视频数量的爆炸式增长,视频推荐的冷启动问题也变得愈发严重.针对这个问题,提出了一个新的视频点击率预估模型,通过使用视频的内容特征以及上下文特征来加强视频点击率预估的效果;同时,通过对冷启动场景的模拟训练和基于近邻的替代方法提升模型应对新视频点击率预估的能力.提出的模型可以同时对旧视频和新视频进行点击率预估.在两个真实的电视剧(Track_1_series)和电影(Track_2_movies)点击率预估数据集上的实验表明:提出的模型可以显著改善对旧视频的点击率预估性能,并在两个数据集上均超过了现有的模型;对于新视频,相比于不考虑冷启动问题的模型只能获得0.57左右的AUC性能,该模型在两个数据集上分别获得0.645和0.615的性能,表现出针对冷启动问题更好的鲁棒性.  相似文献   

9.
广告点击率(CTR)是互联网公司进行流量分配的重要依据,针对目前点击率预估精度较低的问题,结合通用的神经网络解决方案,构建一种基于注意力机制的深度兴趣网络(ADIN)模型。设计一个局部激活单元和自适应激活函数,根据用户历史行为和给定广告自适应地学习用户兴趣。引入注意力机制,区分不同特征对预测结果的影响程度,从而增强模型的可解释性。在3个公开数据集上的实验结果表明,相对LR、PNN等CTR预估模型,ADIN模型具有更高的AUC值和更低的LogLoss值,其预测效果更优。  相似文献   

10.
周菲  徐洪珍 《计算机应用研究》2021,38(8):2386-2389,2400
针对现有的广告点击率预估模型未能精准挖掘用户历史兴趣及历史兴趣对目标广告点击与否的影响,提出了一种基于改进Transformer的广告点击率预估模型.该模型采用Transformer网络捕捉隐藏在用户点击序列背后的潜在历史兴趣;同时针对Transformer建模用户历史兴趣无法有效关联目标广告的问题,提出了一种改进的Transformer网络.改进后的Transformer不但有效建模用户历史兴趣,而且考虑了跟目标广告的关联.新模型采用辅助损失函数来监督改进的Transformer对用户历史兴趣的抽取过程,然后采用注意力机制进一步建模用户的历史兴趣和目标广告的相关性以提升模型的预估性能.实验结果表明新模型有效提升了广告点击率的预估效果.  相似文献   

11.
对电网供电系统短期电力负荷预测模型进行优化,能提升预测结果的准确性和鲁棒性.虽然现有预测模型可以满足预测速度的要求,但预测结果的精确性和稳定性却无法保证.为了得到更加准确和稳定的预测结果,提出了细菌觅食算法优化极限学习机预测模型.首先在电力负荷样本数据中形成训练样本和预测样本集,利用细菌觅食优化算法对极限学习机预测模型中的不确定参数进行优化,然后利用改进后的模型进行电力负荷预测.新模型的优化仿真结果显示,利用细菌觅食算法优化极限学习机预测模型的预测精度和稳定性均优于传统预测模型的预测结果,该算法具有很好地实用性.  相似文献   

12.
针对支持向量机要求输入向量为已标记样本,而实际应用中已标记样本很难获取的问题,提出将半监督学习和支持向量机结合的煤与瓦斯突出预测方法;介绍了采用SVM预测煤与瓦斯突出的流程及其输入向量的选择;对半监督学习中的协同训练算法进行了改进:在同一属性集上训练2个不同分类器SVM和KNN,将2个分类器标记一致的样本加入训练集,从而充分利用未标记样本不断补充信息,更新训练集标记样本,达到强化训练集的目的。测试结果表明,改进后的算法比单独的支持向量机预测方法准确率更高。  相似文献   

13.
多任务多核学习已逐渐成为在线学习算法研究的热点。对于数据流的处理,现有的在线学习算法在准确性上有一定的欠缺,因此提出一种新的多任务多核在线学习模型用于提高数据流预测的准确性。在保持多任务多核学习的基础上,将其扩展到在线学习中,从而得到一个新的在线学习算法;同时为输入数据保持一定大小的数据窗口,用较小空间换取数据的完整性。实验部分对核函数的选取以及训练样本集的大小进行了较为详细的分析,通过对UCI数据和实际的机场客流量数据进行分析,很好地保障了流数据处理的准确性及实时性,有一定的实际应用价值。  相似文献   

14.
针对现有文本分类方法在即时性文本信息上面临的挑战,考虑到即时性文本信息具有已标注数据规模小的特点,为了提高半监督学习的分类性能,该文提出一种基于优化样本分布抽样集成学习的半监督文本分类方法。首先,通过运用一种新的样本抽样的优化策略,获取多个新的子分类器训练集,以增加训练集之间的多样性和减少噪声的扩散范围,从而提高分类器的总体泛化能力;然后,采用基于置信度相乘的投票机制对预测结果进行集成,对未标注数据进行标注;最后,选取适量的数据来更新训练模型。实验结果表明,该方法在长文本和短文本上都取得了优于研究进展方法的分类性能。  相似文献   

15.
如何在受限时间内满足深度学习模型的训练精度需求并最小化资源成本是分布式深度学习系统面临的一大挑战.资源和批尺寸超参数配置是优化模型训练精度及资源成本的主要方法.既有工作分别从计算效率和训练精度的角度,对资源及批尺寸超参数进行独立配置.然而,两类配置对于模型训练精度及资源成本的影响具有复杂的依赖关系,既有独立配置方法难以...  相似文献   

16.
主动学习算法综述   总被引:1,自引:0,他引:1  
主动学习算法作为构造有效训练集的方法,其目标是通过迭代抽样,寻找有利于提升分类效果的样本,进而减少分类训练集的大小,在有限的时间和资源的前提下,提高分类算法的效率。主动学习已成为模式识别、机器学习和数据挖掘领域的研究热点问题。介绍了主动学习的基本思想,一些最新研究成果及其算法分析,并提出和分析了有待进一步研究的问题。  相似文献   

17.
现有的microRNA预测方法往往存在数据集类不平衡和适用物种单一的问题。针对以上问题,所做主要工作如下:1)提出基于序列熵的分层采样算法,该算法可在保持样本总体分布的基础上,采样生成正样本和负样本数量平衡的训练集;2)提出基于信噪比和相关性的特征选择,用于缩小训练集规模,以达到提高训练速度的目的;3)提出DS-GA算法,用于缩短SVM分类器参数的优化时间,达到减少过拟合的目的;4)结合集成学习的思想,经采样、特征选择、分类器参数优化3个步骤,建立了一种物种间通用的microRNA预测模型。实验表明,该模型有效解决了类不平衡问题,且不局限于单一物种,对混合物种的测试集预测取得了较好效果。  相似文献   

18.
时间序列预测方法综述   总被引:1,自引:0,他引:1  
时间序列是按照时间排序的一组随机变量,它通常是在相等间隔的时间段内依照给定的采样率对某种潜在过程进行观测的结果。时间序列数据本质上反映的是某个或者某些随机变量随时间不断变化的趋势,而时间序列预测方法的核心就是从数据中挖掘出这种规律,并利用其对将来的数据做出估计。针对时间序列预测方法,着重介绍了传统的时间序列预测方法、基于机器学习的时间序列预测方法和基于参数模型的在线时间序列预测方法,并对未来的研究方向进行了进一步的展望。  相似文献   

19.
周末  金敏 《计算机应用》2017,37(11):3317-3322
为了提高短期电力负荷预测精度,首次提出多算法多模型与在线第二次学习结合的预测方法。首先,利用互信息方法和统计方法对输入变量进行选择;然后,通过Bootstrap方法对数据集进行多样性采样,利用多个不同的人工智能算法和机器学习算法训练得到多个差异化较大的异构预测模型;最后,用每个待预测时刻最近一段时间的实际负荷值、第一次学习生成的多异构预测模型的负荷预测值构成新训练数据集,对新训练数据集进行在线第二次学习,得到最终预测结果。对中国广州市负荷进行预测研究,与最优单模型、单算法多模型和多算法单模型相比,在每日总负荷预测中,全年平均绝对百分误差(MAPE)分别下降了21.07%、7.64%和5.00%,在每日峰值负荷预测中,全年MAPE分别下降了16.02%、7.60%和13.14%。实验结果表明,推荐方法有效地提高了负荷预测精度,有利于智能电网实现节能降耗、调度精细化管理和电网安全预警。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号