共查询到18条相似文献,搜索用时 68 毫秒
1.
特征交互的建模对于推荐系统中预测用户的点击率至关重要。设计了增强型高阶注意力因子分解机模型EHAFM(enhanced high-order attentive factorization machine),其主要由Embedding层、显式特征交互层、输出层构成。在每个显式特征交互层中,通过聚合其他特征的表示来更新特征的表示,并针对无用特征交互对预测产生干扰的问题,提出了增强型元素级注意力机制,利用投影矩阵拓展特征表示空间,以增强注意力矩阵的学习能力。通过融合多个增强型元素级注意力头的信息,以解决模型泛化能力不足问题。通过堆叠显式特征交互层可以将特征表示更新到任意高阶,将高阶特征交互部分与一阶线性部分结合进行点击率预测。EHAFM模型在Criteo、Movielens-1M两个数据集上进行实验,结果表明相较基准模型在两个数据集上分别有0.21%和0.92%的AUC提升。 相似文献
2.
因子分解机(简称为FM)是最近被提出的一种特殊的二阶线性模型,不同于一般的二阶模型,FM对二阶项系数进行了分解,这种特殊的结构使得FM特别适用于高维且稀疏的数据。虽然FM在推荐系统领域已获得了应用,但FM本身并未显式考虑变量的稀疏性,特别当变量中包含结构稀疏信息时。因此,FM的二阶特征结构使其特征选择时应当满足这样一种性质,即涉及同一个特征的线性项和二阶项要么同时被选要么同时不被选,当该特征是噪音时,应当同时不被选,而当该特征是重要变量时,应当同时被选。考虑到这种结构特性,本文提出了一种基于稀疏组Lasso的因子分解机(SGL-FM),通过添加稀疏组Lasso的正则项,不仅实现了组间稀疏,还实现了组内稀疏。从另一个角度看,组内稀疏也相当于对因子分解的维度k进行了控制,使其能根据数据的不同而自适应地调整维度k。实验结果表明,本文提出的方法在保证了相当精度甚至更优精度的情况下,获得了比FM更稀疏的模型。 相似文献
3.
可靠的电力供应对于工业生产和居民日常生活至关重要,通过对电力数据平台中的停电数据进行分析和挖掘,可以更好地了解配电网停电的潜在规律。分类预测是数据挖掘和分析中的常见技术,停电分类预测可以为企事业单位的停电规划安排提供决策参考。针对停电分类预测问题,提出一种基于因子分解机(FM)的停电数据分类预测模型。利用决策树算法计算停电数据中不同特征的基尼系数以得出重要性得分,从中筛选与停电预测关联度较大的非稀疏特征。根据不同地区的地理位置关系构建不同地区间的空间位置矩阵,并通过矩阵分解的方式构造不同地区在空间上的地理位置关联特征。为防止FM模型出现过拟合问题,在模型中加入L2-范数正则化。在此基础上,利用随机梯度下降的方法训练FM模型,通过训练完成的FM模型对停电数据进行分类预测。在真实停电数据集上的实验结果表明,该模型在训练数据集和测试数据集上的F1值和准确率分别高达0.90和0.89,优于DNN、SVM、XGBoost等模型。 相似文献
4.
场感知分解机模型FFM能够有效解决高维数据特征组合的稀疏问题且具有较高的预测准确度和计算效率,广泛应用于推荐系统领域. FFM在建模时没有考虑时间动态性因素,而真实场景中部分特征值会随着时间发生变化,并在不同时间段对预测影响程度不同.鉴于此,提出一种基于时间动态性的场感知分解机模型tFFM.该模型考虑两类时间动态性:偏置动态性和特征动态性.前者从用户行为和物品流行趋势变化角度分别进行动态建模,并基于时间窗口技术设置不同粒度的时间因子;后者将特征细分为随时间变化的动态特征和保持稳定的静态特征,采用ReLU激活函数建立时间函数.采用统一特征编码方式,并设计一种样本数据生成和存取策略,能够大幅降低模型的训练和预测时间复杂度.利用随机优化方法 Adam对目标进行优化,实验结果表明, tFFM比目前广泛应用的FM和FFM相关方法具有更高的预测准确度. 相似文献
5.
因子分解机(factorization machine,简称FM)模型因为能够有效解决高维数据特征组合的稀疏问题且具有较高的预测精度和计算效率,在广告点击率预测和推荐系统领域被广泛研究和应用.对FM及其相关模型的研究进展进行综述,有利于促进该模型的进一步改进和应用.通过比较FM模型与多项式回归模型和因子分解模型之间的关联关系,阐述FM模型的灵活性和普适性.从特征的高阶交互、特征的场交互、特征的分层交互以及基于特征工程的特征提取、合并、智能选择和提升等角度,总结模型在宽度扩展方面的方法、策略和关键技术.比较和分析了FM模型与其他模型的集成方式和特点,尤其是与深度学习模型的集成,为传统模型的深度扩展提供了思路.对FM模型的优化学习方法和基于不同并行与分布式计算框架的实现进行概括、比较和分析.最后,对FM模型中有待深入研究的难点、热点及发展趋势进行展望. 相似文献
6.
在推荐系统中,因评分尺度差异而造成的偏差问题一直影响着协同过滤算法的预测准确性。其中针对矩阵因子分解算法中的偏差问题,本文提出一种基于高阶偏差的因子分解机算法。该算法首先按照评分偏差的现实特征对用户和项目进行划分,再将偏差类别作为辅助特征集成到因子分解机中,实现了评分预测中不同偏差用户、项目的高阶交互。在Movielens数据集上的实验结果表明,相比传统矩阵因子分解算法,本文提出的算法具有更低的预测误差,体现了其更好的推荐性能。 相似文献
7.
因子分解机(FM)自提出以来已被广泛用于推荐系统,为了捕捉特征间的二阶交互,FM将任意两个特征的二阶系数表示成欧氏空间中对应嵌入向量的内积。考虑到推荐场景中的对象如商品、用户、属性、上下文信息等,可用具有层次结构的异构网络进行表达,而平坦的欧氏空间无法刻画这种层次结构,限制了FM的特征表示能力,为此提出了双曲因子分解机(HFM)。它将每维特征表示为双曲空间而非欧氏空间中的向量,并利用双曲距离度量评估特征间的二阶交互强度。选择双曲空间是因为其被证明更适合树、图和词汇等具有层次结构的对象嵌入。分别设计了基于庞加莱球和基于双曲面两种双曲空间模型的HFM,并导出了对应的黎曼梯度下降优化算法。在多个数据集上的实验结果表明,HFM在等量参数的情形下,获得了比FM更优的性能,同时揭示出了在FM中欠缺的特征间的层次关系,使之具有部分可解释性。 相似文献
8.
因子分解机(Factorization Machine,FM) 算法是一种基于矩阵分解的机器学习算法,可用于求解回归、分类和排序等问题。FM模型中的参数求解使用的是基于梯度的优化方法,然而在样本较少的情况下,该优化方法收敛速度慢,且易陷入局部最优。差分进化算法(Differential Evolution,DE)是一种启发式的全局优化算法,具有收敛速度快等特性。为提高FM模型的训练速度,利用DE计算FM模型参数,提出了DE-FM算法。在数据集Diabetes、HorseColic以及音乐分类数据集Music上的实验结果表明,改进后的基于差分进化的因子分解机算法DE-FM在训练速度和准确性上均有所提高。 相似文献
9.
随着Web信息的不断增长与发展,对用户稀疏行为的预测已成为目前推荐系统的研究热点.近年来,因子分解机(factorization machine, FM)的提出在一定程度上缓解了稀疏场景下预测精度不准确的问题.它的主要思想是通过2阶特征交互来获取特征间丰富的语义关系.随后,感知交互因子分解机(interaction-aware factorization machines, IFM)在FM的特征交互基础上引入类别交互的概念来扩展潜在的交互特性,通过把特征和类别分别进行交互后再融合来得到更准确的预测结果.在IFM的基础上,提出了一种特征-类别交互因子分解机(FIFM)模型.FIFM不仅保留了特征交互和类别交互机制,还设计了一种新的特征-类别交互机制(FIM)来进一步挖掘交互信息中的有效信息,并利用融合交互感知来预测不同稀疏场景下的用户行为模式.此外,还基于深度学习提出了一种实现FIFM的神经网络模型GFIM.相比于FIFM,GFIM的参数量和时间复杂度更高,但同时也能捕获更多高阶的非线性特征交互信息,能适合算力较高的应用场景.在4个真实数据集上的实验结果表明,FIFM和GFIM在RMSE指标上超越了当前最好的方法IFM.实验工作探究了多类稀疏场景下的预测结果,记录了时间和空间复杂度的消耗情况,并进行了分析讨论. 相似文献
10.
对于许多在线电商,预测用户购买商品的可能性至关重要。由于用户与商品的交互通常是高维且稀疏的,所以深度因子分解机算法(DeepFM)将因子分解机算法(FM)与深度神经网络(DNN)结合在一起,用FM处理低阶特征组合,用DNN处理高阶特征组合,通过并行的方式组合这2种方法,很好地解决了高维稀疏的问题。但是,它忽略了用户购买商品的先后性问题,也就是时间上下文信息。针对这一缺陷,本文提出一种融合注意力(Attention)与DeepFM的时间上下文推荐模型(DeepAFM),更好地利用用户与商品交互的时间上下文信息,相比较于未加入时间上下文信息的DeepFM模型,AUC提升了1.84%。对比验证结果表明,DeepAFM模型具有更优越的性能。 相似文献
11.
点击率预测是在线广告和推荐系统的基本任务之一. 主流模型通常通过对高阶和低阶特征进行特征交互建模来提升性能和泛化能力. 然而, 许多模型往往仅学习每个特征的固定表示, 而忽视了特征在不同上下文中的重要性, 并且一些模型结构过于简单. 因此, 本文提出了特征细化卷积神经网络融合场矩阵分解机(FRCNN-F)模型, 以解决这些问题. 首先, 在特征细化网络(FRNet)中融合了卷积神经网络的特征生成模块, 利用其在局部模式下重新组合生成新特征的优势, 提升了重要特征选择能力. 其次, 设计了场矩阵分解机, 使模型能够感知上下文并通过不同场的交互进行显示建模, 从而增加了子模型的组合方式. 最后, 通过在 Frappe 和 MovieLens 两个公开数据集上对比实验, 实验结果表明, FRCNN-F模型相比基线FRNet在AUC得分分别提升了0.32%和0.40%, 交叉熵损失函数Logloss分别降低了1.50%和1.11%. 该研究对于实现广告的精准投放和个性化推荐具有实际应用的价值. 相似文献
12.
为了能够及时了解Spark环境下经典聚类算法K-means的最新研究进展,把握K-means算法当前的研究热点和方向,针对K-means算法的初始中心点优化研究进行综述。首先介绍了内存计算框架Spark和K-means算法,并分析了K-means算法聚类不稳定性的成因和影响,其目的在于指出优化K-means算法的重要性;详细介绍了目前在Spark环境下优化K-means初始中心点的主要方法和最新研究现状,并展望了K-means初始中心点优化问题的未来研究方向。 相似文献
13.
协同过滤推荐算法中的矩阵分解因其简单、易于实现,得到了广泛的应用.但是矩阵分解通过简单的线性内积建模用户和物品之间的非线性交互关系,限制了模型的表达能力.为此,He等人提出了广义矩阵分解模型,通过非线性激活函数和连接权重,将矩阵分解推广到广义矩阵分解,为模型赋予建模用户和物品间的二阶非线性交互关系的能力.但是广义矩阵分解模型是一个浅层模型,并不能很好地建模用户和物品间高阶交互关系,一定程度上可能会影响模型性能.受广义矩阵分解模型启发,提出了深度矩阵分解模型(deep matrix factorization,简称DMF),在广义矩阵分解模型的基础上引入隐藏层,利用深层神经网络来学习用户和物品间高阶交互关系.深度矩阵分解模型不仅解决了简单内积的线性问题,同时还能够建模用户和物品间的高阶交互,具有很好的表达能力.此外,在MovieLens和Anime两个数据集上进行了大量丰富的对比实验,验证了模型的可行性和有效性;同时,通过实验确定了模型的最优参数. 相似文献
14.
机器学习问题通常会转换成一个目标函数去求解,优化算法是求解目标函数中参数的重要工具.在大数据环境下,需要设计并行与分布式的优化算法,通过多核计算和分布式计算技术来加速训练过程.近年来,该领域涌现了大量研究工作,部分算法也在各机器学习平台得到广泛应用.本文针对梯度下降算法、二阶优化算法、邻近梯度算法、坐标下降算法、交替方向乘子算法五类最常见的优化方法展开研究,每一类算法分别从单机并行和分布式并行来分析相关研究成果,并从模型特性、输入数据特性、算法评价、并行计算模型等角度对每个算法进行详细对比.随后对有代表性的可扩展机器学习平台中优化算法的实现和应用情况进行对比分析.同时对本文中介绍的所有优化算法进行多层次分类,方便用户根据目标函数类型选择合适的优化算法,也可以通过该多层次分类图交叉探索如何将优化算法应用到新的目标函数类型.最后分析了现有优化算法存在的问题,提出可能的解决思路,并对未来研究方向进行展望. 相似文献
15.
基于遗传算法和支持向量机的肿瘤分子分类 总被引:1,自引:0,他引:1
提出了一种基于遗传算法(GA)和支持向量机(SVM)的用于肿瘤分子分类和特征基因选择的新方法。该方法针对基因表达数据样本少维数高的特点,先根据基因的散乱度滤掉大量分类无关基因,而后使用相关性分析去除分类冗余基因,得到一个候选基因子集,用遗传算法搜索候选特征基因空间,发现在支持向量机分类器上具有好的分类性能的且含基因个数较少的特征子集。把这种GA/SVM方法应用到结肠癌和急性白血病基因表达谱,能选出多个取得较高分类精度的较小基因子集,实验结果表明了该方法的有效性。 相似文献
16.
推荐系统是解决信息过载的有效途径。传统的推荐系统难以从海量数据中推选出 符合用户个性化偏好的项目,推荐质量不高。为此,通过优化传统的协同过滤推荐算法,针对 数据稀疏性等问题,提出协同回归模型的矩阵分解算法(CLMF)。通过机器学习算法发掘内容信 息的深层次特征,提升了原始数据的信息量;并构建辅助特征矩阵,通过融合特征矩阵,CLMF 最大化了特征标签的作用,并结合数据标签,语义信息和评分矩阵得到推荐算法框架。在真实 数据集上实验结果显示,新型推荐算法可有效解决特征值缺失问题,改善了数据稀疏性,提升 了算法扩展性,并显著增强覆盖性。 相似文献
17.
支持向量机最优模型选择的研究 总被引:18,自引:0,他引:18
通过对核矩阵的研究,利用核矩阵的对称正定性,采用核校准的方法提出了一种SVM最优模型选择的算法——OMSA算法.利用训练样本不通过SVM标准训练和测试过程而寻求最优的核参数和相应的最优学习模型,弥补了传统SVM在模型选择上经验性强和计算量大的不足.采用该算法在UCI标准数据集和FERET标准人脸库上进行了实验,结果表明,通过该算法找到的核参数以及相应的核矩阵是最优的,得到的SVM分类器的错误率最小.该算法为SVM最优模型选择提供了一种可行的方法,同时对其他基于核的学习方法也具有一定的参考价值. 相似文献
18.
支持向量机训练和实现算法综述 总被引:26,自引:2,他引:26
支持向量机是在统计学习理论基础上发展起来的一种新的机器学习方法,支持向量机已成为目前研究的热点,并在模式识别、回归分析、函数估计等领域有了广泛的应用。该文在介绍了支持向量机的目前研究、应用状况和新进展的基础上,对支持向量机训练和实现算法进行了综述,最后指出了进一步研究和应用亟待解决的一些问题。 相似文献