首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
点击欺诈是近年来最常见的网络犯罪手段之一,互联网广告行业每年都会因点击欺诈而遭受巨大损失。为了能够在海量点击中有效地检测欺诈点击,构建了多种充分结合广告点击与时间属性关系的特征,并提出了一种点击欺诈检测的集成学习框架——CAT-RFE集成学习框架。CAT-RFE集成学习框架包含3个部分:基分类器、递归特征消除(RFE,recursive feature elimination)和voting集成学习。其中,将适用于类别特征的梯度提升模型——CatBoost(categorical boosting)作为基分类器;RFE是基于贪心策略的特征选择方法,可在多组特征中选出较好的特征组合;Voting集成学习是采用投票的方式将多个基分类器的结果进行组合的学习方法。该框架通过CatBoost和RFE在特征空间中获取多组较优的特征组合,再在这些特征组合下的训练结果通过voting进行集成,获得集成的点击欺诈检测结果。该框架采用了相同的基分类器和集成学习方法,不仅克服了差异较大的分类器相互制约而导致集成结果不理想的问题,也克服了RFE在选择特征时容易陷入局部最优解的问题,具备更好的检测能力。在实际互联网点击欺诈数据集上的性能评估和对比实验结果显示,CAT-RFE集成学习框架的点击欺诈检测能力超过了CatBoost模型、CatBoost和RFE组合的模型以及其他机器学习模型,证明该框架具备良好的竞争力。该框架为互联网广告点击欺诈检测提供一种可行的解决方案。  相似文献   

2.
网络在线广告中以套取广告费为目的的点击欺诈已经严重影响了网络广告的稳定发展。从FDMA2012竞赛提供的欺诈发布商检测的真实数据集出发,针对冗余特征会降低训练效率以及不平衡数据会使决策边界发生偏倚的问题,提出了一种基于集成特征选择的网络在线广告点击欺诈检测方法。采用Bagging方法和合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)相结合的方法将多数的正常点击广告发布商样本与少数的欺诈点击广告发布商样本构造为多个袋装子集,利用基于相关性度量的特征选择算法对每个袋装子集中筛选出特征子集,设置阈值得到特征合集,利用随机森林算法构建点击欺诈检测模型。实验结果表明该方法能够有效识别出实施欺诈点击行为的非法发布商,达到网络在线广告中点击欺诈检测的要求。  相似文献   

3.
针对高光谱图像(hyperspectral image)样本人工标记困难导致的样本数量不足的问题, 本文提出了一个结合注意力和空间邻域的少样本孪生网络算法. 它首先对高光谱图像进行PCA预处理, 实现数据降维; 其次, 对模型训练样本采用间隔采样和边缘采样的方式进行选取, 以有效减少冗余信息; 之后, Siamese network以大小不同的patch形式进行两两结合, 构建出样本对作为训练集进行训练, 不仅实现了数据增强的效果, 还能在提取光谱信息特征的同时, 充分提取目标像素光谱信息以及其周围邻域空间信息; 最后, 添加光谱维度的注意力模块以及空间维度的相似度度量模块, 分别对光谱信息和空间邻域信息进行权重分布, 以达到提升分类性能的目的. 实验结果表明, 本文提出的方法在部分公开数据集上对比常用方法取得了较好的实验效果.  相似文献   

4.
实体识别常利用分类器根据记录对的字段相似度向量将记录对分为匹配、不匹配和可能匹配,因此分类器的准确性与实体识别的准确性直接相关。为提高分类准确性,本文基于重采样和集成选择技术构建一个多分类器系统。充分利用实体识别的特点,在分类之前发现分类困难的样本,并使重采样比率在一个区间内变化,生成一组重采样样本;然后用重采样后的样本训练分类器构建一个并行多分类器系统,强调分类器之间的差异度和稀疏度,从该多分类器系统中选择最优分类器子集,即最优的重采样比率组合,分别用非线性规划和极值方法求解该集成选择模型。实验结果表明,本方法与现有的多分类器系统相比具有更高的准确性。  相似文献   

5.
构建了关于Web表格特征信息知识的领域本体,提出并设计了一种用于Web文本分类的二次分类模型。该模型使用支持向量机方法对测试样本进行第一次分类;由于设定了较高的分类阈值,一次分类后部分测试样本未确定所属类别,对于这些测试样本,抽取样本中的Web表格特征信息,与基于领域本体的分类模板进行相似度匹配,进行第二次分类。最后通过实验验证了该方法的可行性。  相似文献   

6.
知识图谱嵌入的主要任务是将实体与关系嵌入低维、连续的向量空间。在模型训练过程中,必须同时提供正负三元组。已有的负采样方法多使用均匀随机采样方法构造负样本,通过这种方式获得的负样本对于模型的训练贡献很小。基于生成对抗网络,生成器能够采样更多可信的负三元组,增强嵌入模型性能。然而,离散数据在使用遗传算法时存在梯度消失的问题。针对以上问题,提出一种融合实体邻域信息的知识图谱嵌入负采样方法。该方法基于生成对抗网络的框架,通过图卷积神经网络聚合实体在不同关系路径上的邻域信息,用以辅助生成器产生高质量的负样本,提高鉴别器的性能。同时,在鉴别器部分引入Wasserstein距离代替传统的散度,解决梯度消失问题,加速模型收敛。在链接预测任务和三元组分类任务上对所提方法的有效性进行验证,结果表明,该方法在链接预测任务中MR、MRR、Hits@10较基线模型分别平均提升4.18、9.19、10.18个百分点,在三元组分类任务中准确率平均提升4.50个百分点,充分证明实体邻域信息的融入能够进一步提升负样本质量,显著提升模型性能。  相似文献   

7.
基于对抗学习提出一种类dropout的具有新型栈式结构的层次支持向量机(D-S-SVM)。随机抽取一定比例的样本攻击其标签类型使其成为对抗样本,利用支持向量机对包含对抗样本的训练集进行对抗学习生成对抗支持向量机(A-SVM)。通过栈式结构原理逐层级联一定数量的子分类器(即A-SVM)构建D-S-SVM。在该模型中计算子分类器输出误差对输入样本的一阶梯度信息,并结合dropout将部分一阶梯度信息嵌入到原输入样本特征中生成新样本作为下一个子分类器的输入。该模型不仅提供了一种新颖的层次结构级联方式,且实验结果表明它能够逐层提高数据分类精度且具有较强的泛化性能。  相似文献   

8.
针对将JavaScript代码N-gram处理后识别算法特征维度较高的问题,提出一种高效的降维方法。该方法利用TF-IDF-like模型分别计算特征在正常样本和恶意样本中的权重,基于特征权重在两类样本中的差异度进行降维。基于多个识别算法,将提出的降维方法与基于主成分分析(Principal Component Analysis,PCA)的降维方法进行比较,实验结果表明:当识别算法维度相同时,基于本文所给降维方法的识别算法在识别效果方面优于基于PCA的识别算法;当降维后识别算法的维度超过某个阈值时,随着识别算法维度的增长,本降维方法的时间开销增长速率远低于PCA方法。  相似文献   

9.
对样本所含信息的提取能力决定网络模型进行小样本分类的效果,为了进一步提高模型挖掘信息的能力,提出一种结合多尺度特征与掩码图网络的小样本学习方法。设计由1×1卷积、全局平均池化和跳跃连接组成的最小残差神经网络块,与卷积块拼接成特征提取器,以提取样本不同尺度的特征,并通过注意力机制将不同尺度特征融合;使用融合的多尺度特征构建包含结点与边特征的图神经网络,并在其中加入一个元学习器(meta-learner)用于生成边的掩码,通过筛选边特征来指导图结点聚类与更新,进一步强化样本特征;通过特征贡献度和互斥损失改进类在嵌入空间表达特征的求解过程,提升模型度量学习能力。在MiniImagenet数据集上,该方法1-shot准确率为61.4%,5-shot准确率为78.6%,分别超过传统度量学习方法12.0个百分点与10.4个百分点;在Cifar-100数据集上分别提升9.7个百分点和6.0个百分点。该方法有效提升了小样本学习场景下的模型分类准确率。  相似文献   

10.
陈亮  潘惠勇 《计算机应用》2012,32(2):472-479
为了更合理地评估网络安全风险,利用云模型集成随机性和模糊性的优点,提出一种基于云模型的网络安全风险评估和决策方法。首先,通过采样系统正常状态信息,构造标准概念云;在进行风险评估时,采样处于风险状态时的信息,计算其云数字特征;然后利用改进的基于云滴距离的云相似度算法,计算与标准概念云的相似度,相似度最大的即为最终输出结果。最后,通过Kddcup99数据集进行模拟攻击及性能采样仿真实验。结果表明,该方法最大限度地保留了风险评估过程中固有的不确定性和模糊性,提高了评估结果的可信性。  相似文献   

11.
向欣  陆歌皓 《计算机应用研究》2021,38(12):3604-3610
针对现实信用评估业务中样本类别不平衡和代价敏感的情况,为降低信用风险评估的误分类损失,提出一种基于DESMID-AD动态选择的信用评估集成模型,根据每一个测试样本的特点动态地选择合适的基分类器对其进行信用预测.为提高模型对信用差客户(小类)的识别能力,在基分类器训练前使用过采样的方法对训练数据作类别平衡,采用元学习的方式基于多个指标进行基分类器的性能评估并在此阶段设计权重机制增强小类的影响.在三个公开信用评估数据集上,以AUC、一型、二型错误率以及误分类代价作为评价指标,与九种信用评估常用模型做比较,证明了该方法在信用评估领域的有效性和可行性.  相似文献   

12.
消费金融的欺诈检测是学术界和产业界的一个重要问题,现阶段比较流行的做法是利用机器学习方法通过提取用户的固有特征来实现。随着团伙化欺诈的出现,传统的机器学习方法在欺诈用户样本数量小及特征数据不足的情况下,显得无能为力。团伙欺诈用户之间有很强的关联关系,该文利用用户间的通话数据构建用户关联网络,通过网络统计指标和DeepWalk算法提取用户节点的图特征,充分利用图的拓扑结构信息和邻居节点信息,将其与用户固有特征一起作为特征输入,使用LightGBM模型对上述多种特征进行学习。实验结果表明,采用图表示学习方法后,AUC指标与仅使用用户固有特征相比提高了7.3%。  相似文献   

13.
郝宁  夏士雄  牛强  赵志军 《计算机应用》2015,35(11):3122-3125
针对多示例多标记学习算法MIMLBoost中退化过程造成的类别不平衡问题,运用人工降采样思想,引入类别重要度,提出一种改进的基于类别标记评估的退化方法.该方法通过对示例空间中的示例包进行聚类,把标记空间中的标记量化到聚类簇上,再以聚类簇为单位,利用TF-IDF算法对每个类别标记进行重要度评估和筛选,去除重要度低的标记,并将簇中的示例包与其余的类别标记拼接起来,以此来减少大类样本的出现,完成多示例多标记样本向多示例单标记样本的转化.在自然数据集上进行了实验,实验结果发现,改进算法的性能整体上优于原算法,尤其在Hamming loss、coverage、ranking loss三个评测指标上尤为明显,说明所提算法能够有效降低分类的出错率,提高算法的精度和分类效率.  相似文献   

14.
随着金融机构信用卡业务的快速发展,信用卡欺诈行为成为金融机构面临的严峻问题。针对金融机构信用卡数据分布不均衡问题,本文采用过采样、降采样、SMOTE+ENN、SMOTE+Tomeklin、改进的SMOTE+Tomeklin和改进的SMOTE+ENN混合采样这6种不同采样方法对不平衡数据进行平衡处理,然后将平衡数据集输入到多种分类算法模型中进行实验比对,最后提出一种基于改进的SMOTE+ENN混合采样和XGBoost算法的信用卡欺诈行为检测模型。通过5种评价指标验证该检测方法不仅提高了信用卡欺诈行为不平衡数据的区分度,同时提高了信用卡欺诈行为检测的准确性和可行性。  相似文献   

15.
社交网络新增恶意用户检测作为一项分类任务,一直面临着数据样本不足、恶意用户标注稀少的问题。在数据有限的情况下,为了能够精确地检测出恶意用户,提出一种基于自适应差异化图卷积网络的检测方法。该方法通过提取社交网络中的用户特征和社交关系构建社交网络图。构建社交网络图后,计算节点与邻居的相似度,并对邻居进行优先级排序,利用优先级顺序采样关键邻居。关键邻居的特征通过自适应权重的加权平均方式聚合到节点自身,以此更新节点特征。特征更新后的节点通过特征降维和归一化计算得到恶意值,利用恶意值判断用户的恶意性。实验表明该方法和其他方法相比,具有更高的恶意用户查全率和整体查准率,并且能够快速地完成对新增用户的检测,证明了自适应差异化图卷积网络能够有效捕捉到少量样本的关键特征。  相似文献   

16.
王宇昊  王铸 《遥感信息》2022,(5):108-115
鉴于目前基于深度学习的超分辨率重建算法存在实际应用精度低、训练样本处理效果差等问题,提出了一种新的遥感影像超分辨率重建算法。该方法将飞机和机场作为特定目标样本集,创立混合降质模型实现数据预处理,通过引入全局和局部残差学习策略改进深度卷积神经网络结构,再采用卷积层与反卷积层的图像特征融合重建高精度目标。该模型在多个目标数据集中训练,并采用多种主观和客观评估方法测试,与目前主流方法展开对比。实验结果表明,在定量指标评估中,在不同缩放因子下,该方法的峰值信噪比和结构相似度相对Bicubic、SRCNN、SRGAN、RFANet、EDSR和MCSR方法有较高提升。在分辨率卡的主观视觉评价中,该方法的有效分辨率提升倍数明显高于其他方法。该方法对遥感影像特定目标的超分辨率重建中获取细节特征信息的能力更高,重建目标拥有更高精度和清晰度,有利于航天对地观测的高精度图像解译和信息研判。  相似文献   

17.
针对现有机器学习算法难以有效提高贯序不均衡数据分类问题中少类样本分类精度的问题,提出一种基于混合采样策略的在线贯序极限学习机。该算法可在提高少类样本分类精度的前提下,减少多类样本的分类精度损失,主要包括离线和在线两个阶段:离线阶段采用均衡采样策略,利用主曲线分别构建多类和少类样本的可信区域,在不改变样本分布特性的前提下,利用可信区域扩充少类样本和削减多类样本,进而得到均衡的离线样本集,建立初始模型;在线阶段仅对贯序到达的多类数据进行欠采样,根据样本重要度挑选最具价值的多类样本,进而动态更新网络权值。通过理论分析证明所提算法在理论上存在损失信息上界。采用UCI标准数据集和实际的澳门空气污染预报数据进行仿真实验,结果表明,与现有在线贯序极限学习机(OS-ELM)、极限学习机(ELM)和元认知在线贯序极限学习机(MCOS-ELM)算法相比,所提算法对少类样本的预测精度更高,且数值稳定性良好。  相似文献   

18.
特征采样和特征融合的子图像人脸识别方法   总被引:3,自引:0,他引:3  
朱玉莲  陈松灿 《软件学报》2012,23(12):3209-3220
提出一种基于特征采样和特征融合的子图像人脸识别方法(RS-SpCCA).首先,对子图像进行特征采样;然后,将全局特征和采样后的特征使用CCA进行信息融合,以获取包含全局特征和局部特征的相关特征;最后,在相关特征上构建分量分类器.在该方法中,特征采样是为了构建更多且多样的分量分类器;而引入特征融合思想是为了充分利用图像的全局特征.AR,Yale和ORL这3个数据库上的实验结果表明,基于特征采样和特征融合的子图像方法(RS-SpCCA)优于单纯的信息融合方法(SpCCA)和特征采样方法(Semi-RS).  相似文献   

19.
基于固定滞后Gibbs采样粒子滤波的移动机器人SLAM*   总被引:2,自引:1,他引:1  
针对采用Rao-Blackwellized粒子滤波器的移动机器人同步定位与地图构建算法(RBPF-SLAM)所面临的粒子退化问题,提出了一种改进的采样方法。该方法在原有采样方法的基础上,加入一个用Gibbs采样实现的向后MCMC(Markov chain Monte Carlo)移动步骤,利用当前新获取的信息对机器人路径样本的最后一段进行调整,从而降低了样本退化的可能性。对比仿真实验验证了该方法的有效性。  相似文献   

20.
利用相似度多个维度的信息进行开集判别,以提高开集人脸识别的准确率。该方法首先通过大量带标识的测试样本获得已知类样本和非已知类样本相似度向量的分布,然后引入线性判别分析学习两个类中相似度向量的分布特征,在开集判别中通过相似度向量的特征匹配来判断样本是否为已知类。利用相似度分布中的分类信息,训练出的特征具有更强的分类能力。不同人脸库的实验表明,相对于传统方法,文中方法能提高开集识别的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号