共查询到20条相似文献,搜索用时 234 毫秒
1.
稳定学习的目标是利用单一的训练数据构造一个鲁棒的预测模型,使其可以对任意与训练数据具有相似分布的测试数据进行精准的分类.为了在未知分布的测试数据上实现精准预测,已有的稳定学习算法致力于去除特征与类标签之间的虚假相关关系.然而,这些算法只能削弱特征与类标签之间部分虚假相关关系并不能完全消除虚假相关关系;此外,这些算法在构建预测模型时可能导致过拟合问题.为此,提出一种基于实例加权和双分类器的稳定学习算法,所提算法通过联合优化实例权重和双分类器来学习一个鲁棒的预测模型.具体而言,所提算法从全局角度平衡混杂因子对实例进行加权来去除特征与类标签之间的虚假相关关系,从而更好地评估每个特征对分类的作用.为了完全消除数据中部分不相关特征与类标签之间的虚假相关关系以及弱化不相关特征对实例加权过程的干扰,所提算法在实例加权之前先进行特征选择筛除部分不相关特征.为了进一步提高模型的泛化能力,所提算法在训练预测模型时构建两个分类器,通过最小化两个分类器的参数差异来学习一个较优的分类界面.在合成数据集和真实数据集上的实验结果表明了所提方法的有效性. 相似文献
2.
针对标签随着时间变化的动态多标签文本分类问题,提出了一种基于标签语义相似的动态多标签文本分类算法。该算法在训练阶段,首先按照标签固定训练得到一个基于卷积神经网络的多标签文本分类器,然后以该分类器的倒数第二层的输出为文本的特征向量。由于该特征向量是在有标签训练得到的,因而相对于基于字符串即文本内容而言,该特征向量含有标签语义信息。在测试阶段,将测试文档输入训练阶段的多标签文本分类器获取相应的特征向量,然后计算相似性,同时乘以时间衰减因子修正,使得时间越近的文本具有较高的相似性。最后,采用最近邻算法分类。实验结果表明,该算法在处理动态多标签文本分类问题上具有较优的性能。 相似文献
3.
半监督算法作为一种能有效利用大量的未标签数据来改善少量的标签数据训练出来的分类器性能的算法,无论在理论上还是实践上都很有意义。提出一种基于密度敏感距离的协同训练算法,通过引入一种能有效描述数据的内在聚类分布的距离度量,来改善用组合分类器在少量数据集上得到的弱分类器,实验表明该方法是有效的。 相似文献
4.
基于浮动阈值分类器组合的多标签分类算法 总被引:1,自引:0,他引:1
针对目标可以同时属于多个类别的多标签分类问题,提出了一种基于浮动阈值分类器组合的多标签分类算法.首先,分析探讨了基于浮动阈值分类器的AdaBoost算法(AdaBoost.FT)的原理及错误率估计,证明了该算法能克服固定分段阈值分类器对分类边界附近点分类不稳定的缺点从而提高分类准确率;然后,采用二分类(BR)方法将该单标签学习算法应用于多标签分类问题,得到基于浮动阈值分类器组合的多标签分类方法,即多标签AdaBoost.FT.实验结果表明,所提算法的平均分类精度在Emotions数据集上比AdaBoost.MH、ML-kNN、RankSVM这3种算法分别提高约4%、8%、11%;在Scene、Yeast数据集上仅比RankSVM低约3%、1%.由实验分析可知,在不同类别标记之间基本没有关联关系或标签数目较少的数据集上,该算法均能得到较好的分类效果. 相似文献
5.
分类问题是数据挖掘领域的研究热点之一。多标签分类器可以将数据对象预测为多个类别,训练集中属性相同但对应类标签不同的对象的数目是不平衡的,而现有的评估算法并未能区分其代价。提出了一种基于不同权重的准确性评估方法EMOWDIF,根据多标签数据对象属于相同属性不同类别的数目之间的比值计算相应的权重,对分类器模型给予不同程度的奖惩,从而区分不同分类器的性能。方法用编程实现,并对多标签数据集的分类结果进行评估。实验结果表明该方法能有效评估分类器。 相似文献
6.
检测恶意URL对防御网络攻击有着重要意义. 针对有监督学习需要大量有标签样本这一问题, 本文采用半监督学习方式训练恶意URL检测模型, 减少了为数据打标签带来的成本开销. 在传统半监督学习协同训练(co-training)的基础上进行了算法改进, 利用专家知识与Doc2Vec两种方法预处理的数据训练两个分类器, 筛选两个分类器预测结果相同且置信度高的数据打上伪标签(pseudo-labeled)后用于分类器继续学习. 实验结果表明, 本文方法只用0.67%的有标签数据即可训练出检测精确度(precision)分别达到99.42%和95.23%的两个不同类型分类器, 与有监督学习性能相近, 比自训练与协同训练表现更优异. 相似文献
7.
已有的数据流分类算法多采用有监督学习,需要使用大量已标记数据训练分类器,而获取已标记数据的成本很高,算法缺乏实用性。针对此问题,文中提出基于半监督学习的集成分类算法SEClass,能利用少量已标记数据和大量未标记数据,训练和更新集成分类器,并使用多数投票方式对测试数据进行分类。实验结果表明,使用同样数量的已标记训练数据,SEClass算法与最新的有监督集成分类算法相比,其准确率平均高5。33%。且运算时间随属性维度和类标签数量的增加呈线性增长,能够适用于高维、高速数据流分类问题。 相似文献
8.
《计算机应用与软件》2018,(1)
为了减少视频目标跟踪中的累积误差,提出一种基于改进提升模型的视频目标跟踪算法。该算法结合样本有标签数据和无标签数据信息,基于半监督学习的思想,对有标签数据和无标签数据分别设计基于改进提升学习模型的分类器;将两个分类器进行加权组合,形成一个强分类器;将样本采集融合于目标跟踪的分类器学习中,有效解决了跟踪中随目标外观变化而造成的误差累积问题,提高了目标跟踪的鲁棒性。 相似文献
9.
10.
11.
域名系统(DNS)作为互联网运行必不可少的基础设施,它能将易记的域名转换成互联网资源的IP地址。DNS由于天然的开放性,导致其备受安全问题困扰。而隐私问题则是近些年DNS安全上的热点问题。通过回顾DNS的查询操作,分析了DNS查询每个环节可能存在的隐私隐患,发现DNS受到的隐私攻击主要有链路上窃听和服务器上的隐私收集。结合近些年DNS隐私的相关的研究,分析了DNS上可能泄漏的隐私数据、影响范围以及可能带来的危害。整理了目前已知的解决方案,分析对比了各种方案在可靠性、匿名化程度、可部署性上的表现。最后从技术、部署难度和法律层面为后续研究提供了一些建议。 相似文献
12.
13.
设计了DNS解析统计向量和检测特征向量,提出了一种基于命名及解析行为特征的异常域名检测方法,通过应用真实DNS解析数据的实验验证了该方法的有效性和可行性。实验表明,该方法较现有方法能够发现更多的异常域名,且具有较低的误报率。该方法是对现有方法检测能力的补充和提高,为僵尸网络等安全事件的检测与控制提供有效的信息支持和技术手段。 相似文献
14.
基于域名系统(DNS)的DNS重绑定攻击能够有效绕过同源策略、防火墙,窃取敏感信息,控制内网设备,危害巨大。DNS重绑定需要通过设置恶意域名才能实现。针对DNS重绑定相关恶意域名的检测问题,文章提出一种基于被动DNS数据分析的DNS重绑定攻击检测模型(DNS Rebinding Classifier,DRC)。通过引入被动DNS数据,从域名名称、时间、异常通信及恶意行为等4个测度集刻画DNS重绑定相关域名;基于C4.5决策树、KNN、SVM及朴素贝叶斯等分类方法对数据进行混合分类、组合训练及加权求值。交叉验证实验表明,DRC模型对相关恶意域名的识别能够达到95%以上的精确率;与恶意域名检测工具FluxBuster进行对比,DRC模型能够更准确地识别相关恶意域名。 相似文献
15.
鉴于失败的DNS查询(failed DNS query)能提供恶意网络活动的证据,以DNS查询失败的数据为切入口,提出一种轻量级的基于Counting Bloom Filter的DNS异常检测方法。该方法使用带语义特征的可逆哈希函数对被查询的域名及发起查询的IP进行快速的聚类和还原。实验结果证明该方法能以较少的空间占用和较快的计算速度有效识别出DNS流量中的异常,适用于僵尸网络、分布式拒绝服务(DDoS)攻击等异常检测的前期筛选和后期验证。 相似文献
16.
17.
18.
通过分析校园网多出口环境下与公网实现高速互访所需解决的问题,研究使用动态DNS、策略路由、NAT等关键技术实现不同的源/目的地址的数据包经由最佳路径策略所选择的出口发送/接收,以及在公网及CERNET访问校内域名时DNS动态解析出属于各自网内的IP地址,提出了应用于多出口校园网环境下与公网高速互访的实际方案,实现了校园网对外网提供高速网络服务,以及访问外网路由最优化. 相似文献
19.
20.
本文简要介绍EPC(Electronic Product Code,产品电子代码)物联网的组成和工作方式。结合TCP/IP网络中DNS(Domain Name System,域名系统)技术规范,重点探讨ONS(Object Naming Services,对象名解析服务)的系统架构及实现原理,分析ONS可能存在的安全隐患及防范对策。本研究对深入钻研EPC物联网中ONS的工作机制具有参考价值,对安全部署EPC系统具有一定的借鉴意义。 相似文献