首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
虚假招聘广告的泛滥不仅会损害求职者的合法权益,还会扰乱正常的就业秩序,造成求职者极差的用户体验。为了有效检测出虚假招聘广告,提出一种基于一致性训练的半监督虚假招聘广告检测模型(SSC)。首先,对所有数据应用一致性正则项提升模型的性能;然后,通过联合训练的方式整合有监督损失和无监督损失得到半监督损失;最后,使用半监督损失对模型进行优化。在两个真实数据集EMSCAD (EMployment SCam Aegean Dataset)和IMDB (Internet Movie DataBase)上的实验结果表明,SSC在标签数据仅为20时取得了最好的检测效果,准确率与现有先进的半监督学习模型UDA (Unsupervised Data Augmentation)相比提升了2.2和2.8个百分点,与深度学习模型BERT (Bidirectional Encoder Representations from Transformers)相比提升了3.4和11.7个百分点,同时还具有较好的可拓展性。  相似文献   

2.
语音欺骗是指通过录音、语音合成(Text-to-speech, TTS)、语音转换(Voice conversion, VC)等手段,将一段非法的、未经过自动说话人验证(Automatic speaker verification, ASV)系统认证的声音进行“修改仿冒”,以达到通过ASV系统检测的目的。随着人工智能和语音欺骗技术的发展,ASV系统在安全性方面遇到了严峻的挑战。检测输入ASV系统的语音的真实性,防止欺骗语音通过ASV的验证以提高ASV系统的安全性,是近年来语音领域研究的一个热点问题。国内外学者的最新研究从声学特征选取、识别模型选择等角度出发,探索了不同的语音欺骗方法对ASV系统的影响,并深入研究了相应的语音欺骗检测技术,在一定程度上提高了ASV系统的防欺骗性能。本文介绍了语音欺骗的基本方法,给出了语音欺骗检测的框架和典型声学特征,分两大类别总结了语音欺骗检测的主要方法和最新进展,梳理了目前语音欺骗检测中仍然存在的若干技术问题,并对语音欺骗检测技术的发展方向进行了展望。  相似文献   

3.
针对具有大段连续文本标注、但无时间标签的电视剧语音提出了一种半监督自动语音分割算法。首先采用原始的标注文本构建一个有偏的语言模型,然后将该语言模型以一种半监督的方式用于电视剧语音识别中,最后利用自动语音识别的解码结果对传统的基于距离度量、模型分类以及基于音素识别的语音分割算法进行改进。在英国科幻电视剧“神秘博士”数据集合上的实验结果表明,提出的半监督自动语音分割算法能够取得明显优于传统语音分割算法的性能,不仅有效解决了电视剧语音识别中大段连续音频的自动分割问题,还能对相应的大段连续文本标注进行分段,保证分割后各语音段时间标签及其对应文本的准确性。  相似文献   

4.
为提高合成语音转换效果,提出一种基于深度学习的合成语音转换方法。方法以StarGAN-VC2模型为语音转换模型,通过采用DFCNN模型对语音进行识别获取文本,采用Seq2Seq模型对识别结果进行机器翻译,并分别基于Fastspeech模型、Tacotron模型对汉语语音和英语语音进行合成,最后利用StarGAN-VC2模型进行语音转换,实现了汉语英语双语合成语音的转换。仿真结果表明,所提方法对汉语英语双语合成语音具有良好的转换效果,MOS和DMOS主观评分较高,对汉语-英语和英语-汉语转换后的语音MOS评分平均值分别为3.46和3.58,对汉语-英语和英语-汉语转换后的语音DMOS评分平均值分别为3.64和3.72,且转换后的波形图噪声较少,频谱图幅度较亮,满足合成语音转换质量需求。  相似文献   

5.
本文提出一种基于词格信息的置信度计算方法,估计自适应语音识别结果的可靠性,将不可靠的语音从自适应训练集中去掉,从而减小无监督自适应与有监督自适应间的性能差异,提高无监督自适应的性能。  相似文献   

6.
在入侵检测方法中,半监督学习作为一种特殊的学习形式,结合了监督学习与非监督学习在检测已知模式数据与未知模式数据方面各自的优点.据此,为进一步提高入侵检测系统的检测准确性,提出一种结合SVM与KMO(online kmeans)算法各自优点的半监督入侵检测模型.该模型首先利用SVM算法对全部的输入数据进行区分,然后将其认为的合法数据集用KMO算法分类,以该结果作为决策模块的输入并做出最终的响应.实验显示,文中模型比单独使用其中的任一种方法具有更高的检测准确率.由此可见,该模型对于实际的入侵检测系统具有实用价值.  相似文献   

7.
随着深度伪造技术的发展,合成语音检测面临越来越多的挑战。本文提出一种将辅助学习融入端到端模型的合成语音检测方法。将音频数据进行数据对齐后在不加提取任何手工特征的情况下直接输入到改进端到端模型,主任务进行真实语音与合成语音的二分类,同时选用不同合成语音类型判别作为辅助任务,为主任务的合成语音检测提供先验假设,并且对主辅任务的权重叠加进行了优化。通过在公开数据集ASVspoof2019及ASVspoof2015上进行的实验结果表明,本文改进的模型与使用手工特征的模型相比能有效降低等错率,且优于改进前的端到端模型,并且在面对未知攻击类型时拥有更好的泛化能力。  相似文献   

8.
提出了一种基于情感语音的差异检测与剔除的说话人识别方法,克服了前人的方法中需要在训练时提供测试说话人的情感语音或者需要在测试时提供测试语音的情感状态信息给系统的使用带来的不便性,并在识别性能上比传统的ASR系统提高4.7%。  相似文献   

9.
自动说话人验证(Automatic Speaker Verification,ASV)通过接收说话人的语音来提取说话人的语音特征,并在已经训练的模型上进行验证,最终识别输入语音的真伪,并判断说话人的身份。随着语音欺骗技术的发展,为保护ASV系统的安全性,需要提升反语音欺骗模型的性能。因此,文章提出基于深度学习的反语音欺骗模型。实验结果表明,该模型能够有效提高ASV系统的安全性。  相似文献   

10.

异常检测旨在识别偏离预期行为模式的数据. 虽然半监督异常检测方法可以充分利用有限的标签数据作为先验知识来提高检测准确性,但是收集到的标记异常(即已知异常)很难覆盖所有类型的异常并且在现实场景中往往存在着一些新型的异常(即未知异常),这些异常可能与已知异常表现出不同的特性,因此难以被现有的半监督异常检测方法识别. 针对该问题,提出了一种基于半监督学习的未知异常检测(semi-supervised unknown anomaly detection, SSUAD)方法,旨在同时识别已知异常和未知异常. 该方法利用闭集分类器对已知异常和正常分类,利用未知异常检测器检测未知异常. 此外,还考虑了异常场景中异常和正常极端不平衡的情况,设计了有效的数据增强方法来扩充异常样本的数量. 在UNSW-NB15和KDDCUP99数据集以及一个真实数据集SQB上进行了实验,实验结果表明,相较于现有的异常检测方法,SSUAD在异常检测性能指标AUC-ROC(area under receiver operating characteristic curve)和AUC-PR(area under precision-recall curve)上都有明显的提升. 证明了SSUAD的有效性和合理性.

  相似文献   

11.
以便携式回放设备的语音为代表的假冒语音攻击,给说话人识别系统带来了严峻的挑战.针对这种回放语音攻击问题,论文提出一种基于小波包的多频带回放语音鉴别算法.首先,通过小波包分解及重构后的信号进行傅里叶变换,取每一帧频谱的最大值;然后,利用对数运算以及离散余弦变换(DCT)来得到鉴别特征;最后,使用高斯混合模型(GMM)作为...  相似文献   

12.
土家语是一种典型的濒危语言,因其母语人少、无文字、仅以口语形式存在等低资源性,很难典藏大量带标注的语音,导致其消亡速度日益加快,因此挽救和保护濒危语言迫在眉睫.针对上述问题,建立了一种基于多头注意力机制的端到端濒危语言语音识别模型.通过语音时域伸缩技术(time-scale-modification,TSM)改变土家语...  相似文献   

13.
针对如何优化深度学习技术在海量高维复杂的无线网络流量数据中有效发现异常攻击行为的问题,提出一种基于半监督学习的无线网络攻击行为检测优化方法(WiFi network attacks detection optimization method, WiFi-ADOM).首先基于无监督学习模型栈式稀疏自编码器提出2种网络流量特征表示向量:新特征值向量和原始特征权重值向量.然后利用原始特征权重值向量初始化监督学习模型深度神经网络的权重值得到网络攻击类型的预判结果,并通过无监督学习聚类方法Bi-kmeans对网络流量的新特征值向量进行聚类以生成未知攻击类型判别纠正项.最后结合预判结果和未知攻击类型判别纠正项,得到网络攻击类型的最终判定结果.通过和已有研究方法对比,在公开无线网络攻击行为数据集AWID上验证了WiFi-ADOM方法对网络攻击行为检测的优化性能,同时探索了与网络攻击检测相关的重要特征属性的问题.实验结果表明:WiFi-ADOM方法在保证准确率等检测性能的同时能够有效检测未知攻击类型,具备优化网络攻击行为检测的能力.  相似文献   

14.
针对支持向量机方法在标记用户数据不充分的情况下无法有效实现托攻击检测的不足,提出一种基于SVM-KNN的半监督托攻击检测方法。根据少量标记用户数据训练一个初始SVM分类器,利用初始SVM对大量未标记用户数据进行分类,挑选出分类边界附近有可能成为支持向量的样本点,利用KNN分类器优化边界向量的标记质量,再将重新标注过的边界向量融入训练集,迭代训练逐步改善SVM的分类边界,最终获得系统决策函数。实验结果表明在标记用户数据较少的情况下,方法能有效提高托攻击的检测精度和效率,具有较强的推广能力。  相似文献   

15.
钱燕燕  李永忠  余西亚 《计算机科学》2015,42(2):134-136,146
机器学习所关注的问题是系统如何随着经验积累自动提高分类性能,这与入侵检测通过对外界入侵进行自我学习来提高其检测率和降低误报率是一致的。因此把机器学习的理论和方法引入到入侵检测中已成为一种有效方案。文中结合多标记与半监督学习理论,将ML-KNN算法应用于入侵检测系统。在KDD CUP99数据集上的仿真结果表明,该方法在入侵检测中能获得高检测率和低误报率。  相似文献   

16.
提出了一种基于指数门限(ET)的端点检测方法.ET法为短时能量的概密函数(PDF)建立起统一的语音和噪声模型,根据当前语音数据的信噪比估计出最优的检测门限,并给出了最优检测门限的指数型公式.在“八六三”大词汇量连续语音数据库上的实验结果表明,ET法具有较好的检测性能,在噪声环境中表现出较好的稳健性,信噪比为0 dB时,检测正确率可达89.5%.在信噪比为0~15dB时,检测正确率要明显高于基本能量法、对数能量聚类法(LEC)以及χ2法等语音检测(VAD)方法.  相似文献   

17.
基于半监督学习的眉毛图像分割方法   总被引:2,自引:1,他引:1       下载免费PDF全文
眉毛图像的分割,由于受到毛发、姿势及个体差异的影响,是一个非常困难的问题。提出了一种利用半监督学习技术进行彩色眉毛图像分割的方法,首先通过手工在眉毛图像上简单画上几条线标注部分眉毛点和非眉毛点,然后利用半监督学习技术完成眉毛图像分割并从中提取纯眉毛图像,最后通过实验说明该方法具有非常好的分割效果,可用于眉毛识别的前期预处理。  相似文献   

18.
传统的有监督度量学习算法没有利用大量存在的无标记样本,且得到的度量矩阵复杂,难以了解不同原始特征的重要程度。针对这些情况,提出基于半监督假设的半监督稀疏度量学习算法。根据三样本组约束建立间隔损失函数;基于平滑假设、聚类假设、流形假设这三个半监督假设建立半监督正则项,并利用L_1范数建立稀疏正则项;利用梯度下降法求解目标函数。实验结果表明,该算法学习得到的度量能有效地使不同类别的样本间距离增大,度量矩阵具有稀疏性,分界面穿过低密度区域,该算法在UCI的样本数据集上具有良好的分类准确性。  相似文献   

19.
网络流量数据的获取较为容易,而对流量数据进行标记相对困难。半监督学习利用少量有标签数据和大量无标签数据进行训练,减少了对有标签数据的需求,能较好适应海量网络流量数据下的异常检测。文章对近年来的半监督网络异常检测领域的论文进行深入调研。首先,介绍了一些基本概念,并深入剖析了网络异常检测中使用半监督学习策略的必要性;然后,从半监督机器学习、半监督深度学习和半监督学习结合其他范式三个方面,分析和比较了半监督网络异常检测领域近年来的论文,并进行归纳和总结;最后,对当前半监督网络异常检测领域进行了现状分析和未来展望。  相似文献   

20.
《软件》2019,(12):183-187
针对语音签到系统在实际运用中识别率较低的问题,从提高对标签缺失数据的利用角度出发,提出一种利用无监督学习来提高识别率的方法。该方法基于深度置信网络隐马尔可夫混合模型(DBN-HMM),利用受限波尔茨曼机(RBM)为无监督学习提取特征参数,接着利用深度置信网络(DBN)得到对原始数据的观测概率。隐马尔可夫(HMM)据此通过前向算法求出数据的似然概率,并将概率值最大的类别作为识别结果。实验表明,使用DBN-HMM模型可以有效利用存在标签缺失的数据,提高语音签到系统的识别能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号