首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 122 毫秒
1.
随着互联网的快速发展,文本信息量巨大,大规模的文本处理已经成为一个挑战。文本处理的一个重要技术便是分类,基于SVM的传统文本分类算法已经无法满足快速的文本增长分类。于是如何利用过时的历史文本数据(源任务数据)进行迁移来帮助新产生文本数据进行分类显得异常重要。文章提出了基于半监督的SVM迁移学习算法(Semi-supervised TL_SVM)来对文本进行分类。首先,在半监督SVM的模型中引入迁移学习,构建分类模型。其次,采用交互迭代的方法对目标方程求解,最终得到面向目标领域的分类器。实验验证了基于半监督的SVM迁移学习分类器具有比传统分类器更高的精确度。  相似文献   

2.
基于SVDD的半监督入侵检测研究   总被引:1,自引:0,他引:1  
提出了一种基于SVDD的半监督入侵检测算法.该算法利用少量有标记正常网络数据建立两个SVDD分类器,通过相互学习来挖掘未标记数据中的隐含信息,扩大有标记正常网络数据的数量.再利用所有已标记正常网络数据用不同的单分类方法建立多个单类分类器,通过集成学习的方法得到最终的分类器.实验表明,该算法具有良好的识别性能.  相似文献   

3.
盛凯  刘忠  周德超  魏启航  冯成旭 《电子学报》2018,46(11):2642-2649
为了提高多类半监督分类的性能,提出了一种基于证据理论的多类协同森林算法(DSM-Co-Forest).首先,通过"多对多"模式将有标记的多类数据随机拆分为多个二类数据集,并以此训练二类基分类器;然后,利用多个基分类器同时对未标记样本进行预测,并利用证据组合算法挑选出可信度较高的未标记样本;最后,将高可信度的未标记样本加入到原训练样本中,以迭代更新其他的基分类器,从而提高分类器的整体性能.通过在一些公共数据集上进行实验,并与其他半监督分类算法进行对比,验证了所提算法的可行性和有效性.  相似文献   

4.
本文研究了语音情感识别中的半监督特征选择问题,即如何利用未标记语音情感数据来帮助选择具有情感判别性的特征.为了解决这个问题,提出了一种新的基于图的半监督特征选择方法.其可以根据标签适应度和流形平滑度,在图上估计一个预测标签矩阵,从而有效地利用标记数据中的标签信息,以及标记数据和未标记数据中的流形结构信息.与现有的基于图的方法相比,该方法能同时进行特征选择和局部结构学习,从而自适应地确定图相似度矩阵.同时,还对图相似度矩阵进行了约束,使其包含更准确的数据结构信息,从而可以选择更有判别性的特征.此外,提出了一种有效的迭代算法来优化该问题.在典型语音情感数据集上的实验结果表明,本文提出的方法是有效的.  相似文献   

5.
半监督学习中的Tri-Training算法打破了以往算法对充分冗余视图的限制,并通过利用三个分类器处理标记置信度和样本预测问题提高了标记效率.为进一步增强协同训练过程中分类器之间的差异性以提高性能,本文在其理论基础上提出了一种增强差异性的半监督协同分类算法.该算法利用三个不同的分类器进行学习;考虑到分类模型在更新过程中,可能会因随机抽样导致性能恶化,该算法利用基于标记类别的分层抽样法来对已标记样本集进行抽样,并通过基于分类正确率的加权投票法实现了分类器的集成,提高了预测准确率.本文通过实验对所提出算法与Tri-Training算法做了性能比较,实验结果表明本文所提出的方法在分类问题上具有较好的性能,验证了该算法的有效性和可行性.  相似文献   

6.
类不均衡的半监督高斯过程分类算法   总被引:1,自引:0,他引:1  
针对传统的监督学习方法难以解决真实数据集标记信息少、训练样本集中存在类不均衡的问题,提出了类不均衡的半监督高斯过程分类算法。算法引入自训练的半监督学习思想,结合高斯过程分类算法计算后验概率,向未标记数据中注入类标记以获得更多准确可信的标记数据,使得训练样本的类分布相对平衡,分类器自适应优化以获得较好的分类效果。实验结果表明,在类不均衡的训练样本及标记信息过少的情况下,该算法通过自训练分类器获得了有效标记,使分类精度得到了有效提高,为解决类不均衡数据分类提供了一个新的思路。  相似文献   

7.
针对如何使用标记和未标记数据进行Web分类这一关键性问题,探索一种生成模型和判别模型相互结合的分类器,在无标记训练集中采用最大似然估计,构造一种具有良好分类性能的半监督分类器。利用狄利克雷-多项式混合分布对文本进行建模,提出了适用于半监督学习的混合模型。针对半监督学习的EM算法收敛速度过快,容易陷入局部最优的难题,引入两种智能优化的方法——模拟退火算法和遗传算法进行分析和处理,结合这两种算法形成一种新型智能的半监督分类算法,并且验证了该算法的可行性。  相似文献   

8.
毛盾  邢昌风  满欣  付峰 《激光与红外》2017,47(6):778-782
由于目标小、可区分性差,无人机对地目标跟踪较传统视频目标跟踪更容易丢失目标,提出一种基于l1图半监督协同训练的目标跟踪算法。算法首先提取样本的颜色和纹理特征构建两个充分冗余的视图,再以基于l1图的半监督学习算法取代传统协同训练中的监督学习方法构建单视图中的分类器,提高有限标记样本条件下的分类正确率,然后通过基于负类学习的协同训练算法协同更新两个视图的分类器,最后根据不同视图的相似度分布熵融合各分类器的分类结果实现目标跟踪。实验结果表明,该算法能够有效提高分类器的判别能力,具有良好的跟踪性能。  相似文献   

9.
基于图的半监督学习近年来得到了广泛的研究,然而,现有的半监督学习算法大都只能应用于同构网络。根据查询及文档自身的内容特征和点击关系构建查询—文档异构信息网络,并引入样本的判别信息强化网络结构。提出了查询—文档异构信息网络上半监督聚类的正则化框架和迭代算法,在正则化框架中,基于流形假设构造了异构信息网络上的代价函数,并得到该函数的封闭解,以此预测未标记查询和文档的类别标记。在大规模商业搜索引擎查询日志上的实验表明本方法优于传统的半监督学习方法。  相似文献   

10.
将半监督学习应用到应用流分类问题中,提出了一种基于半监督聚类的应用流分类算法(PSOSC).首先采用粒子群优化的K均值聚类方法对大量的无标记数据和少量的标记数据进行聚类,利用少量标记数据确定簇与应用类型的映射关系,实现应用流分类.实验表明PSOSC算法有较高的流准确率,同时,降低了对标记数据的需求.  相似文献   

11.
Conventional graph-based semi-supervised learning methods predominantly focus on single label problem. However, it is more popular in real-world applications that an example is associated with multiple labels simultaneously. In this paper, we propose a novel graph-based learning framework in the setting of semi-supervised learning with multiple labels. This framework is characterized by simultaneously exploiting the inherent correlations among multiple labels and the label consistency over the graph. Based on the proposed framework, we further develop two novel graph-based algorithms. We apply the proposed methods to video concept detection over TRECVID 2006 corpus and report superior performance compared to the state-of-the-art graph-based approaches and the representative semi-supervised multi-label learning methods.  相似文献   

12.
一种基于主题相关度的网页排序算法   总被引:1,自引:0,他引:1  
针对现有基于链接结构的PageRank算法的不足,提出了基于网页主题相关度的改进PageRank算法.通过分析网页内容,提取出网页中的链接及其对应的锚文本,建立网页链接库,利用向量空间模型(VSM)计算链接锚文本和网页内容的相关度,在此基础上实现离线计算改进后的PageRank算法.理论分析和仿真实验表明,改进的PageRank算法使用户能方便地找到所需网页,提高了网页查询效率.  相似文献   

13.
为了解决通信辐射源个体中标签获取难问题,引入半监督机器学习理论,提出了一种基于预测置信度进行迭代的半监督学习算法(Improved Transductive Support Vector Machine Iterative Algorithm Based on the Confidence of Prediction,CP-TSVM)。该方法在TSVM算法的基础上,充分利用无标签样本,根据预测结果置信度进行迭代,能够大幅度减少分类器的运算量。计算机仿真表明,在有标签样本数目占总样本2%的情况下,CP-TSVM较TSVM算法在保证识别准确率的同时,模型训练时间缩短近60 s。  相似文献   

14.
吴莹  罗明 《信号处理》2018,34(6):661-667
为解决在雷达信号分类识别过程中训练样本较少的问题,本文提出了联合主动学习和半监督学习,并对其伪标记样本进行迭代验证改进的分类算法。针对复杂的电磁环境下雷达信号识别率低的问题,本文将径向高斯核时频分析应用于雷达信号,并对时频分布进行奇异值分解,提取出奇异向量作为雷达信号识别的特征参数。针对传统的半监督主动学习算法的不足,利用改进的半监督主动学习算法构建分类器,该算法通过对伪标记样本进行迭代验证来提高伪标记信息的准确性,从而改善了最终的分类性能,实现了在可获取的有标签样本数量较少的条件下对雷达信号的高概率识别。仿真结果表明,本文提出的特征识别方法可以获得较高的识别率。   相似文献   

15.
马慧芳  刘文  李志欣  蔺想红 《电子学报》2019,47(6):1331-1336
短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法.一方面,在整个短文本语料库中利用两个共现词之间的距离计算词项共现距离相关度,并以此来对词项加权从而捕获词项间内联和外联关系,得到短文本的耦合距离区分度相似度;另一方面,基于少量带类别标签的监督数据提取每类中强类别区分能力的特征项作为强类别特征集合,并利用词项的上下文来对强类别特征语义消歧,然后基于文本间包含相同类别的强类别特征数量来衡量文本间的相似度.最后,本文结合耦合距离区分度和强类别特征来衡量短文本的相似度.经实验证明本文提出的方法能够提高短文本相似度计算的准确率.  相似文献   

16.
对搜索引擎中评分方法的研究   总被引:1,自引:1,他引:0  
韩立新 《电子学报》2005,33(11):2094-2096
针对搜索引擎评分较为困难的问题,文中提出了一种评分方法.该方法使用协同过滤技术,在同一兴趣组中各用户所提供的搜索结果集的基础上,采用文中提出的并行关联规则算法对各用户的局部有向图进行预处理,找出兴趣组中各成员都感兴趣的页面.然后对这些页面的内容和超链接附近出现的文本以及链接结构进行分析.计算权威页面和引导页面,以找到虽不包括在检索结果中,但相关的页面.此外,在对所获得的页面进行评价时,除考虑Web页自身的链接结构和兴趣组中查询用户对页面的评价,还考虑兴趣组中其它成员对页面的评价和所有成员对页面的使用情况等因素,从而使推荐给用户的页面排序更加合理.  相似文献   

17.
It is time-consuming and expensive to gather and label the growing multimedia data that is easily accessible with the prodigious development of Internet technology and digital sensors. Hence, it is essential to develop a technique that can efficiently be utilized for the large-scale multimedia data especially when labeled data is rare. Active learning is showing to be one useful approach that greedily chooses queries from unlabeled data to be labeled for further learning and then minimizes the estimated expected learning error. However, most active learning methods only take into account the labeled data in the training of the classifier. In this paper, we introduce a semi-supervised algorithm to learn the classifier and then perform active learning scheme on top of the semi-supervised scheme. Particularly, we employ Hessian regularization into support vector machine to boost the classifier. Hessian regularization exploits the potential geometry structure of data space (including labeled and unlabeled data) and then significantly leverages the performance in each round. To evaluate the proposed algorithm, we carefully conduct extensive experiments including image segmentation and human activity recognition on popular datasets respectively. The experimental results demonstrate that our method can achieve a better performance than the traditional active learning methods.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号