首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
针对有监督排序学习所需训练集的大量标注数据不易获得的情况,引入基于图的标签传播半监督学习。利用有限的已标记数据和大量未标记数据来完成训练数据的自动标注工作,解决大量训练数据集标注工作耗时耗力的难题。首先以训练数据为节点建立εNN图模型实现标签传播算法进行训练数据的自动标注,再基于得到的训练集使用Ranking SVM实现排序学习,在OHSUMED数据集上衡量该方法在MAP和NDCG@n评价准则下的性能。实验结果表明,该方法的性能优于普通pointwise排序学习方法,略低于普通pairwise排序学习方法,能够在达到可用性要求的前提下节省接近60%的训练集标注工作量。  相似文献   

2.
在信息检索和机器学习领域,大部分排序学习方法假设查询中的各个对象均满足独立同分布.虽然该假设简化了排序问题,却未能利用目标对象之间隐藏的相关性信息.在全监督排序和直推式排序2个问题中分别提出了新的方法,充分地利用了对象间的关系.在全监督排序问题中,将对象相关性映射为RBF Kernel,作为约束项加入优化目标,使得优化过程中越相似的对象打分越接近,即全局一致性思想.在直推式排序问题中,利用对象相关性将每个查询映射为图结构,设计了新的基于图结构的查询相似度度量,使得优化过程中越相似的查询,该查询内的对象对预测查询的影响越大.实验结果表明,加入对象之间的相关性提升了全监督排序算法和直推式排序算法的性能.  相似文献   

3.
胡小生  钟勇 《计算机应用》2012,32(12):3331-3334
当前排序学习算法在学习时将样本集中的所有查询及其相关文档等同对待,忽略了查询之间以及其相关文档之间的差异性,影响了排序模型的性能。对查询之间的差异进行分析,同时考虑文档排序位置造成的资料被检视概率不同的差异特性,提出了一种两层加权融合的排序方法。该方法为每一个查询及其相关文档建立一个子排序模型,在此过程中,对文档赋予非对称权重,然后通过建立新的损失函数作为优化目标,利用损失函数调节不同查询产生损失之间的权重,最终实现多查询相关排序模型的加权融合。在标准数据集LETOR OHSUMED上的实验结果表明,所提方法在排序性能上有较大提升。  相似文献   

4.
如何有效利用海量的数据是当前机器学习面临的一个重要任务,传统的支持向量机是一种有监督的学习方法,需要大量有标记的样本进行训练,然而有标记样本的数量是十分有限的并且非常不易获取.结合Co-training算法与Tri-training算法的思想,给出了一种半监督SVM分类方法.该方法采用两个不同参数的SVM分类器对无标记样本进行标记,选取置信度高的样本加入到已标记样本集中.理论分析和计算机仿真结果都表明,文中算法能有效利用大量的无标记样本,并且无标记样本的加入能有效提高分类的正确率.  相似文献   

5.
李亚娥  汪西莉 《微机发展》2013,(2):112-114,118
基于局部和全局一致性算法本身带有一定数量的参数,而参数delta的选取对算法迭代过程的迭代次数和分类结果很敏感,通常是通过实验手动设置,这种做法相对比较耗时。为了解决该问题,提高算法分类效率,文中针对该问题将算法应用到图像分类中提出了一种自适应的参数设置方法,确定参数delta的最佳取值范围。通过实验结果可以看出,确定的参数范围的取值能使算法的分类正确率最高、迭代过程所用的时间最短。因此本方法能有效地提高算法的分类效率。  相似文献   

6.
查询扩展作为一门重要的信息检索技术,是以用户查询为基础,通过一定策略在原始查询中加入一些相关的扩展词,从而使得查询能够更加准确地描述用户信息需求。排序学习方法利用机器学习的知识构造排序模型对数据进行排序,是当前机器学习与信息检索交叉领域的研究热点。该文尝试利用伪相关反馈技术,在查询扩展中引入排序学习算法,从文档集合中提取与扩展词相关的特征,训练针对于扩展词的排序模型,并利用排序模型对新查询的扩展词集合进行重新排序,将排序后的扩展词根据排序得分赋予相应的权重,加入到原始查询中进行二次检索,从而提高信息检索的准确率。在TREC数据集合上的实验结果表明,引入排序学习算法有助于提高伪相关反馈的检索性能。  相似文献   

7.
传统手工编排行车计划耗费时间长,难以根据客流、道路、季节等外界因素的变化而做出及时改变。公交行车计划的计算机化自动排列是一直以来研究目标。目前出现的排列算法解决了自动排列问题,但是在一些细节上仍有不足。文章提出了半监督自动排列算法,在部分关键环节上采取人为判断,将人工安排计划表经验和计算机自动排列相结合,做到注重效率又不失真实性。  相似文献   

8.
传统的有监督度量学习算法没有利用大量存在的无标记样本,且得到的度量矩阵复杂,难以了解不同原始特征的重要程度。针对这些情况,提出基于半监督假设的半监督稀疏度量学习算法。根据三样本组约束建立间隔损失函数;基于平滑假设、聚类假设、流形假设这三个半监督假设建立半监督正则项,并利用L_1范数建立稀疏正则项;利用梯度下降法求解目标函数。实验结果表明,该算法学习得到的度量能有效地使不同类别的样本间距离增大,度量矩阵具有稀疏性,分界面穿过低密度区域,该算法在UCI的样本数据集上具有良好的分类准确性。  相似文献   

9.
一种基于核的半监督局部线性嵌入方法   总被引:1,自引:0,他引:1       下载免费PDF全文
张长帅  周大可  杨欣 《计算机工程》2011,37(20):157-159
在局部线性嵌入算法中,标签价值没有得到充分体现。针对该问题,提出一种基于核的半监督局部线性嵌入方法。考虑到欧氏距离容易破坏流形结构,将原始数据映射到高维核空间,利用高维空间中的核距离代替欧氏距离,采用半监督标签信息调整距离矩阵,通过调整后的距离矩阵对数据结构进行线性重建,从而提高算法的降维性能。在标准数据集、人脸库、字符库等数据上进行实验,结果表明,与传统局部线性嵌入算法相比,该方法的辨识率提高了2%  相似文献   

10.
软件缺陷预测是提高软件质量的有效途径。为应对软件缺陷数据的不平衡分布和特征冗余等问题,提出一种改进的基于半监督集成学习的软件缺陷预测方法 SSFSAdaBoost(Semi-supervised software defect prediction based on sampling,feature selection and AdaBoost)。首先对训练集进行混合采样,其次使用SMA优化算法对采样后的训练集和测试集做特征选择,最后使用改进的半监督算法SUDAdaBoost进行集成。实验在三种公共数据集上进行验证,实验结果表明,该方法优于初始的Adaboost算法,并对缓解类不平衡问题具有良好的性能。  相似文献   

11.
现有排序学习算法忽视了查询之间的差异,在建立排序模型的过程中等同对待训练样本集中的所有查询及其相关文档,影响了排序模型的性能.文中描述了查询之间的差异,并在训练过程中考虑查询之间的差异,提出了一种基于有监督学习的多排序模型融合方法.这种方法首先使用每一个查询及其相关文档训练出子排序模型,并将每一个子排序模型的输出转化为体现查询差异的特征数据,使用监督学习方法,实现了多排序模型的融合.更进一步,针对排序问题的特性,文中提出了一种直接优化排序性能的融合函数融合子排序模型,使用梯度上升方法优化其下界函数.文中证明了直接优化排序性能的融合函数融合子排序模型的性能优于子排序模型线性合并的性能.基于较大规模真实数据应用的实验结果表明,直接优化性能指标的多排序模型融合方法可以比传统排序学习模型具有更好的排序性能.  相似文献   

12.
在文本搜索领域,用自学习排序的方法构建排序模型越来越普遍。排序模型的性能很大程度上依赖训练集。每个训练样本需要人工标注文档与给定查询的相关程度。对于文本搜索而言,查询几乎是无穷的,而人工标注耗时费力,所以选择部分有信息量的查询来标注很有意义。提出一种同时考虑查询的难度、密度和多样性的贪心算法从海量的查询中选择有信息量的查询进行标注。在LETOR和从Web搜索引擎数据库上的实验结果,证明利用本文提出的方法能构造一个规模较小且有效的训练集。  相似文献   

13.
多标记学习主要用于解决单个样本同时属于多个类别的问题.传统的多标记学习通常假设训练数据集含有大量有标记的训练样本.然而在许多实际问题中,大量训练样本中通常只有少量有标记的训练样本.为了更好地利用丰富的未标记训练样本以提高分类性能,提出了一种基于正则化的归纳式半监督多标记学习方法——MASS.具体而言,MASS首先在最小化经验风险的基础上,引入两种正则项分别用于约束分类器的复杂度及要求相似样本拥有相似结构化多标记输出,然后通过交替优化技术给出快速解法.在网页分类和基因功能分析问题上的实验结果验证了MASS方法的有效性.  相似文献   

14.
一种结合半监督Boosting方法的迁移学习算法   总被引:1,自引:0,他引:1  
迁移学习是数据挖掘中的一个研究方向,试图重用相关领域的数据样本,将相关领域的知识”迁移”到新领域中帮助训练.当前,基于实例的迁移学习算法容易产生过度拟合的问题,不能充分利用相关领域中的有用数据,为了避免这个问题,通过引入目标领域的无标记样本参与训练,利用半监督Boosting方法,提出一种新的迁移学习算法,能够对样本的...  相似文献   

15.
何海江  龙跃进 《计算机应用》2011,31(11):3108-3111
针对标记训练集不足的问题,提出了一种协同训练的多样本排序学习算法,从无标签数据挖掘隐含的排序信息。算法使用了两类多样本排序学习机,从当前已有的标记数据集分别构造两个不同的排序函数。相应地,每一个无标签查询都有两个不同的文档排列,由似然损失来计算这两个排列的相似性,为那些文档排列相似度低的查询贴上标签,使两个多样本排序学习机新增了训练数据。在排序学习公开数据集LETOR上的实验结果证实,协同训练的排序算法很有效。另外,还讨论了标注比例对算法的影响。  相似文献   

16.
很多基于图的半监督分类算法是直推式的,即只解决了训练集上的数据标记,没解决新数据的标记问题.本文根据局部线性调和(LLC),提出一种归纳式丰监督分类算法SLLC.该算法采用混合模型建模原始数据,通过局部逼近确保标记平滑,利用分块的仿射变换实现了近似平滑的非线性映射.实验结果证实了本文算法的有效性.  相似文献   

17.
针对传统线性降维方法忽略数据局部结构特性的问题,提出了一种基于半监督流形学习的方法。针对人脸识别采用图像欧式距离来选择各样本点的K近邻,由此得到修改后无监督判别投影中的邻接矩阵,在传统的无监督判别投影中,融入类标签信息获得几何最优投影。通过在人脸库上的大量比较实验,验证了该方法的准确性和有效性。  相似文献   

18.
排序问题在信息检索领域是一个非常重要的课题。虽然排序学习模型的算法早已被深入研究,但针对排序学习算法中的特征选择的研究却很少。现实的情况是,许多用于分类的特征选择方法被直接应用到排序学习中。但由于排序和分类有着显著的差异,应研究出针对排序的特征选择算法。文中在介绍常用的排序学习的特征选择方法的基础上,提出了一种全新的、适用于QA问题的排序学习的特征选择方法一锦标赛排序特征选择方法。实验结果显示,这种新的特征选择方法在提高特征提取效率和降低特征向量维数方面都有显著改善。  相似文献   

19.
高效检索是数字图书馆的核心业务之一,其中排序是高效信息检索的核心问题。给定一系列的书目列表,利用排序模型生成目标书目的排序列表。将学习排序算法应用于信息检索领域时,常用方法是通过最小化pairwise损失函数值来优化排序模型。然而,已有结论表明,pairwise损失值最小化不一定能得到listwise算法的最佳排序性能。并且将在线学习排序算法与listwise算法相结合也非常困难。提出了一种基于listwise的在线学习排序算法,旨在保证listwise算法性能优势的前提下,实现在线学习排序算法,从而降低检索复杂度。首先解决将在线学习排序算法与listwise算法相结合的问题;然后通过最小化基于预测列表和真实列表定义的损失函数来优化排序模型;最后提出基于online-listwise算法的自适应学习率。实验结果表明,所提出算法具有较好的检索性能和检索速度。  相似文献   

20.
SHITS:一种基于超链接和内容的网页排序方法   总被引:2,自引:0,他引:2  
回顾了当前应用于大型搜索引擎的主流网页排序算法,对其中的ARC算法进行了改进,提出了一种基于超链接和内容的网页排序算法--SHITS(Similarity—HITS)算法.SHITS算法用超链接所引用的网页内容代替了ARC算法中所采用的锚文本来评估该超链接的重要性,这一改进不仅提高了算法区分链接重要性的能力,也避免了对大量锚文本内容的分析.通过与相关算法的对比实验,结果表明:SHITS算法网页排序的准确率明显优于其它算法.此外,SHITS算法也具有较好的效率:计算代价小于ARC算法,与HITS算法相当.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号