首页 | 本学科首页   官方微博 | 高级检索  
检索     
共有20条相似文献,以下是第1-20项 搜索用时 828 毫秒

1.  排序学习中数据噪音敏感度分析  
   牛树梓  程学旗  郭嘉丰《中文信息学报》,2012年第26卷第5期
   排序学习是当前信息检索领域研究热点之一.为了避免训练集中噪音的影响,当前排序学习算法较多关注鲁棒性.已有的工作发现相同的排序学习方法的性能在不同的数据集上会有截然不同的噪音敏感度.模型改变是导致性能下降的直接原因,而模型又是从训练集学习到的,因此根源在于训练数据的某些特性.该文根据具体排序学习场景分析得出影响噪音敏感度的根本原因在于训练集中文档对分布的结论,并在LETOR3.0上的实验验证了这一结论.    

2.  基于Bagging的XML文档集成聚类研究  
   赵斌  张永胜《计算机工程与应用》,2009年第45卷第14期
   将集成学习方法应用到XML文档聚类中来改进传统聚类算法的不足。提出一种标签与路径相结合的XML文档向量模型,基于这个模型,首先对原始文档集进行多次抽样,在新文档集上进行K均值聚类,然后对得到的聚类中心集合进行层次聚类。在人工数据集和真实数据集上的实验表明,该算法在召回率和精确率上优于K均值算法,并且增强了其鲁棒性。    

3.  基于新闻类RSS文档的信息隐藏系统  
   戚银城  孙卓  谢林燕《计算机工程》,2012年第38卷第5期
   分析新闻类聚合内容(RSS)文档的结构,提出一种基于新闻类RSS文档的信息隐藏方法。根据各新闻条目的先后顺序不会影响RSS文档使用的特点,利用标签模块的排列组合隐藏机密信息。同时选取另外2种基于XML的隐藏方法进行合理组合,构建一个基于多种隐藏方法的新闻类RSS文档的信息隐藏系统。实验结果表明,排序后的3种隐藏方法不会发生冲突,在提高隐藏容量的同时,具有较好的隐蔽性和鲁棒性。    

4.  基于移相加权球面单簇聚类的周期时间序列异常检测  
   王骏  钟富礼  王士同  邓赵红《自动化学报》,2011年第37卷第8期
   针对传统的单分类器不适用于周期时间序列的异常检测,提出了一种基于移相加权球面单簇聚类的单分类器PS-WS1M-OCC.通过在聚类过程中增加高效的循环移位操作,解决了时间序列记录之间相似度计算的问题.另一方面,基于时间序列记 录的权重分布,提出了新的阈值自适应确定方法,从而使单分类器对训练集包含的异常数据和参数设置不敏感.实验表明,本文提出的单分类器可以用于周 期时间序列的异常检测;与传统的单分类器相比,可以成功地从包含异常数据的训练集中进行无监督学习,对训练集包含的异常数据鲁棒,并且对参数不敏感.    

5.  一种基于支持向量聚类的图像分割方法  
   蒋加伏  赵嘉  胡益红《计算机工程与应用》,2009年第45卷第30期
   利用支持向量聚类分类准确、参数少、无监督学习的特点,提出一种基于支持向量聚类的图像分割方法。该方法首先对数据集分块并对每块进行SVC聚类,再取其簇内均值作为K均值聚类样本点,进行聚类,最后将得到的结果进行合并。实验证明该方法不但改变了传统分割方法中人为选取阈值参数的作法,而且受目标和噪声影响小,提高了图像分割的鲁棒性和效果,能够有效地进行图像分割。    

6.  基于仿射聚类的主动SVM多类分类方法  
   张建朋  陈福才《计算机应用研究》,2012年第29卷第9期
   针对现有的主动学习算法在多分类器应用中存在准确率低、速度慢等问题,将基于仿射传播(AP)聚类的主动学习算法引入到多分类支持向量机中,每次迭代主动选择最有利于改善多类SVM分类器性能的N个新样本点添加到训练样本点中进行学习,使得在花费较小标注代价情况下,能够获得较高的分类性能。在多个不同数据集上的实验结果表明,新方法能够有效地减少分类器训练时所需的人工标注样本点的数量,并获得较高的准确率和较好的鲁棒性。    

7.  用于提高谷歌图像搜索结果的二分类器在线学习方法  
   万玉钗  刘峡壁  韩菲霏  童坤琦  刘宇《自动化学报》,2014年第40卷第8期
   对于基于关键词的图像检索,利用检索结果的视觉相似性学习二分类器有望成为改善检索结果的最有效途径之一. 为改善搜索引擎的搜索结果,本文提出一种算法框架并且基于此框架着重研究训练数据选择这一关键问题. 训练数据选择过程由两个阶段组成:1)训练数据初始化以开始分类器学习过程;2)分类器迭代学习过程中的动态数据选择. 对于初始训练数据的选择,我们探讨了基于聚类和基于排序两种方法,并且对比了自动训练数据选择与人工标注的结果. 对于动态数据选择,我们比较了支持向量机和基于最大最小后验伪概率的贝叶斯分类器的分类效果. 组合上述两个阶段的不同方法,我们得到了8种不同的算法,并将其用于谷歌搜索引擎进行基于关键词的图像检索. 实验结果证明,如何从含有噪声的搜索结果中选择训练数据是搜索结果改善的关键问题. 实验显示我们的方法能够有效的改善谷歌搜索的结果,尤其是排序在前的结果. 尽早为用户提供更相关的结果能够更大程度的减少用户逐个翻页查看结果的工作. 另外,如何使自动训练数据选择与人工标注媲美仍是需要继续研究的一个问题.    

8.  基于半监督高斯混合模型核的支持向量机分类算法  
   陶新民  曹盼东  宋少宇  付丹丹《信息与控制》,2013年第1期
   提出了一种基于高斯混合模型核的半监督支持向量机(SVM)分类算法.通过构造高斯混合模型核SVM分类器提供未标示样本信息,使得SVM算法在学习标示样本信息的同时,能够兼顾整个训练样本集合的聚类假设.实验部分将该算法同传统SVM算法、直推式支持向量机(TSVM)以及随机游走(RW)半监督算法进行分类性能比较,结果证明该算法在拥有较少标示样本训练的情况下分类性能也有所提高且具有较高的鲁棒性.    

9.  增量学习直推式支持向量机及其在旋转机械状态判别中的应用  
   王自营  邱绵浩  安钢《中国电机工程学报》,2008年第28卷第32期
   直推式支持向量机(support vector machine, SVM)是基于已知样本建立对特定的未知样本进行有效识别的理论框架,与归纳式支持向量机相比,前者更经济、分类效果更佳。然而,直推式支持向量机的致命缺点是需要占用大量的训练时间,为此,提出了基于增量学习的支推式支持向量机训练算法,即把当前迭代训练得到的支持向量样本与新赋予类别标签的部分测试样本作为训练样本集参与下一次的迭代训目的是通过减少训练样本的数量以节约训练时间。同时,为确保算法的收敛性及分类准确率,在训练过程中引入了成对标注及错误回溯处理。实际的状态判别结果证明了该方法的有效性。    

10.  基于双层采样主动学习的社交网络虚假用户检测方法  
   谭侃  高旻  李文涛  田仁丽  文俊浩  熊庆宇《自动化学报》,2017年第43卷第3期
   社交网络的飞速发展给用户带来了便捷,但是社交网络开放性的特点使得其容易受到虚假用户的影响.虚假用户借用社交网络传播虚假信息达到自身的目的,这种行为严重影响着社交网络的安全性和稳定性.目前社交网络虚假用户的检测方法主要通过用户的行为、文本和网络关系等特征对用户进行分类,由于人工标注用户数据需要的代价较大,导致分类器能够使用的标签样本不足.为解决此问题,本文提出一种基于双层采样主动学习的社交网络虚假用户检测方法,该方法使用样本不确定性、代表性和多样性3个指标评估未标记样本的价值,并使用排序和聚类相结合的双层采样算法对未标记样本进行筛选,选出最有价值的样本给专家标注,用于对分类模型的训练.在Twitter、Apontador和Youtube数据集上的实验说明本文所提方法在标签样本数量不足的情况下,只使用少量有标签样本就可以达到与有监督学习接近的检测效果;并且,对比其他主动学习方法,本文方法具有更高的准确率和召回率,需要的标签样本数量更少.    

11.  特征加权的模糊C有序均值聚类算法  
   刘永利  王恒达  刘静  杨立身《河南理工大学学报(自然科学版)》,2019年第3期
   Fuzzy C-ordered-means clustering(FCOM)算法基于排序进行模糊聚类,虽然其鲁棒性得到提高,但是耗时的排序操作降低了算法的效率。本文基于FCOM算法,将排序加权模式进行改进,提出一种特征加权的模糊C有序均值聚类算法(feature weighted fuzzy C-ordered-means clustering,FWFCOM)。为了验证算法的有效性,选取6个UCI数据集进行试验。结果表明,FWFCOM算法不仅在聚类准确率和鲁棒性方面有较好的表现,而且运行效率也得到有效提升。    

12.  适应文档检索的半监督多样本排序学习算法  
   何海江  龙跃进《计算机应用》,2011年第31卷第11期
   针对标记训练集不足的问题,提出了一种协同训练的多样本排序学习算法,从无标签数据挖掘隐含的排序信息。算法使用了两类多样本排序学习机,从当前已有的标记数据集分别构造两个不同的排序函数。相应地,每一个无标签查询都有两个不同的文档排列,由似然损失来计算这两个排列的相似性,为那些文档排列相似度低的查询贴上标签,使两个多样本排序学习机新增了训练数据。在排序学习公开数据集LETOR上的实验结果证实,协同训练的排序算法很有效。另外,还讨论了标注比例对算法的影响。    

13.  基于BP神经网络的文档聚类研究  被引次数:5
   田萱 刘希玉 孟强《计算机科学》,2002年第29卷第8期
   1.引言近年来,随着互联网的迅速发展,基于Web的数据挖掘技术受到越来越多的关注,经常用在文本挖掘和信息检索等多个领域的聚类(Clustering)技术也成为人们研究的热点。对一组实际或抽象的元素进行处理,把相似的元素归为同类的过程称之为聚类。对文本信息,如科技文献、Web文档等的聚类,称之为文档聚类(Document Clustering)。最初,文档聚类常用于提高信息检索系统的查准率和查全率(recall),或用来寻找与一篇文档最为相似的文档。现在,人们利用文档聚类来获得一组满足用户要求的文档集合并按用户需求对其进行排序。另外在Internet上,文本聚类也可用来自动产生文档的层次聚类,从而实现对Web文档的分类。    

14.  SCARA机器人自组织模糊聚类神经网络控制器  
   LIU Yan-ju  张宏烈  DAI Xue-feng《微计算机信息》,2008年第24卷第23期
   本文提出了用于SCARA机器人运动控制的自组织模糊聚类神经网络控制器.该控制器基于模糊聚类方法在学习模糊规则之前先优化训练数据,去除冗余数据并解决数据冲突问题,不但减少了神经网络的计算负担,而且生成的规则更加适合机器人运动控制.控制器主要特点是能够动态地自组织结构,学习速度快,鲁棒性强.仿真结果表明控制效果很好.    

15.  基于查询聚类的排序学习算法  
   花贵春  张敏  刘奕群  马少平  茹立云《模式识别与人工智能》,2012年第25卷第1期
   排序学习算法作为信息检索与机器学习的一个交叉领域,越来越受到人们的重视.然而,几乎没有排序学习算法考虑到查询差异的存在.文中查询被建模为多元高斯分布,KL距离被用来度量查询之间的距离,利用谱聚类方法对查询进行聚类,为每个聚类类别训练一个排序函数.实验结果表明经过聚类得到的排序函数需要较少的训练样例,但是它的性能却和没有经过聚类得到的排序函数具有可比性,甚至优于后者.    

16.  多查询相关的排序支持向量机融合算法  被引次数:3
   王扬  黄亚楼  谢茂强  刘杰  卢敏  廖振《计算机研究与发展》,2011年第48卷第4期
   排序学习是目前信息检索与机器学习领域研究的热点问题.现有排序学习算法在学习时把训练样本集中的所有查询及其相关文档等同对待,忽视了查询之间的差异,影响了排序模型的性能.对查询之间的差异进行描述,并在训练过程中考虑这种差异,提出一种基于有监督学习的融合多个与查询相关排序子模型的方法.该方法为每一个查询及其相关文档建立一个子排序模型,并将子排序模型的输出进行向量化表示,将多个查询相关的排序模型转化为体现查询差异的特征数据,实现多排序模型的集成.以排序支持向量机为例,在查询级和样本级建立新的损失函数作为优化目标,并利用此损失函数调节不同查询产生损失之间的权重,提出多查询相关的排序支持向量机融合算法.在文档检索和网页检索中的实验结果表明,使用多查询相关的排序支持向量机融合算法可以取得比传统排序学习模型更好的性能.    

17.  基于统计学习的自适应文本聚类  
   王纵虎  刘志镜  陈东辉《四川大学学报(工程科学版)》,2012年第44卷第1期
   针对文本数据的高维性和稀疏性从而使传统的聚类算法在文本聚类应用中的表现不能让人满意的问题,通过计算文档相似度矩阵,在聚类过程中动态地统计学习已划分和未划分文本集合的相关信息,探测剩余未划分的数据集中的与已划分类簇覆盖度较小的最大密集区域,逐步生成预定数目的初始聚类中心集合,最后将剩余文档划分到最相似的初始聚类中心集合完成聚类,从而有效地减小了划分聚类算法对初始聚类中心的敏感性。算法中的一些阈值参数均通过在聚类过程中动态地对数据集进行统计学习得到,避免了多数聚类算法通过经验或实验设定阈值参数的盲目性,在不同    

18.  SROC:一种面向结构鲁棒性的迭代聚类方法  
   雷小锋  夏征义  谢昆青《计算机研究与发展》,2007年第44卷第Z3期
   聚类结果的有效性由结构有效性、算法有效性和先验知识有效性3个方面的因素决定.忽略先验知识和假设结构的有效性孤立地提升聚类算法的有效性很可能产生无效的聚类结果.现有聚类方法通常只是简单地导出假设结构下最优的聚类结果,并交付用户,缺乏对聚类结果的自省能力.实际上,聚类方法是一个不断迭代优化的过程,包括对训练数据拟合度和假设结构的迭代优化.基于上述的考虑,提出以聚类结构的鲁棒性作为聚类结果有效性的衡量指标,并将鲁棒性评估有机地整合到聚类算法的迭代优化过程中,提出一种面向结构鲁棒性的迭代聚类方法框架.此外,依托该框架下设计并实现了SROC聚类算法,通过对模拟数据和真实文档数据的聚类实验,例证了方法有效性.    

19.  基于贝叶斯分类器的气象预测研究  
   何伟  孔梦荣  赵海青《计算机工程与设计》,2007年第28卷第15期
   将机器学习的理论和方法应用于气象预报领域,基于贝叶斯推理学习的理论,使用朴素贝叶斯分类器(Na(i)ve Bayes classifier)对降雨量预测问题进行了分类预测研究,提出了预测降雨量的朴素贝叶斯算法learn-and-classify--rainfall,将各预测因子及预测目标按照气象学分级标准进行分级,以历年气象数据为训练集,在训练集上学习各预测目标的先验概率及各预测因子的条件概率,用NBC计算出极大后验假设作为预测目标值,该算法具有鲁棒性强、易实现等优点,表现出较强的实用性和有效性,经实验表明,预测精度明显高于目前短期气候预测中采用的回归分析、聚类分析等其它预测方法.同时它还对困扰气象工作者的如何选择预测因子的问题具有指导作用.    

20.  鲁棒的递推核学习建模方法在高炉过程的应用  
   喻海清  刘毅  陈坤  纪俊  李平《浙江大学学报(工学版)》,2012年第4期
   针对现场采集时间序列数据中的离群点显著影响时变非线性工业过程在线模型性能这一问题,提出鲁棒的递推最小二乘支持向量机软测量建模方法.在模型训练阶段,采用支持向量聚类(SVC)排除离群点,建立有效的数据区域.将SVC用于递推过程前向学习阶段,并引入更有效的增删节点准则,在快速递推的前提下提高了模型的推广能力.将该方法应用于工业高炉过程铁水的硅质量分数预测,通过试验连续预测566炉高炉铁水硅质量分数,命中率高达81%,预测均方根误差为0.054 7,表明了较其他方法有更好的鲁棒性与精度.    

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号