首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 578 毫秒
1.
偏标记数据消歧是利用偏标记数据进行机器学习的基础.针对偏标记数据中广泛存在的数据不平衡问题, 以及现有消歧算法对样本间约束信息利用不足的问题, 本文提出一种基于成对约束的偏标记数据消歧算法.首先, 基于低秩表示, 推导出数据不平衡条件下样本低秩表示系数和样本相似度之间的关系; 其次, 基于推导结果, 分别构建基于样本间正约束和负约束的图模型, 通过最小化图模型的能量函数求解偏标记数据的标签.在5个公开数据集上的实验结果表明本文方法相对基准算法在消歧准确率上平均提高了2.9 % ~ 14.9 %.  相似文献   

2.
解决偏标记问题的基本策略是消歧,现有的消歧策略大都分别对每个示例单独进行消歧,并未充分利用示例之间的相关性.基于此原因,文中提出一致性偏标记学习算法(COPAL).该算法基于一个基本假设:相似示例的标记也应该有相关性.基于该假设,COPAL在消歧过程中同时考虑样本自身及其近邻样本的标记信息.实验表明,在人工合成的UCI数据集和真实数据集上,COPAL均取得较好的泛化性能.  相似文献   

3.
偏标记学习指示例的唯一真实标记隐藏在一组候选标记之中,其目的为对候选标记进行消歧,最终学习到真实标记。现有方法只是就示例之间的相似性或者差异性进行了单方面考量,因此当示例的候选标记增多时会出现消歧准确率与分类准确率大幅度下降的问题。针对以上问题,提出了融合权重机制和改进SDIM的偏标记分类算法,在原SDIM(Partial Label Learning by Semantic Difference Maximization)算法的基础上,增加了最小化同类别示例之间欧几里德距离的操作,缩小了同类别示例之间的语义差异,将示例的相似性纳入学习范围。同时通过求解相关系数最大化问题计算各示例权重,将权重机制引入同类别示例的消歧学习中,对示例的差异性进行了充分考虑。UCI合成数据集上的实验结果表明,相比传统算法,该文算法的消歧准确率提升了0.211%~12.613%,分类准确率提升了0.287%~25.695%。  相似文献   

4.
在多标记学习的任务中,多标记学习的每个样本可被多个标签标记,比单标记学习的应用空间更广关注度更高,多标记学习可以利用关联性提高算法的性能。在多标记学习中,传统特征选择算法已不再适用,一方面,传统的特征选择算法可被用于单标记的评估标准。多标记学习使得多个标记被同时优化;而且在多标记学习中关联信息存在于不同标记间。因此,可设计一种能够处理多标记问题的特征选择算法,使标记之间的关联信息能够被提取和利用。通过设计最优的目标损失函数,提出了基于指数损失间隔的多标记特征选择算法。该算法可以通过样本相似性的方法,将特征空间和标记空间的信息融合在一起,独立于特定的分类算法或转换策略。优于其他特征选择算法的分类性能。在现实世界的数据集上验证了所提算法的正确性以及较好的性能。  相似文献   

5.
李延超  肖甫  陈志  李博 《软件学报》2020,31(12):3808-3822
主动学习从大量无标记样本中挑选样本交给专家标记.现有的批抽样主动学习算法主要受3个限制:(1)一些主动学习方法基于单选择准则或对数据、模型设定假设,这类方法很难找到既有不确定性又有代表性的未标记样本;(2)现有批抽样主动学习方法的性能很大程度上依赖于样本之间相似性度量的准确性,例如预定义函数或差异性衡量;(3)噪声标签问题一直影响批抽样主动学习算法的性能.提出一种基于深度学习批抽样的主动学习方法.通过深度神经网络生成标记和未标记样本的学习表示和采用标签循环模式,使得标记样本与未标记样本建立联系,再回到相同标签的标记样本.这样同时考虑了样本的不确定性和代表性,并且算法对噪声标签具有鲁棒性.在提出的批抽样主动学习方法中,算法使用的子模块函数确保选择的样本集合具有多样性.此外,自适应参数的优化,使得主动学习算法可以自动平衡样本的不确定性和代表性.将提出的主动学习方法应用到半监督分类和半监督聚类中,实验结果表明,所提出的主动学习方法的性能优于现有的一些先进的方法.  相似文献   

6.
词义消歧是自然语言处理中的难点问题,为提高消歧效果,提出一种基于多节点组合特征的词义消歧方法.根据依存语法理论,选择歧义词的祖父+父亲+孩子节点组合,并将其作为消歧特征.利用模糊C均值聚类算法,建立消歧模型,最终确定歧义词词义类别.采用哈工大信息检索研究中心语言技术平台的词义语料进行实验.实验结果表明,相比现有的两种方法,该方法不仅使特征维度平均值分别降低了5和25,且F1值分别提高了1.56个百分点和0.84个百分点,在一定程度上提升了词义消歧效果.  相似文献   

7.
针对现有的大部分多示例多标记(MIML)算法都没有考虑如何更好地表示对象特征这一问题,将概率潜在语义分析(PLSA)模型和神经网络(NN)相结合,提出了基于主题模型的多示例多标记学习方法。算法通过概率潜在语义分析模型学习到所有训练样本的潜在主题分布,该过程是一个特征学习的过程,用于学习到更好的特征表达,用学习到的每个样本的潜在主题分布作为输入来训练神经网络。当给定一个测试样本时,学习测试样本的潜在主题分布,将学习到的潜在主题分布输入到训练好的神经网络中,从而得到测试样本的标记集合。与两种经典的基于分解策略的多示例多标记算法相比,实验结果表明提出的新方法在现实世界中的两种多示例多标记学习任务中具有更优越的性能。  相似文献   

8.
重名问题在Web人物搜索过程中是很普遍的现象.研究了Web人名消歧相关问题,提取与待消歧人名相关的不同特征集,运用向量空间模型构造人物实体的组合特征,最后通过层次聚类算法将相似度高的文档优先聚类,由此实现人名消歧.在WePS数据集上的实验结果表明,提出的方法具有良好的消歧效果.  相似文献   

9.
联合嵌入式多标签分类算法   总被引:1,自引:0,他引:1  
刘慧婷  冷新杨  王利利  赵鹏 《自动化学报》2019,45(10):1969-1982
现有的一些多标签分类算法,因多标签数据含有高维的特征或标签信息而变得不可行.为了解决这一问题,提出基于去噪自编码器和矩阵分解的联合嵌入多标签分类算法Deep AE-MF.该算法包括两部分:特征嵌入部分使用去噪自编码器对特征空间学习得到非线性表示,标签嵌入部分则是利用矩阵分解直接学习到标签空间对应的潜在表示与解码矩阵.Deep AE-MF将特征嵌入和标签嵌入的两个阶段进行联合,共同学习一个潜在空间用于模型预测,进而得到一个有效的多标签分类模型.为了进一步提升模型性能,在Deep AE-MF方法中对标签间的负相关信息加以利用.通过在不同数据集上进行实验证明了提出Deep AE-MF方法的有效性和鲁棒性.  相似文献   

10.
词义消歧在自然语言处理的许多应用领域都起着十分重要的作用。为了适用于大规模的词义消歧,提出了一种无导的学习方法。基于向量空间模型,结合机读词典和义类词典建立从义项到义类的映射关系,再利用义类知识在语料库中无导学习消歧特征,最后利用这些特征实现词义消歧。  相似文献   

11.
建立一种离群样本划分的半监督模糊学习算法模型。首先,提出一种基于Hopfield参数估计的松弛条件模糊鉴别分析算法,重新定义每一个样本的隶属度,并在特征抽取的过程中,根据隶属度对散布矩阵的定义所做的贡献获得每个样本相应的类别信息,由此获得普通样本分类信息。其次,根据样本隶属度的分布信息划分出离群样本空间,将普通样本分类结果作为离群样本聚类的先验类属信息,并对该空间样本提出一种新的半监督模糊学习策略进行动态聚类。该算法同时具备了监督学习和无监督学习方法的优势,克服了传统聚类缺乏类过程知识的缺点,可以有效地解决特征空间中特殊样本的分类问题。性能分析表明,该方法优于单一的特征抽取方法,在NUST603、ORL、XM2VTS和FERET人脸数据库上的识别性能均得到有效提高。  相似文献   

12.
时间序列异常模式的k-均距异常因子检测   总被引:1,自引:0,他引:1       下载免费PDF全文
提出了一种基于k-均距异常因子检测时间序列异常模式的算法(K-MDOF)。该算法首先利用边缘权重因子提取时间序列模式表示的边缘点,然后通过提取每一段子模式的四个特征值:模式长度、模式高度、模式均值和标准差将时间序列映射到特征空间,最后利用k-均距异常因子在该特征空间中检测时间序列的异常模式。从模式的角度检测时间序列的异常行为弥补了点异常检测的个体行为局限性,提高了异常检测的效率和准确性,在仿真数据集和真实数据集上的实验结果都证明了在时间序列异常检测中模式异常定义的合理性以及算法的有效性。  相似文献   

13.
传统的聚类算法是一种无监督的学习过程,聚类的精度受到相似性度量方式以及数据集中孤立点的影响,并且算法也没有很好的利用先验知识,无法体现用户的需求。因此提出了基于共享最近邻的孤立点检测及半监督聚类算法。该算法采用共享最近邻为相似度,根据数据点的最近邻居数目来判断是否为孤立点,并在删除孤立点的数据集上进行半监督聚类。在半监督聚类过程中加入了经过扩展的先验知识,同时根据图形分割原理对数据集进行聚类。文中使用真实的数据集进行仿真,其仿真结果表明,本文所提出的算法能有效的检测出孤立点,并具有很好的聚类效果。  相似文献   

14.
王一宾    李田力  程玉胜   《智能系统学报》2019,14(5):966-973
标记分布是一种新的学习范式,现有算法大多数直接使用条件概率建立参数模型,未充分考虑样本之间的相关性,导致计算复杂度增大。基于此,引入谱聚类算法,通过样本之间相似性关系将聚类问题转化为图的全局最优划分问题,进而提出一种结合谱聚类的标记分布学习算法(label distribution learning with spectral clustering,SC-LDL)。首先,计算样本相似度矩阵;然后,对矩阵进行拉普拉斯变换,构造特征向量空间;最后,通过K-means算法对数据进行聚类建立参数模型,预测未知样本的标记分布。与现有算法在多个数据集上的实验表明,本算法优于多个对比算法,统计假设检验进一步说明算法的有效性和优越性。  相似文献   

15.
Graph carries out a key role in graph-based semi-supervised label propagation, as it clarifies the structure of the data manifold. The performance of label propagation methods depends on the adopted graph and can be enhanced by merging different graphs that are obtained from multiple sources of information. While there exist algorithms that perform graph fusion they have several weaknesses. Most of these algorithms define graph fusion and label propagation as two separate tasks. Moreover, when the number of data expands, these strategies are not well-suited due to the use of transductive learning in the label propagation phase which makes the label prediction for unseen samples difficult. Furthermore, very few algorithms extract the information contained in the label space. Additionally, most of the graph fusion techniques adopt equal or static weights for different views, which is not the best choice as distinctive features (hence different graphs) contain various information. To overcome these shortcomings, we propose an Auto-weighted Multi-view Semi-Supervised Learning method (AMSSL), which is based on an inductive learning algorithm (i.e., Flexible Manifold Embedding) and profited a projection matrix for predicting the labels of out-of-sample data. The proposed AMSSL method represents a unified framework that dynamically fuses various information obtained from different features and also from the label space and adaptively designates appropriate weights according to the usefulness of each view. Our experimental results on seven small and large image datasets demonstrate the superiority of the proposed method compared to the use of one single feature and other state-of-the-art graph fusion methods.  相似文献   

16.
实体消歧作为知识库构建、信息检索等应用的重要支撑技术,在自然语言处理领域有着重要的作用。然而在短文本环境中,对实体的上下文特征进行建模的传统消歧方式很难提取到足够多用以消歧的特征。针对短文本的特点,提出一种基于实体主题关系的中文短文本图模型消歧方法,首先,通过TextRank算法对知识库信息构建的语料库进行主题推断,并使用主题推断的结果作为实体间关系的表示;然后,结合基于BERT的语义匹配模型给出的消歧评分对待消歧文本构建消歧网络图;最终,通过搜索排序得出最后的消歧结果。使用CCKS2020短文本实体链接任务提供的数据集对所提方法进行评测,实验结果表明,该方法对短文本的实体消歧效果优于其他方法,能有效解决在缺乏知识库实体关系情况下的中文短文本实体消歧问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号