首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
基于协同学习,提出一种基于交叉采样与结构情感信息的跨语言情感分析交互学习模型.首先,通过启发式识别方法抽取文本中的情感表达作为结构情感特征,将其融合到传统的n-gram特征空间中,形成情感表征性更强的特征空间;其次,在传统协同学习的框架基础上,提出一种交叉采样策略对2种语言视图中的非标注数据的情感知识交互迁移,从而实现将源语言与目标语言进行高效融合学习;最终获得具有更高性能的目标语言情感分类器.实验结果表明:相较于传统跨语言情感分析模型,基于交叉采样和结构情感融合的半监督学习框架可以高效地利用少量源语言标注数据挖掘出大量的未标注数据中的情感知识,从而帮助目标语言学习出更优质的情感分类器.  相似文献   

2.
为了更好地发挥主动学习、半监督学习和集成学习这3种机器学习方法的优势,研究了1个不需要2个充分冗余视图、泛化能力强的高效学习算法。从聚类假设出发,给出每轮协同训练过程中添加自动标记样本的置信度度量方法,降低误标记率;提出作为主动选择未标记样本依据的贡献度的概念,贡献度越高的样本,越具有人工标记的价值,在协同训练迭代结束后,选择贡献度高的样本标记,就能增强反馈的效果,提升学习性能,提出一种基于主动学习的集成协同训练算法。应用于图像检索的实验结果表明,提出的算法是高效可行的。  相似文献   

3.
基于半监督学习的蛋白质关系抽取研究   总被引:2,自引:2,他引:0  
使用半监督学习方法中的自训练、协同训练方法,利用少量已标注样本和大量未标注样本来完成蛋白质关系抽取的任务.首先使用基于词特征的SVM(support vector machine)模型进行自训练,然后使用基于词特征的SVM模型和基于依存树特征的SVM模型进行协同训练.通过对4个语料的实验,验证了自训练及协同训练方法在蛋白质关系抽取领域中的应用效果.相比于自训练,协同训练可以通过两个相对独立的视图相互补充、相互学习,进而可以有效利用未标注数据.  相似文献   

4.
为缓解基于半监督学习的水面目标检测对有限标注样本过拟合的问题,提高无标注样本中目标提取的有效性,提出了基于多视图交叉一致性学习的半监督水面目标检测算法。首先,该算法通过数据增强的方式为训练样本生成不同的视图以丰富数据集的多样性;然后,利用所提出的多视图目标判别器为无标注样本在线生成伪标签,有助于提取无标注样本的有效信息;最后,利用所提出的多视图交叉一致性学习使同一目标实例的不同视图的输出实现交叉一致性正则化,以促进检测模型学习判别性的特征从而降低过拟合的风险。在海上和内河数据集上的实验结果表明:文中所提算法能够提高特征提取的判别性,对多类别的水面目标检测精度达到91.0%,比全监督检测算法提高了18.7%,比其他半监督检测算法提高了3.8%以上;在检测速度上,该算法达到13.1帧/s,基本满足实时性要求。所提算法通过多视图交叉一致性学习提高特征的判别性和缓解检测模型的过拟合风险,有助于提高半监督水面目标检测的性能。  相似文献   

5.
微博情感倾向分类是分析微博语句带有正向、负向或者中性情感.已有的研究大多根据手工标注微博情感极性进行有监督或半监督分类.该文主要结合了稀疏自动编码器和支持向量机,自动提取情感特征,实现了无监督的微博情感分类.实验结果表明:稀疏自动编码器在微博情感倾向分类精度上基本和手工标注情感特征算法相近,但是微博文本形式多变,自动提取情感特征适应性更强.  相似文献   

6.
基于有监督的虚假评论检测方法受限于标注语料的规模,为了更好地利用未标注评论数据来提高分类器的正确率和泛化能力,本文提出一种基于半监督主动学习的虚假评论检测方法.首先,定义并提取评论内容特征以及评论者行为特征,结合这两类特征来对虚假评论进行检测.然后,采用基于熵的主动学习算法选择对学习最有帮助的评论样本,获得其类别标注,将其合并到基于Tri-training的半监督学习算法的训练集中,利用大量未标注评论数据进行学习,提升分类器性能.最后,在领域评论数据集上进行实验,结果表明,将半监督学习与主动学习相结合,能够更有效的利用未标注评论数据,从而有效地提高虚假评论检测的效果.  相似文献   

7.
为了提高AdaBoost集成学习算法的数据分类性能,提出基于合群度-隶属度噪声检测及动态特征选择的改进AdaBoost算法. 综合考虑待检测样本与邻居样本的相似度及与不同类别样本集的隶属关系,引入合群度和隶属度的概念,提出新的噪声检测方法. 在此基础上,为了更好地选择那些能够有效区分错分样本的特征,在传统过滤器特征选择方法的基础上提出通用的结合样本权重的动态特征选择方法,以提高AdaBoost算法针对错分样本的分类能力. 以支持向量机作为弱分类器,在8个典型数据集上分别从噪声检测、特征选择及现有方法比较3个方面进行实验. 结果表明,所提算法充分考虑了噪声样本和样本权重对AdaBoost分类结果的影响,相对于传统算法在分类性能上获得显著提升.  相似文献   

8.
传统的多视图字典学习算法旨在利用多视图数据间的相关性,未能考虑多视图数据的差异性,这可能会降低字典的学习性能.受此启发,提出一种基于视图内字典原子不一致的多视图字典学习算法.该算法为每个视图学习类属字典和共享字典,同时,引入编码系数方差的最小化约束,以降低视图间字典的差异性;此外,通过每个视图编码系数与所有视图编码系数均值之间距离的加权和的最小化来约束相应特征的贡献度;然后,施加视图内字典原子的不一致性约束以降低视图内字典的冗余.最后,在两个数据集(AR和Extended Yale B数据集)上的实验验证了所提算法的有效性.  相似文献   

9.
基于CNN特征空间的微博多标签情感分类   总被引:1,自引:0,他引:1  
面对微博情感评测任务中的多标签分类问题时,基于向量空间模型的传统文本特征表示方法难以提供有效的语义特征。词向量表示能体现词语的语法和语义关系,并依据语义合成原理构建句子的特征表示。本文提出一个针对微博句子的多标签情感分类系统,采用经过有监督情感分类学习后的卷积神经网络(Convolution Neural Network, CNN)模型,将词向量合成为微博句子的向量表示,使得此CNN特征空间中的句子向量具有很好的情感语义区分度。在2013年NLPCC(Natural Language Processing and Chinese Computing)会议的微博情感评测公开数据集上,相比最优评测结果的宽松指标和严格指标,本系统的最佳分类性能分别提升了19.16%和17.75%;相比目前已知文献中的最佳分类性能,则分别提升了3.66%和2.89%。  相似文献   

10.
基于LS-SVM与模糊补准则的特征选择方法   总被引:3,自引:3,他引:0  
针对传统特征选择算法采用单一度量的方式难以兼顾泛化性能和降维性能的不足,提出新的特征选择算法(least squares support vector machines and fuzzy supplementary criterion, LS-SVM-FSC)。通过核化的最小二乘支持向量机(least squares support vector machines, LS-SVM)对每个特征的样本进行分类,使用新的模糊隶属度函数获得每个样本对其所属类的模糊隶属度,使用模糊补准则选择具有最小冗余最大相关的特征子集。试验表明:与其他10个特征选择方法与7个隶属度决定方法相比,所提算法在9个数据集上都具有很高的分类准确率和很强的降维性能,且在高维数据集中的学习速度依然很快。  相似文献   

11.
提出基于卷积-门控循环单元(convolution-gated recurrent unit, C-GRU)的微博谣言事件检测模型。结合卷积神经网络(convolutional neural networks, CNN)和门控循环单元(gated recurrent unit, GRU)的优点,将微博事件博文句向量化,通过CNN中的卷积层学习微博窗口的特征表示,将微博窗口特征按时间顺序拼接成窗口特征序列,将窗口特征序列输入GRU中学习序列特征表示进行谣言事件检测。在真实数据集上的试验结果表明,相比基于传统机器学习方法、CNN和GRU的谣言检测模型,该模型有更好的谣言识别能力。  相似文献   

12.
为了解决传统图卷积神经网络在进行谣言检测时面临的未充分考虑单词语义信息以及池化方法选择困难的问题,提出基于图卷积网络(GCN)的归纳式微博谣言检测新方法. 考虑单词之间的语义关系,结合传统词共现建图方法提出基于词语义相关性的微博事件建图方法,并结合图卷积网络和门循环单元(GRU)实现节点信息聚合;为了有效融合不同节点状态的特征信息,提出基于注意力机制的多池化方法融合策略融合最大池、平均池和全局池以获取最终的图级向量;为了提高微博谣言检测效率,探究微博评论时间对检测结果的影响,获得用于模型训练的最佳评论利用时间阈值. 实验结果表明,本研究方法在给定数据集上的表现普遍优于Text-CNN、Bi-GCN、TextING等典型方法,验证了其在微博谣言检测领域的有效性.  相似文献   

13.
从相关熵的角度出发,提出一种基于相关熵和特征流形学习的稀疏正则化方法,用于解决多标签特征选择问题。在相关熵定义的基础上给出多标签特征选择的回归模型;结合?2, 1范数的性质和特征流形学习的定义建立基于相关熵和特征流形学习的稀疏正则化多标签特征选择模型及算法;证明该算法的收敛性并且通过试验验证所给算法的有效性。  相似文献   

14.
潘思远    刘园奎    毛煜    林耀进   《南京师范大学学报》2023,(1):066-74
多标记学习可以同时处理与一组标记相关的数据,多标记学习的研究对于多义性对象的学习建模具有十分重要的意义. 与传统的单标记学习一样,数据的高维性是多标记学习的阻碍,因此数据降维是一项十分重要的工作,而特征选择是一种有效的数据降维技术. 提出了基于邻域近似误差率的多标记特征选择算法. 首先,在邻域粗糙集理论的基础上,引入实例的边界来对所有实例进行粒度化. 其次,基于邻域决策误差率提出了邻域近似误差率的策略来评价特征. 最后,在公开的数据集上进行了大量的实验,结果表明所提算法的有效性.  相似文献   

15.
王晨曦    刘园奎    吕彦    林耀进   《南京师范大学学报》2022,(4):009-18
在实际应用领域中,存在许多特征空间无法预先给定的场景,数据以特征流的形式随时间动态流入特征空间,而样本数量是固定不变的. 同时,数据的类别中往往存在丰富的层次化结构关系,传统的特征选择算法在性能上已无法满足需求. 基于此,本文提出一种面向层次分类学习的在线流特征选择算法. 首先,利用兄弟节点之间的关系设计了一种基于最大近邻的决策误差率计算公式. 其次,设计在线重要性选择和在线冗余更新两种在线评估准则,用于选择决策误差最小的特征子集. 最后,在6个层次数据集上的实验结果表明,所提算法优于一些现有的在线流特征选择算法.  相似文献   

16.
随着社交网络的快速发展,微博已成为一种信息扩散传播的平台。鉴于微博信息扩散的特点,挖掘微博转发过程中的潜在规律对于舆情监控、热点话题追踪、产品营销等有着重要意义。以新浪微博作为数据源,以用户和微博内容作为特征源,引入机器学习中的神经网络预测算法建立预测模型,实现对微博的转发预测。结果表明,与传统预测方法的对比,对微博转发可以做出较高准确率的预测。  相似文献   

17.
传统的单一特征很难准确描述目标的外观特征,无法对目标进行大范围的精确跟踪。针对这一问题,提取卷积特征和颜色直方图特征分别训练相关滤波模型,并提出了一种动态权重策略可自适应地融合两种特征响应图。在模型更新方面,引入目标周围的背景信息,共同训练相关滤波器。将该算法在OTB2013和OTB2015数据集上进行了测试。实验结果表明,该算法可以有效地提高跟踪的准确性和成功率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号