首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于随机游走模型的跨领域倾向性分析研究   总被引:1,自引:1,他引:1  
近年来,研究者们已经在跨领域倾向性分析方面取得了一些进展.然而,现有的方法和系统往往只根据已标注文本或者已标注情感词对目标领域文本进行倾向性分析,却缺乏一个统一的模型框架将文本与情感词之间全部知识进行有机的融合.提出了一种基于随机游走模型的跨领域倾向性分析方法,该模型能够同时利用源领域和目标领域文本与词之间的所有关系来对文本与词进行互相增强,旨在将文本之间的关系、词之间的关系、文本与词之间的相互关系集成到一个完整的理论框架中.实验结果表明,提出的算法能大幅度提高跨领域倾向性分析的精度.  相似文献   

2.
文本的情感分类问题,即判断文本中的论断是持支持态度还是反对态度.已有的研究表明,监督分类方法对情感分类很有效.但是多数情况下,已有的标注数据与待判断情感类别的数据不属于同一个领域,此时监督分类算法的性能明显下降,由此产生的即为跨领域情感分类问题.为解决此问题,提出一个统一框架,分多阶段进行跨领域情感分类:首先利用训练域文本的准确标签来得到测试域文本的初始标签;然后将测试域建成一个加权网络,将一些较准确的测试文本作为"源点"和"汇点",进一步利用热传导思想迭代进行跨领域情感分类.实验结果表明,此方法能大幅度提高跨领域情感分类的精度.  相似文献   

3.
该文主要研究文本的倾向性分析问题,即判断文本中的论断是正面还是负面的。已有的研究表明,监督分类方法对倾向性分析很有效。但是,多数情况下,已有的标注数据与待判断倾向性的数据不属于同一个领域,此时监督分类算法的性能明显下降。为解决此问题,该文提出一个算法,将文本的情感倾向性与图排序算法结合起来进行跨领域倾向性分析,该算法在图排序算法基础上,利用训练域文本的准确标签与测试域文本的伪标签来迭代进行倾向性分析。得到迭代最终结果后,为充分利用其中倾向性判断较为准确的测试文本来提高整个测试集倾向性分析的精度,将这些较准确的测试文本作为“种子”,进一步通过EM算法迭代进行跨领域倾向性分析。实验结果表明,该文提出的方法能大幅度提高跨领域倾向性分析的精度。  相似文献   

4.
一种基于跨领域典型相关性分析的迁移学习方法   总被引:4,自引:0,他引:4  
作为迁移学习的一个重要研究方向,基于特征映射的方法学习各领域特有特征与领域共享特征之间的相关性,通过一些相关特征减少领域之间的差异,已经获得了广泛的关注和研究。典型相关性分析是一种用来分析两组随机变量之间相关性的统计分析工具。将典型相关性分析引入迁移学习,结合基于特征映射迁移学习的思路,提出了一种跨领域典型相关性分析算法。该算法在保持各领域特有特征与领域共享特征相关性的基础上,通过选择合适的基向量组合训练分类器,使降维后的相关特征在领域间具有相似的判别性。在20Newsgroups 上864个分类问题以及多领域情感分析数据集上12个分类问题的实验结果表明,跨领域典型相关性分析算法可以有效地提高跨领域迁移分类准确率。  相似文献   

5.
针对传统监督分类方法不能很好地处理不同领域中服从不同分布的数据这一问题进行了研究,提出了一种基于可信标签扩展传递的半监督分类算法。情感种子词与目标领域待标注词之间按照相似度进行标签传递,将具有可信标签的词迭代移入情感种子词集实现扩展,结合目标领域词的先验情感分计算出最终情感分,从而有效地实现跨领域倾向性分析。实验表明,本文的方法能够大幅度提高跨领域情感分析的准确率。  相似文献   

6.
情感倾向性判断是指根据文本表述分析文本的倾向性,即发表文本的作者所持有的支持或反对的态度,对于特定领域的情感倾向性研究尤以运用监督分类方法所得出的实验结果较为理想。但若将此类方法直接运用于不同领域的文本,其效果却难以尽如人意。在这种情况下,如何利用已标注情感倾向性的源领域文本去判断未知情感倾向性的目标领域文本的倾向性,即跨领域的情感倾向性分析问题——成为当前研究的热点。为此,该文提出一种基于SimRank的跨领域情感倾向性分析算法,把在源领域和目标领域中共现的词汇作为连接两个领域的桥梁,利用情感词典和SimRank算法找出潜在情感空间,然后使用SVM对已标注的源领域进行训练进而得到训练模型,以便利用此模型预测目标领域的情感倾向性。该文亦通过相关实验所得到的实验结果表明了此方法的有效性。  相似文献   

7.
8.
9.
倪超  陈翔  刘望舒  顾庆  黄启国  李娜 《软件学报》2019,30(5):1308-1329
在实际软件开发中,需要进行缺陷预测的项目可能是一个新启动项目,或者这个项目的历史训练数据较为稀缺.一种解决方案是利用其他项目(即源项目)已搜集的训练数据来构建模型,并完成对当前项目(即目标项目)的预测.但不同项目的数据集间会存在较大的分布差异性.针对该问题,从特征迁移和实例迁移角度出发,提出了一种两阶段跨项目缺陷预测方法FeCTrA.具体来说,在特征迁移阶段,该方法借助聚类分析选出源项目与目标项目之间具有高分布相似度的特征;在实例迁移阶段,该方法基于TrAdaBoost方法,借助目标项目中的少量已标注实例,从源项目中选出与这些已标注实例分布相近的实例.为了验证FeCTrA方法的有效性,选择Relink数据集和AEEEM数据集作为评测对象,以F1作为评测指标.首先,FeCTrA方法的预测性能要优于仅考虑特征迁移阶段或实例迁移阶段的单阶段方法;其次,与经典的跨项目缺陷预测方法TCA+、Peters过滤法、Burak过滤法以及DCPDP法相比,FeCTrA方法的预测性能在Relink数据集上可以分别提升23%、7.2%、9.8%和38.2%,在AEEEM数据集上可以分别提升96.5%、108.5%、103.6%和107.9%;最后,分析了FeCTrA方法内的影响因素对预测性能的影响,从而为有效使用FeCTrA方法提供了指南.  相似文献   

10.
跨项目软件缺陷预测是解决项目初期缺陷预测缺乏数据集的有效途径,但是项目间的差异性降低了预测准确率。针对这一问题,研究提出了基于实例迁移的跨项目缺陷预测方法。该方法采用迁移学习和自适应增强技术,从其他项目数据集中提取并迁移转化出与目标数据集关联性高的训练数据集,训练出更有效的预测模型。使用PROMISE数据集进行了对比实验,结果表明所提出的新方法有效避免了单源单目标缺陷预测两极分化问题,获得了更高的预测准确率和查全率;在目标项目数据集不足的情况下,能达到甚至超过数据集充足时项目内缺陷预测的预测效果。  相似文献   

11.
12.
传统的单领域推荐算法受限于用户和项目的稀疏关系,存在用户/项目冷启动的问题,并且,其仅以用户对项目评分进行建模,忽略了评论文本中所蕴含的信息。基于评论文本的跨领域推荐算法在辅助领域提取用户/项目的评论信息来缓解目标领域的数据稀疏问题,以提高推荐的准确率。文中提出了结合自注意力机制和迁移学习的跨领域推荐算法SAMTL(Self-Attention Mechanism and Transfer Learning)。与现有算法不同,SAMTL充分融合了目标领域和辅助领域的知识。首先,引入自注意力机制建模用户的喜好信息;其次,通过交叉映射跨域传输网络实现借助一个领域的信息来提高另一个领域的推荐准确率;最后,在知识融合模块和评分预测模块整合两个域的信息,进行评分预测。在Amazon数据集上的实验表明,与现有的跨领域推荐模型相比,SAMTL的MAE和MSE值更高,在3种不同的跨领域数据集上的MAE值分别提高了8.4%,13.2%和19.4%,MSE值分别提高了6.3%,7.8%和5.6%。通过多项实验验证了自注意力机制和迁移学习的有效性,以及它们在缓解数据稀疏和用户冷启动问题方面的优势。  相似文献   

13.
近年来,方面级情感分析吸引了越来越多学者的关注,但方面级跨领域情感分析存在没有标注数据,难以获得好的分类结果的问题。将上下文特征与方面特征进行融合,构建基于卷积神经网络和门控单元的情感分类模型,并利用少量目标领域数据集对模型进行微调来实现迁移学习,再用迁移学习后的模型对目标领域的数据进行方面级情感分析,有效解决了训练样本不足、准确率低的问题。人工标注了适用于方面级跨领域情感分析的中、英文语料,所提出的方法在中文数据集最优的F1值达到92.19%,英文数据集最优的F1值达到了86.18%,实验结果表明基于卷积神经网络的方面级跨领域情感分析方法有效提高了目标领域的情感分类准确性。  相似文献   

14.
在实际应用场景中,情感分析技术为自动判别文本情感极性提供了有效的决策及解决方案,但是文本情感分析技术依赖于大量的标定样本.为了减小对人工标注的依赖,有研究者提出了基于领域自适应的跨领域情感分析技术.该技术面向跨领域文本情感分析任务,将经由标定样本训练的源领域模型,迁移至无标定的目标领域.然而目前的领域自适应技术仅从单个角度进行迁移,即减小领域专有特征差异或提取领域不变特征.因此考虑到跨领域文本数据同时包含领域专有特征和领域不变特征的特点,提出了一种领域对齐对抗的无监督跨领域文本情感分析算法.该算法通过渐进式的迁移策略,逐层减小不同语义层的领域差异,并在高层语义子空间通过协同优化的领域自适应算法,实现跨领域文本数据的领域知识迁移.在2个公开跨领域文本情感数据集上的24组跨领域文本情感分类实验结果表明,与4类领域自适应算法中代表性的和当前表现最优的方法相比,领域对齐对抗的无监督跨领域文本情感分析算法在24组实验中取得了最高的平均分类准确率,同时结合迁移性能分析结果和特征分布可视化结果,证明该算法一定程度上提升了现有无监督跨领域文本情感分析算法的分类性能和迁移性能.  相似文献   

15.
跨领域文本情感分类研究进展   总被引:1,自引:0,他引:1  
赵传君  王素格  李德玉 《软件学报》2020,31(6):1723-1746
作为社会媒体文本情感分析的重要研究课题之一,跨领域文本情感分类旨在利用源领域资源或模型迁移地服务于目标领域的文本情感分类任务,其可以有效缓解目标领域中带标签数据不足问题.从3个角度对跨领域文本情感分类方法行了归纳总结:(1)按照目标领域中是否有带标签数据,可分为直推式和归纳式情感迁移方法;(2)按照不同情感适应性策略,可分为实例迁移方法、特征迁移方法、模型迁移方法、基于词典的方法、联合情感主题方法以及图模型方法等;(3)按照可用源领域个数,可分为单源和多源跨领域文本情感分类方法.此外,还介绍了深度迁移学习方法及其在跨领域文本情感分类的最新应用成果.最后,围绕跨领域文本情感分类面临的关键技术问题,对可能的突破方向进行了展望.  相似文献   

16.
近年来,跨领域文本倾向性分析已成为自然语言处理领域的一个研究热点.它利用已经标注倾向性的源领域文本,预测目标领域文本的倾向性.然而,由于不同领域的数据往往服从不同的分布,导致传统的监督分类模型通常不能取得理想的效果.为解决以上问题,提出了一种基于加权SimRank的分析模型.本模型在加权SimRank算法的基础上,构建潜在特征空间,然后在潜在特征空间下学习得到映射函数,并对每个样本重新映射,从而缩小了不同领域间的数据分布差异,实现了跨领域情感分类.最后,通过实验验证了该方法的有效性.  相似文献   

17.
黄贤立 《计算机工程》2010,36(24):186-188
跨领域的文本分类,是指利用有标记领域的知识去帮助另一个概率分布不同的,未标记领域的知识进行分类的问题。从多视图学习的视角提出一个新的跨领域文本分类的方法(MTV算法)。通过在核空间典型相关分析中引入与标记相关的信息,MTV算法可以得到一个判别性能更优的公共子空间。在多个情感类文本数据上的实验表明,MTV算法可以大大提升传统监督式学习算法面对领域迁移时的分类性能,并且在引入判别式的核空间典型相关分析后,进一步优化性能。  相似文献   

18.
由于中文文本之间没有分隔符,难以识别中文命名实体的边界.此外,在垂直领域中难以获取充足的标记完整的语料,例如医疗领域和金融领域等垂直领域.为解决上述不足,提出一种动态迁移实体块信息的跨领域中文实体识别模型(TES-NER),将跨领域共享的实体块信息(entity span)通过基于门机制(gate mechanism)的动态融合层,从语料充足的通用领域(源领域)动态迁移到垂直领域(目标领域)上的中文命名实体模型,其中,实体块信息用于表示中文命名实体的范围.TES-NER模型首先通过双向长短期记忆神经网络(BiLSTM)和全连接网络(FCN)构建跨领域共享实体块识别模块,用于识别跨领域共享的实体块信息以确定中文命名实体的边界;然后,通过独立的基于字的双向长短期记忆神经网络和条件随机场(BiLSTM-CRF)构建中文命名实体识别模块,用于识别领域指定的中文命名实体;最后构建动态融合层,将实体块识别模块抽取得到的跨领域共享实体块信息通过门机制动态决定迁移到领域指定的命名实体识别模型上的量.设置通用领域(源领域)数据集为标记语料充足的新闻领域数据集(MSRA),垂直领域(目标领域)数据集为混合领域(OntoNotes 5.0)、金融领域(Resume)和医学领域(CCKS 2017)这3个数据集,其中,混合领域数据集(OntoNotes 5.0)是融合了6个不同垂直领域的数据集.实验结果表明,提出的模型在OntoNotes 5.0、Resume和CCKS 2017这3个垂直领域数据集上的F1值相比于双向长短期记忆和条件随机场模型(BiLSTM-CRF)分别高出2.18%、1.68%和0.99%.  相似文献   

19.
为了提高作者识别的跨领域鲁棒性,解决作者写作规律在不同领域间的迁移问题,该文首先通过分析和实验发现:名词具有较高的领域相关性。然后,采用文本变形算法将名词掩盖掉,以此来降低相关特征的权重,从而迫使机器学习算法选择领域关联度更低的特征拟合样本,进而提高模型的泛化能力。在由21 953个样本组成的跨领域作者识别的实验中,该文分别采用了基于字N-gram、基于BERT和基于集成学习的三种典型作者识别方法,对比了无掩盖和掩盖名词、形容词、动词、副词、功能词的作者识别,其中掩盖名词后的作者识别方法获得了较高的评价指标。实验结果表明,掩盖名词的方法可以提高作者识别的跨领域鲁棒性。  相似文献   

20.
邵忻 《计算机应用》2014,34(4):1169-1171
针对基于单一领域主动学习的图像分类方法不能利用不同领域图像共同特征导致标记效率低下的问题,提出一种基于跨领域主动学习的图像分类方法。由不同领域图像学习出含共同隐特征的子空间,综合考虑共同特征和领域相关特征,将数据实例引起的模型损失减少量分解到一个共同部分和领域相关部分,从而领域间的共同信息可以编码到模型损失减少的共同部分并用来进行查询。实验结果显示该方法相对于单一模型学习和混合模型学习方法可以减少将近30%的标记工作,并且可以获得更高的精度,表明该方法可以更高效地运用于各种图像分类任务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号