首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
针对监督学习方法在文本的跨领域情感分析效果较差的问题,提出基于质心迁移的领域间适应性情感分类方法。该方法利用源领域的标注文本对目标领域的大量未标注文本进行分类,选择一部分可信度高的文本加入到训练集,同时去除源领域中距离目标领域测试集质心较远的文本,通过迭代逐渐缩小两个领域间的质心距离,减小领域间差异。实验结果表明,该方法能提高跨领域倾向性分析的精度。  相似文献   

2.
文本的情感分类问题是近年来数据挖掘领域的一个研究热点。传统做法常用监督分类方法对文本进行情感分类时,其前提是假设训练集与测试集的数据分布相同,然而在实际情况下已标注数据与测试数据常常不属于同一个领域,这种数据分布差异导致文本情感分类准确率下降。为了解决以上问题,本文提出了一种基于EM算法的跨领域情感分类方法,首先从多个源领域结合目标领域生成一个情感倾向参考表,其次利用改进的EM算法参考该表迭代调节目标领域分类器的分类结果直到该结果可以与参考表匹配。实验结果表明,本文提出的方法在一定程度上提高了跨领域情感分类的准确性。  相似文献   

3.
跨领域文本情感分类研究进展   总被引:1,自引:0,他引:1  
赵传君  王素格  李德玉 《软件学报》2020,31(6):1723-1746
作为社会媒体文本情感分析的重要研究课题之一,跨领域文本情感分类旨在利用源领域资源或模型迁移地服务于目标领域的文本情感分类任务,其可以有效缓解目标领域中带标签数据不足问题.本文从三个角度对跨领域文本情感分类方法行了归纳总结:(1)按照目标领域中是否有带标签数据,可分为直推式和归纳式情感迁移方法;(2)按照不同情感适应性策略,可分为实例迁移方法、特征迁移方法、模型迁移方法、基于词典的方法、联合情感主题方法以及图模型方法等;(3)按照可用源领域个数,可分为单源和多源跨领域文本情感分类方法.此外,论文还介绍了深度迁移学习方法及其在跨领域文本情感分类的最新应用成果.最后,论文围绕跨领域文本情感分类面临的关键技术问题,对可能的突破方向进行了展望.  相似文献   

4.
为了解决文本分类任务中未标注数据无法即时标注及成本过高的问题,提出一种面向文本分类的不确定性主动学习方法.提出MSDL(Measure sample density by LDA)算法对未标注样本密集度进行计算,引入新的度量样本聚集情况的密集度计算方式,在密集度高的样本区域选取初始训练集样本,从而使初始训练集更具代表性...  相似文献   

5.
属性级情感分类是情感分析领域中一个细粒度的情感分类任务,旨在判断文本中针对某个属性的情感极性.现有的属性级情感分类方法大多是使用同一种语言的标注文本进行模型的训练与测试,而现实中很多语言的标注文本规模并不足以训练一个高性能的模型,因此跨语言属性级情感分类是一个亟待解决的问题.跨语言属性级情感分类是指利用源语言文本的语义...  相似文献   

6.
在实际应用场景中,情感分析技术为自动判别文本情感极性提供了有效的决策及解决方案,但是文本情感分析技术依赖于大量的标定样本.为了减小对人工标注的依赖,有研究者提出了基于领域自适应的跨领域情感分析技术.该技术面向跨领域文本情感分析任务,将经由标定样本训练的源领域模型,迁移至无标定的目标领域.然而目前的领域自适应技术仅从单个角度进行迁移,即减小领域专有特征差异或提取领域不变特征.因此考虑到跨领域文本数据同时包含领域专有特征和领域不变特征的特点,提出了一种领域对齐对抗的无监督跨领域文本情感分析算法.该算法通过渐进式的迁移策略,逐层减小不同语义层的领域差异,并在高层语义子空间通过协同优化的领域自适应算法,实现跨领域文本数据的领域知识迁移.在2个公开跨领域文本情感数据集上的24组跨领域文本情感分类实验结果表明,与4类领域自适应算法中代表性的和当前表现最优的方法相比,领域对齐对抗的无监督跨领域文本情感分析算法在24组实验中取得了最高的平均分类准确率,同时结合迁移性能分析结果和特征分布可视化结果,证明该算法一定程度上提升了现有无监督跨领域文本情感分析算法的分类性能和迁移性能.  相似文献   

7.
针对目标领域带标签数据偏少的问题,综合运用半监督学习、BootStrapping、数据分组、AdaBoost、集成学习等策略与技术,提出了一种基于分组提升集成的跨领域文本情感分类方法。该方法首先利用少量人工标注的目标领域数据,基于合成过抽样技术产生一定数量的虚拟数据。在此基础上,采用BootStrapping方法获得更多目标领域高可信度的带标签数据。在分类器的构建方面,首先将源领域的带标签数据等量分割,并分别与目标领域带标签数据组合,在每个组合数据块上运用AdaBoost方法提升地训练多个分类器,并将这些分类器线性地集成为一个分类器。在亚马逊购物网站4个领域的情感数据集上的实验表明,基于分组提升集成的跨领域文本情感分类方法一定程度上提高了跨领域文本情感分类的精度。  相似文献   

8.
方面级情感分类是自然语言处理研究领域的一个热点问题,旨在分类出文本中不同方面的情感.目前,大多数深度神经网络情感分类模型都采用均值注意力机制,这导致情感词不能有效获得相应权重的问题.为此,提出一种基于对抗学习的自适应加权方面级情感分类模型AWSCM(Adaptive Weighted aspect-level Sentiment Classification Model based on adversarial learning),旨在自适应地学习文本权重.首先,将训练文本预处理成方面词、句子、句子对形式的输入,通过BERT对输入编码.然后,通过对抗学习算法和训练文本计算扰动生成对抗样本.最后,通过注意力机制提取训练文本和对抗样本编码后的深层文本特征和自适应权重,再进行联合学习.实验结果表明,和大多数深度神经网络情感分类模型相比,AWSCM能提升情感分类的准确性.同时,通过消融实验,证明了AWSCM结构设计的合理性.  相似文献   

9.
情感分类是目前自然语言处理领域的一个热点研究问题。该文关注情感分类中的半监督学习方法(即基于少量标注样本和大量未标注样本进行学习的方式),提出了一种新的基于动态随机特征子空间的半监督学习方法。首先,动态生成多个随机特征子空间;然后,基于协同训练(Co-training)在每个特征子空间中挑选置信度高的未标注样本;最后使用这些挑选出的样本更新训练模型。实验结果表明我们的方法明显优于传统的静态产生方式及其他现有的半监督方法。此外该文还探索了特征子空间的划分数目问题。  相似文献   

10.
现有的跨领域情感分类方法大多只利用了单个源领域到目标域的迁移特征,没有充分考虑目标域实例与不同源域之间的联系。针对此问题,本文提出一种无监督的多源跨领域情感分类模型。首先利用单个源域到目标域的迁移特征训练基分类器,并对不同的基分类器加权;然后将不同基分类器对目标域实例预测的集成一致性作为目标函数,优化该目标函数,得到不同基分类器的权重;最后利用加权后的基分类器得到目标域的情感分类结果。该模型在Amazon数据集上进行了多源域情感迁移实验,取得了较好的实验结果,相对其他基线模型,在4组实验中平均提升了0.75%。  相似文献   

11.
急切分类与懒散分类的研究   总被引:1,自引:0,他引:1  
本文主要以决策树归纳算法和 k-最近邻分类算法为例 ,对数据挖掘中的急切分类算法和懒散分类算法进行了比较 ,并介绍了一种具有这两类分类算法优点的新的分类算法及该算法的实现方法  相似文献   

12.
随着电子商务的不断发展,对用户的分析和分类越来越重要,因此需要一个行之有效的方法来对用户进行分类。针对网站日志数据的特点和各种数据挖掘算法的应用特征,尝试用基于关联规则的分类算法来对网站客户进行分类。实验证明此方法是有效的,其结果可以作为提供个性化服务的依据。  相似文献   

13.
针对现有关联分类算法资源消耗大、规则剪枝难、分类模型复杂的缺陷,提出了一种基于分类修剪的关联分类算法改进方案ACCP.根据分类属性值的不同对分类规则前项进行分块挖掘,并对频繁项集挖掘过程和规则修剪进行了改进,有效提高了分类准确率和算法运行效率.实验结果表明,此算法改进方案相比传统CBA算法和C4.5决策树算法有着更高的分类准确率,取得了较好的应用效果.  相似文献   

14.
Abstract

This article devotes four sections to addressing specific information classification topics and what policies for those topics might look like. Included in the text will be a formal discussion on each of the topics and examples of existing policy statements. The author will analyze these policies and establish the framework for the development of such policies for any organization. The first topic to be discussed will be information classification. From there the author will examine the need for an e-mail policy and then an Internet policy along with the supporting awareness program needed for Internet compliance. Finally, the author will establish a basic list of corporate level policies that every organization should have along with the sight modification required to support an information security program.  相似文献   

15.
Theory of Computing Systems -  相似文献   

16.
遥感图像分类是遥感领域的研究热点之一.提出了一种基于自适应区间划分的模糊关联遥感图像分类方法(fuzzy associative remote sensing classification,FARSC).算法根据遥感图像分类的特点,利用模糊C均值聚类算法自适应地建立连续型属性模糊区间,使用新的剪枝策略对项集进行筛选从而避免生成无用规则,采用一种新的规则重要性度量方法对多模糊分类规则进行融合,从而有效地提高分类效率和精确度.在UCI数据和遥感图像上所作实验结果表明,算法具有较高的分类精度以及对样本数量变化的不敏感性,对于解决遥感图像分类问题,FARSC算法具有较高的实用性,是一种有效的遥感图像分类方法.  相似文献   

17.
分类激活图(CAM)具有稀疏、不连续、不完整等问题,并且目前大部分研究仅将其用于可视化分析。基于此,首先利用扩张卷积设计了自动加权的多尺度特征学习来弥补分类激活图存在的问题,并将该多尺度特征与分类激活图生成方法结合,设计了多尺度分类激活图生成方法。进一步,将该多尺度的分类激活图嵌入到网络中构成了端到端的结构,实现分类性能增强的目的。以残差网络ResNet为骨干网络,提出了分类增强模型ResNet-CE。在三个公开数据集CIFAR10、CIFAR100和STL10上,对该模型进行了大量的实验。实验表明:ResNet-CE在这三个数据集上的分类性能与参数量相当的ResNet相比有明显的提升,识别的错误率分别降低了0.23%、3.56%和7.96%,并且分类性能优于当前大部分的分类网络。提出的算法能够简单地迁移到已有的分类模型中,提高原有模型的分类性能。同时,该算法保留了对模型判断依据可视化和解释的功能,这在医疗影像中的疾病识别、无人驾驶的场景识别等场景中具有一定的应用价值和意义。  相似文献   

18.
随着移动通信技术的不断发展,手机的普及率在不断上升,而短信作为传统的移动通信服务,长久以来一直在人们的日常生活中占据着极为重要的位置。可以说,短信在一定程度上记录了人们生活的轨迹。但是,现有的短信管理系统仅对短信进行以联系人为特征分类、以时间为顺序显示的简单非智能化的管理,导致了用户手机中各类短信混杂不清,短信的管理效率极低。通过研究短信的特征,分析传统的基于文档频率的特征值提取方法和基于互信息的特征值提取方法的优势与不足,提出了一种适用于短信的基于词频和互信息的特征值提取方法,并结合短信长度实现了一种改进的贝叶斯分类算法。实验证明,算法在进行短信分类时可以得到相当可观的召回率和准确率。  相似文献   

19.
基于扩展角分类神经网络的文档分类方法   总被引:10,自引:0,他引:10  
CC4神经网络是一种三层前馈网络的新型角分类(corner classification)训练算法,原用于元搜索引擎Anvish的文档分类.当各文档之间的规模接近时,CC4神经网络有较好的分类效果.然而当文档之间规模差别较大时,其分类性能较差.针对这一问题,本文意图扩展原始CC4神经网络,达到对文档有效分类的效果.为此,提出了一种基于MDS-NN的数据索引方法,将每一文档映射至k维空间数据点,并尽可能多地保持原始文档之间的距离信息.其次,通过将索引信息变换为CC4神经网络接受的0,1序列,实现对CC4神经网络的扩展,使其能够接受索引信息作为输入.实验结果表明对相互之间规模差别较大的文档,扩展CC4神经网络的性能优于原始CC4神经网络的性能.同时,扩展CC4神经网络的分类精度与文档索引方法有密切关系.  相似文献   

20.
基于FIFA算法的文本分类   总被引:9,自引:0,他引:9  
本文提出了一种简单有效的文本分类方法,其中采用基于FIFA算法的内容主题分析技术,实现文本的自动分类过程。文中详细论述了文本自动分类的基本过程和FIFA算法描述,最后给出了文本自动分类的实验结果和评价。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号