首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
中文分词是中文信息处理领域的一项关键基础技术。随着中文信息处理应用的发展,专业领域中文分词需求日益增大。然而,现有可用于训练的标注语料多为通用领域(或新闻领域)语料,跨领域移植成为基于统计的中文分词系统的难点。在跨领域分词任务中,由于待分词文本与训练文本构词规则和特征分布差异较大,使得全监督统计学习方法难以获得较好的效果。该文在全监督CRF中引入最小熵正则化框架,提出半监督CRF分词模型,将基于通用领域标注文本的有指导训练和基于目标领域无标记文本的无指导训练相结合。同时,为了综合利用各分词方法的优点,该文将加词典的方法、加标注语料的方法和半监督CRF模型结合起来,提高分词系统的领域适应性。实验表明,半监督CRF较全监督CRF OOV召回率提高了3.2个百分点,F-值提高了1.1个百分点;将多种方法混合使用的分词系统相对于单独在CRF模型中添加标注语料的方法OOV召回率提高了2.9个百分点,F-值提高了2.5个百分点。  相似文献   

2.
3.
4.
跨领域中文评论的情感分类研究   总被引:1,自引:0,他引:1  
主要对跨领域中文评论句中的各个评价对象所对应的观点表达的情感倾向进行研究。在结合单一领域特别是产品领域中情感分类的常用算法以及结合跨领域评论观点表达的特殊性的基础上,提出了基于词典资源和有监督机器学习这两种方法来对跨领域中文评论句进行情感分类,探讨了跨领域中文评论在算法上与单一领域的异同,同时对两种方法进行了比较。实验结果表明,提出的方法具有较大的实用价值。  相似文献   

5.
想必大家都有这样的经历,从网络上复制或者下载的文章,一粘贴到文档里,发现里面的标点符号统统都是英文半角标点符号,通篇文章都是中文,却要和这种英文标点符号搭在一起,有些别扭。  相似文献   

6.
情感分析已经成为当今自然语言处理领域的热点问题。对于文本的自动化、半监督式的情感分析研究具有广泛的理论和实用价值。基于情感词典的情感倾向分析方法是文本情感分析的一种重要 手段。然而,中文词汇在不同领域中的情感倾向不尽相同,一词多义现象明显。同时,不同领域中的情感词也具有专业性、领 域性的特点。针对这些问题,本文提出一种基于词向量相似度的半监督情感极性判断算法 (Sentiment orientation from word vector,SO-WV),并依据该算法设计出一种跨领域的中文情感词典构建方法。实验证明,本文所设计的情感词典构建方法能有效地对情感词情感倾向进行判断。算法不仅在不同领域的情感词典 建立上具有良好的可移植性,同时还具有专业性、领域性的特点。  相似文献   

7.
8.
中文标点符号预测是自然语言处理的一项重要任务,能够帮助人们消除歧义,更准确地理解文本。为解决传统自注意力机制模型不能处理序列位置信息的问题,提出一种基于自注意力机制的中文标点符号预测模型。在自注意力机制的基础上堆叠多层Bi-LSTM网络,并结合词性与语法信息进行联合学习,完成标点符号预测。自注意力机制可以捕获任意两个词的关系而不依赖距离,同时词性和语法信息能够提升预测标点符号的正确率。在真实新闻数据集上的实验结果表明,该模型F1值达到85.63%,明显高于传统CRF、LSTM预测方法,可实现对中文标点符号的准确预测。  相似文献   

9.
10.
跨领域文本情感分类研究进展   总被引:1,自引:0,他引:1  
赵传君  王素格  李德玉 《软件学报》2020,31(6):1723-1746
作为社会媒体文本情感分析的重要研究课题之一,跨领域文本情感分类旨在利用源领域资源或模型迁移地服务于目标领域的文本情感分类任务,其可以有效缓解目标领域中带标签数据不足问题.从3个角度对跨领域文本情感分类方法行了归纳总结:(1)按照目标领域中是否有带标签数据,可分为直推式和归纳式情感迁移方法;(2)按照不同情感适应性策略,可分为实例迁移方法、特征迁移方法、模型迁移方法、基于词典的方法、联合情感主题方法以及图模型方法等;(3)按照可用源领域个数,可分为单源和多源跨领域文本情感分类方法.此外,还介绍了深度迁移学习方法及其在跨领域文本情感分类的最新应用成果.最后,围绕跨领域文本情感分类面临的关键技术问题,对可能的突破方向进行了展望.  相似文献   

11.
以企业AVIDM系统应用为背景,结合企业实际协同需求,对域间协同组件设计和实现进行了描述,重点阐述了跨域会签和外域任务调度,最后通过实例证明了通过域间协同组件,实现与同系统其它科研生产联合体基于图文档、产品结构研制过程的协同;通过信息跨域共享,提高单位间协调研制效率.  相似文献   

12.
随着计算机网络的广泛应用,网络安全问题日益重要:本文分析了时下流行的网页木马的原理、Internet Explorer所实施的跨域安全模型及网页木马所利用的几个严重的跨域漏洞。旨在帮助用户提高安全意识,做好网络安全防范.  相似文献   

13.
文本的情感分类问题是近年来数据挖掘领域的一个研究热点。传统做法常用监督分类方法对文本进行情感分类时,其前提是假设训练集与测试集的数据分布相同,然而在实际情况下已标注数据与测试数据常常不属于同一个领域,这种数据分布差异导致文本情感分类准确率下降。为了解决以上问题,本文提出了一种基于EM算法的跨领域情感分类方法,首先从多个源领域结合目标领域生成一个情感倾向参考表,其次利用改进的EM算法参考该表迭代调节目标领域分类器的分类结果直到该结果可以与参考表匹配。实验结果表明,本文提出的方法在一定程度上提高了跨领域情感分类的准确性。  相似文献   

14.
受成像载体、成像光谱和成像条件等的影响,跨域图像在不同领域的应用日益增多,跨域图像检索已成为了许多领域研究的热点和前言。然而图像的跨域检索面临着图像视觉偏差的问题,通过传统同域图像检索的方法无法有效地得到结果。通过文献调研,系统梳理了近年来跨域图像检索领域的代表性方法。对跨域图像检索任务作出了简要说明并指出了关键问题;根据图像域的不同转换阶段,将跨域图像检索方法分为两类:基于特征空间迁移和基于图像域迁移的跨域图像检索方法,并对两类方法进行了系统总结和分析;整理了跨域图像检索在不同领域的数据集,对比了各类方法的性能;总结了现有跨域检索方法并对未来的研究方向进行了展望。  相似文献   

15.
跨域目标检测是最近兴起的研究方向,旨在解决训练集到测试集的泛化问题.在已有的方法中利用图像风格转换并在转换后的数据集上训练模型是一个有效的方法,然而这一方法存在不能端到端训练的问题,效率低,流程繁琐.为此,我们提出一种新的基于图像风格迁移的跨域目标检测算法,可以把图像风格迁移和目标检测结合在一起,进行端到端训练,大大简...  相似文献   

16.
针对单域训练的行人重识别模型迁移到另一个域内测试时性能巨大下降的问题,提出一种结合域间与域内变化的跨域行人重识别算法.采用PR策略将行人特征图进行分区处理,提高模型泛化能力.针对域间变化,引入域间姿势不变性,缩小源域和目标域行人的姿势差距.针对域内变化,引入域内姿势不变性、样本不变性、邻域不变性和相机风格不变性,扩大不...  相似文献   

17.
摘要:跨领域分类旨在利用已标记的源领域信息来为概率分布不同,未标记的目标领域训练一个精确的分类器。已有工作大多以文本主题为特征表现形式,并基于共享主题来建立领域间独有主题的映射关系,从而达到跨领域学习的目的。然而,现实中领域间的连接可以是多角度的,而这种基于单一共享主题的映射方式,存在语义表示不完备和偏差性等问题,从而影响跨领域分类精度。基于此,提出一种基于多桥映射的跨领域分类方法,通过提取多重的共享主题和领域独有主题,并以多重共享主题为桥梁来建立领域独有主题之间的多重映射关系,从而实现跨领域的分类。在20Newsgroups和Reuters-21578数据集上的实验结果表明,和同类算法相比,所提算法在分类精度上具有优越性。  相似文献   

18.
异构跨域身份认证是对不同体制信任域内的节点进行身份确认和安全信息交互的技术,现有的认证方案主要存在单点攻击风险和认证复杂等问题。为此,设计了主从区块链身份认证模型和匹配使用的分层拜占庭容错算法,通过主从链分步、分阶段共识,减少了共识参与节点数量,并将PKI体制与CL-PKC体制的特有功能节点与主从链节点相对应,在不改变原有信任域节点功能的前提下,使用区块链证书的哈希值高效传递信任,优化了认证流程,实现了双向异构跨域身份认证。最后通过仿真实验验证以及安全性和性能分析,表明该方案与相关方案对比,在实现安全通信的同时,提高了共识效率和容错性,降低了认证过程的通信开销。  相似文献   

19.
近年来,方面级情感分析吸引了越来越多学者的关注,但方面级跨领域情感分析存在没有标注数据,难以获得好的分类结果的问题。将上下文特征与方面特征进行融合,构建基于卷积神经网络和门控单元的情感分类模型,并利用少量目标领域数据集对模型进行微调来实现迁移学习,再用迁移学习后的模型对目标领域的数据进行方面级情感分析,有效解决了训练样本不足、准确率低的问题。人工标注了适用于方面级跨领域情感分析的中、英文语料,所提出的方法在中文数据集最优的F1值达到92.19%,英文数据集最优的F1值达到了86.18%,实验结果表明基于卷积神经网络的方面级跨领域情感分析方法有效提高了目标领域的情感分类准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号