首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
该文提出了一种在低资源条件下,只利用无标注文档资源进行电力领域命名实体识别的无监督方法。该方法收集电力领域相关语料,利用串频统计技术更新电力领域词典,同时根据结构化电力数据解析出实体词及其类型,并通过表示学习获得每种实体类型的代表词表示。同时利用BERT全词遮盖技术对文本中的词语进行预测,计算文本词语和实体类型代表词之间的语义相似度,进而完成命名实体识别及类型判断。实验表明,该方法对数据条件要求低,具有很强的实用性,且易于复用到其他领域。  相似文献   

2.
跨境民族文化领域实体通常由描述民族文化特征的领域词汇组合构成,使用当前主流的基于字符表征的实体识别方法会面临领域实体边界模糊问题,造成实体识别错误。为此,该文提出一种融入词集合信息的跨境民族文化实体识别方法,利用领域词典获取的词集合增强领域实体的词边界和词语义信息。首先,构建跨境民族文化领域词典,用于获取词集合信息;其次,通过词集合注意力机制获取词集合向量之间的权重,并融入位置编码增强词集合位置信息;最后,在特征提取层融入词集合信息,增强领域实体边界信息并缓解仅使用字符特征表示所带来的词语义缺失问题。实验结果表明,在跨境民族文化文本数据集上所提出方法相比于基线方法的F1值提升了2.71%。  相似文献   

3.
与传统的机器学习方法相比,终身机器学习能够有效利用知识库中积累的知识来提高当前学习任务的学习效果。然而经典的终身主题模型(LTM)在领域选择时缺乏偏向性,且在计算目标词的相似性时不能充分利用目标词的上下文信息。从词语和主题选择的角度提出改进模型HW-LTM,利用Word2vec词向量的余弦相似度和主题之间的Hellinger距离寻找相似度较大的词语和领域,实现在迭代学习中对词语和领域的更优选择和更有效的知识获取,同时通过预加载词向量相似度矩阵的方式解决词向量余弦距离的重复计算问题,利用Hellinger距离计算主题相似度,加快模型收敛速度。在京东商品评论数据集上的实验结果表明,HW-LTM模型表现优于基线主题挖掘模型,相比LTM模型,其topic coherence指标提升48,耗时缩短43.75%。  相似文献   

4.
词语作为语言模型中的基本语义单元,在整个语义空间中与其上下文词语具有很强的关联性。同样,在语言模型中,通过上下文词可判断出当前词的含义。词表示学习是通过一类浅层的神经网络模型将词语和上下文词之间的关联关系映射到低维度的向量空间中。然而,现有的词表示学习方法往往仅考虑了词语与上下文词之间的结构关联,词语本身所蕴含的内在语义信息却被忽略。因此,该文提出了DEWE词表示学习算法,该算法可在词表示学习的过程中不仅考量词语与上下文之间的结构关联,同时也将词语本身的语义信息融入词表示学习模型,使得训练得到的词表示既有结构共性也有语义共性。实验结果表明,DEWE算法是一种切实可行的词表示学习方法,相较于该文使用的对比算法,DEWE在6类相似度评测数据集上具有优异的词表示学习性能。  相似文献   

5.
准确识别词语语义倾向并构建高质量的情感词典,从而提高微博文本情感分析的准确率,具有重要意义。传统的基于语料库方法对种子词选取敏感,并且不能有效对低频词语语义倾向进行识别。本文提出了一种基于词亲和度的微博词语语义倾向识别算法。利用词性组合模式提取候选词集,选取微博表情符号作为种子词,并构建词亲和度网络,利用同义词词林对低频词进行扩展,计算候选词与种子词之间语义倾向相似度。根据设定阈值判断词语语义倾向。在200万条微博语料上分别将本文算法与传统算法进行对比,实验结果表明本文算法优于传统算法。  相似文献   

6.
中文基础情感词词典构建方法研究   总被引:12,自引:1,他引:11  
词语的情感倾向判别是文章语义情感倾向研究的基础工作.利用中文情感词建立一个基础情感词典,为专一领域情感词识别提供一个核心子集,能够有效地在语料库中识别及扩展情感词集,并提高分类效果.在中文词语相似度计算方法的基础上,提出了一种中文情感词语的情感权值的计算方法,并以HOWNET情感词语集为基准,构建了中文基础情感词典.利用该词典结合TF-IDF特征权值计算方法,对中文文本情感倾向进行判别,实验结果表明,该方法取得了不错的分类效果.  相似文献   

7.
情感分析已经成为当今自然语言处理领域的热点问题。对于文本的自动化、半监督式的情感分析研究具有广泛的理论和实用价值。基于情感词典的情感倾向分析方法是文本情感分析的一种重要 手段。然而,中文词汇在不同领域中的情感倾向不尽相同,一词多义现象明显。同时,不同领域中的情感词也具有专业性、领 域性的特点。针对这些问题,本文提出一种基于词向量相似度的半监督情感极性判断算法 (Sentiment orientation from word vector,SO-WV),并依据该算法设计出一种跨领域的中文情感词典构建方法。实验证明,本文所设计的情感词典构建方法能有效地对情感词情感倾向进行判断。算法不仅在不同领域的情感词典 建立上具有良好的可移植性,同时还具有专业性、领域性的特点。  相似文献   

8.
针对Skip-gram词向量计算模型在处理多义词时只能计算一个混合多种语义的词向量,不能对多义词不同含义进行区分的问题,文中提出融合词向量和主题模型的领域实体消歧方法.采用词向量的方法从背景文本和知识库中分别获取指称项和候选实体的向量形式,结合上下位关系领域知识库,进行上下文相似度和类别指称相似度计算,利用潜在狄利克雷分布(LDA)主题模型和Skip-gram词向量模型获取多义词不同含义的词向量表示,抽取主题领域关键词,进行领域主题关键词相似度计算.最后融合三类特征,选择相似度最高的候选实体作为最终的目标实体.实验表明,相比现有消歧方法,文中方法消歧结果更优.  相似文献   

9.
随着互联网的快速发展,网络中充斥着海量主观性文本,如何对这些主观性语句进行情感倾向性判断是文本情感分析的关键。本文提出一种基于词向量和句法树的中文句子情感分析方法。针对目前大量网络新词的使用所带来的问题,以已有标注的情感词典为基础,采用词向量的方法判断词语之间的语义相似度,从而得到未知词语的情感极性。针对情感极性转移现象,定义相应的情感判断规则。在此基础上,利用句子的句法树结构,对句子进行情感倾向性分析。实验证明,该方法在一定程度上解决了网络新词的问题,有效提高了句子情感分析的准确率和召回率,且具有领域适用性。  相似文献   

10.
方面词提取是方面级情感分析中的一个核心任务,随着社交网络的不断发展,越来越多的用户倾向于根据评论文本来做决策,并且对评论文本的细节越来越关注。因此,从海量的评论文本中准确提取方面词对于用户快速决策具有重要意义。由于标注语料极其耗时耗力,成本高,所以当前公开的方面词数据集相对较少,从而影响了神经网络模型的有效训练。为了缓解这一问题,有研究者使用了领域自适应策略,该策略通过使用方面词和意见词之间的共同句法关系来弥补不同领域之间的差距,但这高度依赖于外部语言资源。针对上述问题,该文使用无监督领域自适应的方法,通过从粗粒度方面类别任务的丰富资源源域学习到的知识,来提高细粒度方面词任务的低资源目标域的学习能力。为了缓解领域间粒度不一致和特征不匹配问题,该文提出了一种双记忆交互网络,该网络通过将每个单词的局部记忆与全局方面词和方面类别记忆进行交互,不断迭代获得每个单词的相关向量,进而得到方面词与方面类别之间的相互联系,以及方面词或方面类别本身之间的内部相关性。最后为了验证方法的有效性,该文方法在Laptop、Restaurant和Device数据集上分别进行了实验。实验结果表明,与多个基线模型相比...  相似文献   

11.
一种基于领域本体的新术语扩充方法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种基于领域本体的新术语扩充方法。结合传统基于统计和基于规则的方法,计算词语在文档中的影响程度,使用领域本体体现领域知识,通过在文档中识别出本体中概念计算文档及词语的领域相关度,获得术语候选项的推荐排序,对术语候选项结果进行优化。实验结果证明了该方法的有效性和可行性。  相似文献   

12.
一种基于局部加权均值的领域适应学习框架   总被引:2,自引:0,他引:2  
皋军  黄丽莉  孙长银 《自动化学报》2013,39(7):1037-1052
最大均值差异(Maximum mean discrepancy, MMD)作为一种能有效度量源域和目标域分布差异的标准已被成功运用.然而, MMD作为一种全局度量方法一定程度上反映的是区域之间全局分布和全局结构上的差异.为此, 本文通过引入局部加权均值的方法和理论到MMD中, 提出一种具有局部保持能力的投影最大局部加权均值差异(Projected maximum local weighted mean discrepancy, PMLWD)度量,%从而一定程度上使得PMLWD更能有效度量源域和目标域中局部分块之间的分布和结构上的差异,结合传统的学习理论提出基于局部加权均值的领域适应学习框架(Local weighted mean based domain adaptation learning framework, LDAF), 在LDAF框架下, 衍生出两种领域适应学习方法: LDAF_MLC和 LDAF_SVM.最后,通过测试人工数据集、高维文本数据集和人脸数据集来表明LDAF比其他领域适应学习方法更具优势.  相似文献   

13.
词作为最小的语义单位,同领域之间具有复杂的关系,特别是较为常用的词,通常难以明确界定其所属领域。在某些应用中并非必须确定词和领域的明确关系,仅仅依赖词的领域性的量化值就能够取得较好的效果。该文根据大规模语料库中词的关联信息,采用无指导的方法,对词的领域性进行量化,其结果可以作为词的一种特征应用于文本分类、话题检测、信息检索等相关的自然语言处理中。最后,通过和常用的特征——TFIDF在话题检测应用中进行对比,证明了其有效性。  相似文献   

14.
Domain adaptation learning(DAL) methods have shown promising results by utilizing labeled samples from the source(or auxiliary) domain(s) to learn a robust classifier for the target domain which has a few or even no labeled samples.However,there exist several key issues which need to be addressed in the state-of-theart DAL methods such as sufficient and effective distribution discrepancy metric learning,effective kernel space learning,and multiple source domains transfer learning,etc.Aiming at the mentioned-above issues,in this paper,we propose a unified kernel learning framework for domain adaptation learning and its effective extension based on multiple kernel learning(MKL) schema,regularized by the proposed new minimum distribution distance metric criterion which minimizes both the distribution mean discrepancy and the distribution scatter discrepancy between source and target domains,into which many existing kernel methods(like support vector machine(SVM),v-SVM,and least-square SVM) can be readily incorporated.Our framework,referred to as kernel learning for domain adaptation learning(KLDAL),simultaneously learns an optimal kernel space and a robust classifier by minimizing both the structural risk functional and the distribution discrepancy between different domains.Moreover,we extend the framework KLDAL to multiple kernel learning framework referred to as MKLDAL.Under the KLDAL or MKLDAL framework,we also propose three effective formulations called KLDAL-SVM or MKLDAL-SVM with respect to SVM and its variant μ-KLDALSVM or μ-MKLDALSVM with respect to v-SVM,and KLDAL-LSSVM or MKLDAL-LSSVM with respect to the least-square SVM,respectively.Comprehensive experiments on real-world data sets verify the outperformed or comparable effectiveness of the proposed frameworks.  相似文献   

15.
To accurately recognize similar objects in different domains, the key for domain adaptation is to learn new metrics so as to minimize the discrepancy of two domains. Recent works utilize joint probability domain adaptation to tackle this problem but get poor performance due to poor discriminability or transferability of data sets. The inaccurate pseudo-labeling in the feature subspace can lead to a chain reaction of errors during iterations, and varieties of the joint probability distribution values further aggravate the miscalculation. To cope with the above problems, this paper proposes a unified framework by introducing Incremental Confidence Samples into Classification (ICSC). ICSC includes both incrementally labeling and adaptively adjusting. With the increase of confidence samples in each iteration, incrementally labeling is used to reduce error accumulations and progressively guarantee good classification performance effectively. Moreover, the tradeoff weight between within-class and between-class distance is adaptively adjusted according to the importance of transferability and discriminability. Consequently, the discrepancy minimization of within-class and the discrepancy maximization of between-class are achieved. Extensive experiments on several benchmark data sets demonstrate the effectiveness of the proposed method over the state-of-the-art methods.  相似文献   

16.
Cross-domain word representation aims to learn high-quality semantic representations in an under-resourced domain by leveraging information in a resourceful domain. However, most existing methods mainly transfer the semantics of common words across domains, ignoring the semantic relations among domain-specific words. In this paper, we propose a domain structure-based transfer learning method to learn cross-domain representations by leveraging the relations among domain-specific words. To accomplish this, we first construct a semantic graph to capture the latent domain structure using domain-specific co-occurrence information. Then, in the domain adaptation process, beyond domain alignment, we employ Laplacian Eigenmaps to ensure the domain structure is consistently distributed in the learned embedding space. As such, the learned cross-domain word representations not only capture shared semantics across domains, but also maintain the latent domain structure. We performed extensive experiments on two tasks, namely sentiment analysis and query expansion. The experiment results show the effectiveness of our method for tasks in under-resourced domains.  相似文献   

17.
The domain adversarial neural network(DANN)methods have been successfully proposed and attracted much attention recently.In DANNs,a discriminator is trained to discriminate the domain labels of features generated by a generator,whereas the generator attempts to confuse it such that the distributions between domains are aligned.As a result,it actually encourages the whole alignment or transfer between domains,while the inter-class discriminative information across domains is not considered.In this paper,we present a Discrimination-Aware Domain Adversarial Neural Network(DA2NN)method to introduce the discriminative information or the discrepancy of inter-class instances across domains into deep domain adaptation.DA2NN considers both the alignment within the same class and the separation among different classes across domains in knowledge transfer via multiple discriminators.Empirical results show that DA2NN can achieve better classification performance compared with the DANN methods.  相似文献   

18.
辅助汉语学习研究作为一个重要的研究领域,已经在自然语言处理领域激发起越来越多人的兴趣。文中提出一个基于字分析单元的辅助阅读系统,它可以为汉语学习者提供即时的辅助翻译和学习功能。系统首先提出基于字信息的汉语词法分析方法,对汉语网页中文本进行分词处理,然后利用基于组成字结构信息的方法发现新词。对于通用词典未收录的新词(例如: 专业术语、专有名词和固定短语),系统提出了基于语义预测和反馈学习的方法在Web上挖掘出地道的译文。对于常用词,系统通过汉英(或汉日)词典提供即时的译文显示,用户也可通过词用法检索模块在网络上检索到该词的具体用法实例。该系统关键技术包括: 基于字信息的汉语词法分析,基于组成字结构信息的新词发现,基于语义预测和反馈学习的新词译文获取,这些模块均以字分析单元的方法为主线,并始终贯穿着整个系统。实验表明该系统在各方面都具有良好的性能。  相似文献   

19.
李庆勇  何军    张春晓 《智能系统学报》2021,16(6):999-1006
采用对抗训练的方式成为域适应算法的主流,通过域分类器将源域和目标域的特征分布对齐,减小不同域之间的特征分布差异。但是,现有的域适应方法仅将不同域数据之间的距离缩小,而没有考虑目标域数据分布与决策边界之间的关系,这会降低目标域内不同类别的特征的域内可区分性。针对现有方法的缺点,提出一种基于分类差异与信息熵对抗的无监督域适应算法(adversarial training on classification discrepancy and information entropy for unsupervised domain adaptation, ACDIE)。该算法利用两个分类器之间的不一致性对齐域间差异,同时利用最小化信息熵的方式降低不确定性,使目标域特征远离决策边界,提高了不同类别的可区分性。在数字标识数据集和Office-31数据集上的实验结果表明,ACDIE算法可以学习到更优的特征表示,域适应分类准确率有明显提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号