首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
讽刺是日常交际中一种常见的语用现象,能够丰富说话者的观点并间接地表达说话者的深层含义。讽刺检测任务的研究目标是挖掘目标语句的讽刺倾向。针对讽刺语境表达变化多样以及不同用户、不同主题下的讽刺含义各不相同等特征,构建融合用户嵌入与论坛主题嵌入的上下文语境讽刺检测模型。该模型借助ParagraphVector方法的序列学习能力对用户评论文档与论坛主题文档进行编码,从而获取目标分类句的用户讽刺特征与主题特征,并利用一个双向门控循环单元神经网络得到目标句的语句编码。在标准讽刺检测数据集上进行的实验结果表明,与传统Bag-of-Words、CNN等模型相比,该模型能够有效提取语句的上下文语境信息,具有较高的讽刺检测分类准确率。  相似文献   

2.
李垒昂 《计算机应用研究》2021,38(12):3646-3650
准确的讽刺检测对于情感分析等任务至关重要.传统的方法严重依赖于离散的人工制定的特征.现有的研究大多将讽刺检测作为一种标准的监督学习文本分类任务,但是监督学习需要有大量数据,而这些数据的收集和标注都存在困难.由于目标任务有限的数据集可能导致讽刺检测的低性能,为此将讽刺检测作为一种迁移学习任务,将讽刺标记文本的监督学习与外部分析资源的知识转移相结合.通过转移的资源知识来改进神经网络模型,以此提升对目标任务的检测性能.在公开可用的数据集上的实验结果表明,提出的基于迁移学习的讽刺检测模型优于现有较先进的讽刺检测模型.  相似文献   

3.
随着互联网的快速发展,社交媒体日益广泛而深刻地融入人们日常生活的各个方面。社交媒体逐渐成为人们彼此之间用来分享意见、见解、经验和观点的工具和平台,是人们获取分享信息、表达交流观点的主要途径。社交媒体在互联网的沃土上蓬勃发展,爆发出令人眩目的能量。由于社交媒体的开放性,用户规模庞大且来源复杂众多,容易产生各种各样的谣言虚假信息。社交媒体谣言左右着网民对事件的认识、动摇着社会的稳定。因此,如何准确高效地检测谣言成为当下亟待解决的问题。现有基于Transformer的社交媒体谣言检测模型忽略了文本位置信息。为有效提取文本位置信息,充分利用文本潜在信息,提出了一种基于改进Transformer的社交媒体谣言检测模型。该模型从相对位置和绝对位置两方面对传统Transformer进行改进:一方面采用可学习的相对位置编码捕捉文本的方向信息和距离信息;另一方面采用绝对位置编码将不同位置词语映射到不同特征空间。实验结果表明,与其他基准模型相比,所提模型在Twitter15、Twitter16和Weibo3种数据集上的准确率分别提高了0.9%、0.6%和1.4%。实验结果验证了所提的位置编码改进有效,基于...  相似文献   

4.
针对静态词向量工具(如word2vec)舍弃词的上下文语境信息,以及现有专利文本分类模型特征抽取能力不足等问题,提出了一种融合RoBERTa的多尺度语义协同(RoBERTa-MCNN-BiSRU++-AT)专利文本分类模型。RoBERTa能够学习到当前词符合上下文的动态语义表示,解决静态词向量无法表示多义词的问题。多尺度语义协同模型利用卷积层捕获文本多尺度局部语义特征,再由双向内置注意力简单循环单元进行不同层次的上下文语义建模,将多尺度输出特征进行拼接,由注意力机制对分类结果贡献大的关键特征分配更高权重。在国家信息中心发布的专利文本数据集上进行验证,与ALBERT-BiGRU和BiLSTM-ATT-CNN相比,RoBERTa-MCNN-BiSRU++-AT部级专利的分类准确率分别提升了2.7%和5.1%,大类级专利的分类准确率分别提升了6.7%和8.4%。结果表明,RoBERTa-MCNN-BiSRU++-AT能有效提升对不同层级专利的分类准确率。  相似文献   

5.
针对社交媒体文本存在文本短、特征提取困难的问题,结合深度学习提出了一种双向门控循环神经网络(bidirectional gated recurrent neural network,BiGRU)和胶囊网络(capsule network,CapsNet)混合模型(BiGRU-CapsNet)。社交媒体文本首先通过Bert预训练模型生成词向量,利用BiGRU提取序列浅层特征,结合CapsNet进一步提取深层特征,最终通过softmax分类器实现作者识别。实验结果证明,该模型可以提升社交媒体文本作者识别的性能。  相似文献   

6.
在社交媒体中,存在大量的反讽和讽刺等语言现象,这些语言现象往往表征了一定的情感倾向性。然而这些特殊的语言现象所表达的语义倾向性,通常与其浅层字面含义相去甚远,因此加大了社交媒体中文本情感分析的难度。鉴于此,该文主要研究中文社交媒体中的讽刺语用识别任务,构建了一个覆盖反讽、讽刺两种语言现象的语料库。基于此挖掘反讽和讽刺的语言特点,该文通过对比一些有效领域特征,验证了在反讽和讽刺文本的识别中,其结构和语义等深层语义特征的重要性。同时,该文提出了一种有效的多特征融合的混合神经网络判别模型,融合了卷积神经网络与LSTM序列神经网络模型,通过深层模型学习深层语义特征和深层结构特征,该模型获得了较好的识别精度,优于传统的单一的神经网络模型和BOW(Bag-of-Words)模型。  相似文献   

7.
政务热线承接了海量市民诉求,人工对工单分类耗时费力。现有工单分类方法大多基于机器学习或单一神经网络模型,难以有效理解上下文语义信息,且文本特征提取不全面。针对这一问题,本文提出一种融合RoBERTa和特征提取的政务热线工单分类方法。该方法首先通过基于RoBERTa预训练语言模型的语义编码层获取政务热线工单文本中的语义表征向量,然后通过由CNN-BiGRU-Self-Attention定义的特征提取层获取工单文本的局部特征和全局特征,并对全局特征进行处理以凸显重要性高的语义特征,最后将融合后的特征向量输入分类器来完成工单分类。实验结果表明,相较于其他基线分类方法,本文提出的方法能够取得更好的工单分类效果。  相似文献   

8.
微博立场检测是判断一段微博文本针对某一目标话题所表达的观点态度是支持、中立或反对.随着社交媒体的发展,从海量的微博数据中挖掘其蕴含的立场信息成为一项重要的研究课题.但是现有的方法往往将其视作情感分类任务,没有对目标话题和微博文本之间的关系特征进行分析,在基于深度学习的分类框架上,扩展并提出了基于Bert-Condition-CNN的立场检测模型,首先为提高话题在文本中的覆盖率,对微博文本进行了主题短语的提取构成话题集;然后使用Bert预训练模型获取文本的句向量,并通过构建话题集和微博文本句向量之间的关系矩阵Condition层来体现两个文本序列的关系特征;最后使用CNN对Condition层进行特征提取,分析不同话题对立场信息的影响并实现对立场标签的预测.该模型在自然语言处理与中文计算会议(NLPCC2016)的数据集中取得了较好的效果,通过主题短语扩展后的Condition层有效地提升了立场检测的准确度.  相似文献   

9.
目前药物不良反应(ADR)研究使用的数据主要来源于英文语料,较少选用存在标注数据稀缺问题的中文医疗社交媒体数据集,导致对中文医疗社交媒体的研究有限。为解决标注数据稀缺的问题,提出一种新型的ADR检测方法。采用ERNIE预训练模型获取文本的词向量,利用BiLSTM模型和注意力机制学习文本的向量表示,并通过全连接层和softmax函数得到文本的分类标签。对未标注数据进行文本增强,使用分类模型获取低熵标签,此标签被作为原始未标注样本及其增强样本的伪标签。此外,将带有伪标签的数据与人工标注数据进行混合,在分类模型的编码层和分类层间加入Mixup层,并在文本向量空间中使用Mixup增强方法插值混合样本,从而扩增样本数量。通过将数据增强和半监督学习相结合,充分利用标注数据与未标注数据,实现ADR的检测。实验结果表明,该方法无需大量的标注数据,缓解了标注数据不足对检测结果的影响,有效提升了药物不良反应检测模型的性能。  相似文献   

10.
社交媒体的发展为抑郁用户的检测提供了一条新的途径。已有的相关研究通常是利用用户在Twitter、微博等社交网络平台上的用户行为数据或公开发表的文本内容,较少有利用微信朋友圈、QQ空间这种相对比较私密的社交网络数据。直观地,这类准私密社交网络数据更能反映用户的心理健康状况。该文主要讨论利用准私密社交网络文本数据检测抑郁用户的可行性,包括训练样本的选择、特征量化方法、检测模型选择和不同文本特征下的模型分类效果等。实验表明,采用平衡高低分组的方法选择样本比非平衡高低分组样本和离散化的高低分组样本训练的分类器要好;利用Z-score标准化的特征量化方法比直接使用频次或归一化频率要好;随机梯度下降模型SGD较支持向量机SVM等其他用于对比的分类模型要好。实验还发现,相对于词袋、词向量等文本特征,主题特征有较好的效果,可以使社交网络用户抑郁检测模型的F值达到0.753,而对抑郁用户的检测精度达到0.813。  相似文献   

11.
In recent years, news media have been hugely disrupted by news promotion, commentary and sharing in online, social media (e.g., Twitter, Facebook, and Reddit). This disruption has been the subject of a significant literature that has largely used AI techniques – machine learning, text analytics and network models – to both (i) understand the factors underlying audience attention and news dissemination on social media (e.g., effects of popularity, type of day) and (ii) provide new tools/guidelines for journalists to better disseminate their news via these social media. This paper provides an integrative review of the literature on the professional reporting of news on Twitter; focusing on how journalists and news outlets use Twitter as a platform to disseminate news, and on the factors that impact readers’ attention and engagement with that news on Twitter. Using the precise definition of a news-tweet (i.e., divided into user, content and context features), the survey structures the literature to reveal the main findings on features affecting audience attention to news and its dissemination on Twitter. From this analysis, it then considers the most effective guidelines for digital journalists to better disseminate news in the future.  相似文献   

12.
杨利君  滕冲 《中文信息学报》2021,35(10):119-127
谣言立场检测任务是通过分析社交媒体平台上用户发表的评论,判别他们对谣言所持的立场是支持、反对或其他。谣言立场检测有助于甄别谣言真假。现有的工作将社交对话数据建模为单向树结构,仅考虑了对话树的局部语义和结构信息。针对这些不足,该文提出了一种增强的双向树神经网络模型。首先,设计了一种门控机制,用于融合自底向上和自顶向下两个传播方向上的表示,从而更有效地提取对话的全局上下文信息。其次,在模型中引入了一个局部推理模块,增强了谣言与回复之间的语义联系。在RumourEval 2017 Twitter语料集上的实验证明,该文提出的模型在多分类评价指标macro-F1上获得了52.5%的性能,相较于基线中最好的模型提升了1.6%,尤其在检测最具挑战性的否定立场优势的实验上更为明显。  相似文献   

13.
网络社交平台中大量谣言的广泛传播严重影响社会稳定。传统谣言检测方法无法有效处理文本中多义词和突出重要关键词,造成检测效果不理想。针对该问题,提出一种基于BERT模型的增强混合神经网络的谣言检测方法。该方法使用BERT模型将推文向量化,通过3种不同尺寸的卷积核学习推文特征,将这些特征进行最大池化拼接得到特征序列,并输入到BiLSTM中学习序列特征。同时引入Attention机制计算注意力分值,实现谣言检测。在公开数据集Twitter15和Twitter16上的实验结果表明,该方法相较于其他方法在谣言检测性能方面提升明显,并在早期检测阶段表现出卓越的检测能力,检测准确率提高了5个百分点。  相似文献   

14.
采用融合自注意力机制的双向长短期记忆模型(SelfAtt-BILSTM)和条件随机场模型(CRF),构建一种SelfAtt-BILSTM-CRF模型,对政策文本进行语义角色标注,以提取政策主要内容。采用某高校政策文件为实验数据集,利用BILSTM模型自动学习序列化语句上下文特征,融合自注意力机制增加重要特征元素的权重,通过CRF层利用特征进行序列标注,提取语义角色,以实现政策文件的主要内容挖掘。经过对比验证,该模型能够有效地提取政策文本内容,在标注数据集上F1值达到78.99%。实验结果同时表明,自注意力机制能够有效提高神经网络模型的语义角色标注效果。  相似文献   

15.
针对当前立场检测任务中目标短语在文本中隐式出现导致分类效果差的问题,提出一种基于异核卷积双注意机制(HCDAM)的立场检测模型。采用三段式策略,为提高目标短语和文本的特征表示能力,采用Bert预训练模型获得基于字符级的包含上下文的词向量表示;为提高隐式目标短语的抽取能力,采取异核卷积注意模式获取含不同位置和语义信息的卷积特征;通过再注意力机制利用显隐式目标短语对文本进行立场信息特征抽取,通过softmax分类器进行分类。基于NLPCC语料的实验结果表明,通过采用异核卷积双注意策略,相比Bert-Condition-CNN模型,在总数据集上平均分类准确率提高了0.108,在5个话题上分类准确率分别提高了0.146、0.046、0.133、0.047、0.056。  相似文献   

16.
段大高  白宸宇  韩忠明  熊海涛 《计算机工程》2022,48(10):138-145+157
社交媒体谣言检测是当前研究的热点问题,现有方法多数通过获取大量用户属性学习用户特征,但不适用于谣言的早期检测,忽略了用户之间的潜在关系对信息传播的影响。提出一种基于多传递影响力的谣言检测方法,根据源微博及其对应转发(评论)之间的关系构建文本信息传播图,并通过图卷积神经网络来捕获、学习文本信息的传播特征。利用文本信息和用户传播过程中的影响力,丰富可用于谣言检测早期的检测信息。将存在转发关系的用户构成用户影响力传播图,构建一种用户节点影响力学习方法,获取用户节点影响力,以增强用户特征信息。在此基础上,将文本特征与用户特征融合以进行谣言检测,从而提升检测效果。在3个真实社交媒体数据集上的实验结果表明,该方法在谣言自动检测以及早期检测的效果都有显著提升,与目前最好的基准方法相比,在微博、Twitter15、Twitter16数据集上的正确率分别提高了2.8%、6.9%和3.4%。  相似文献   

17.
Sentiment analysis (SA) is the procedure of recognizing the emotions related to the data that exist in social networking. The existence of sarcasm in textual data is a major challenge in the efficiency of the SA. Earlier works on sarcasm detection on text utilize lexical as well as pragmatic cues namely interjection, punctuations, and sentiment shift that are vital indicators of sarcasm. With the advent of deep-learning, recent works, leveraging neural networks in learning lexical and contextual features, removing the need for handcrafted feature. In this aspect, this study designs a deep learning with natural language processing enabled SA (DLNLP-SA) technique for sarcasm classification. The proposed DLNLP-SA technique aims to detect and classify the occurrence of sarcasm in the input data. Besides, the DLNLP-SA technique holds various sub-processes namely preprocessing, feature vector conversion, and classification. Initially, the pre-processing is performed in diverse ways such as single character removal, multi-spaces removal, URL removal, stopword removal, and tokenization. Secondly, the transformation of feature vectors takes place using the N-gram feature vector technique. Finally, mayfly optimization (MFO) with multi-head self-attention based gated recurrent unit (MHSA-GRU) model is employed for the detection and classification of sarcasm. To verify the enhanced outcomes of the DLNLP-SA model, a comprehensive experimental investigation is performed on the News Headlines Dataset from Kaggle Repository and the results signified the supremacy over the existing approaches.  相似文献   

18.
神经网络模型可以有效地处理通用领域命名实体识别,然而在标注语料匮乏和包含大量噪声的特定领域,其性能通常会下降.针对这一问题,提出一种迁移学习神经网络模型TL-BiLSTM-CRF.利用双向长短时记忆网络提取具有字符级别形态特征的字符向量,结合具有语义、语序等特征信息的词向量作为输入,构建基本模型;在基本模型中引入词适应...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号