首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 460 毫秒
1.
针对当前立场检测任务中目标短语在文本中隐式出现导致分类效果差的问题,提出一种基于异核卷积双注意机制(HCDAM)的立场检测模型。采用三段式策略,为提高目标短语和文本的特征表示能力,采用Bert预训练模型获得基于字符级的包含上下文的词向量表示;为提高隐式目标短语的抽取能力,采取异核卷积注意模式获取含不同位置和语义信息的卷积特征;通过再注意力机制利用显隐式目标短语对文本进行立场信息特征抽取,通过softmax分类器进行分类。基于NLPCC语料的实验结果表明,通过采用异核卷积双注意策略,相比Bert-Condition-CNN模型,在总数据集上平均分类准确率提高了0.108,在5个话题上分类准确率分别提高了0.146、0.046、0.133、0.047、0.056。  相似文献   

2.
微博立场检测是判断微博作者对某一个话题的态度是支持、反对或中立。在基于监督学习的分类框架上,扩展并提出基于多文本特征融合的中文微博的立场检测方法。首先探究了基于词频统计的特征(词袋特征(Bag-of-Words,BoW)、基于同义词典的词袋特征、考虑词与立场标签共现关系的特征)和文本深度特征(词向量、字向量)。之后使用支持向量机,随机森林和梯度提升决策树对上述特征进行立场分类。最后,结合所有特征分类器进行后期融合。实验表明,文中提出的特征对于不同话题下的微博立场检测的结果都有提升,且文本深度特征和基于词频统计的特征能够捕捉到文本的不同信息,在立场检测中是互补的。基于本文方法的微博立场检测系统在2016年自然语言处理与中文计算会议(NLPCC2016)的中文微博立场检测评测任务中取得了最好的结果。  相似文献   

3.
针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采用编辑距离和字向量相结合的相似度计算方法,构建了ITextRank文本摘要和关键词抽取模型,对文本集合TS抽取摘要及其关键词;最后,利用词语互信息和左右信息熵将所抽取的关键词转换成关键主题短语,再将关键主题短语和摘要相结合对话题内容进行表述。通过实验表明,IDLDA模型相较于传统的BTM和LDA模型对话题文本的聚类效果更好,利用关键主题短语和摘要对微博的话题进行表述,比直接利用主题词进行话题表述具有更好的可理解性。  相似文献   

4.
微博话题随着移动互联网的发展变得火热起来,单个热门话题可能有数万条评论,微博话题的立场检测是针对某话题判断发言人对该话题的态度是支持的、反对的或中立的.本文一方面由Word2Vec训练语料库中每个词的词向量获取句子的语义信息,另一方面使用TextRank构建主题集作为话题的立场特征,同时结合情感词典获取句子的情感信息,最后将特征选择后的词向量使用支持向量机对其训练和预测完成最终的立场检测模型.实验表明基于主题词及情感词相结合的立场特征可以获得不错的立场检测效果.  相似文献   

5.
通常的微博观点句识别主要根据微博评论本身是否带有观点来进行判断,而案件微博的观点句识别需要进一步考虑该评论是否讨论与特定案件相关的主题。针对这一任务,该文提出一种结合微博原文进行特征扩展的观点句识别模型。以卷积神经网络分类模型为基本框架,在嵌入层加入案件微博原文中的关键词向量,与对应评论词向量进行拼接;利用扩展的特征进行观点句识别。实验表明,该模型在根据案件微博爬取的两个数据集下准确率分别达到84.74%和82.09%,与现有的基准模型相比有较明显提升。  相似文献   

6.
对微博话题的立场进行精确研判是短文本挖掘的重点之一。文章提出了一种基于主题相关性对微博分类研判的方法,旨在识别网民对于微博话题的立场,是支持还是反对。微博和主题的相关性大小,常常会导致其文本特征有较大差异。文章首先利用关键词提取技术和互信息计算方法获取话题主题词集,接着对话题语料按是否与主题相关进行分类,然后分别采用机器学习和词典规则两种方法进行研判,综合得到话题的立场。实验结果表明,主题相关文本采用机器学习而主题无关文本采用词典规则的方法可以大大提高研判准确率。以此为基础,文章构建了一个微博话题立场研判模型,可用于政府有关部门监测互联网舆情以及企业评估产品市场等方面。  相似文献   

7.
针对传统文本特征表示方法无法充分解决一词多义的问题,构建了一种融合字注释的文本分类模型。首先,借助现有中文字典,获取文本由字上下文选取的字典注释,并对其进行Transformer的双向编码器(BERT)编码来生成注释句向量;然后,将注释句向量与字嵌入向量融合作为输入层,并用来丰富输入文本的特征信息;最后,通过双向门控循环单元(BiGRU)学习文本的特征信息,并引入注意力机制突出关键特征向量。在公开数据集THUCNews和新浪微博情感分类数据集上进行的文本分类的实验结果表明,融合BERT字注释的文本分类模型相较未引入字注释的文本分类模型在性能上有显著提高,且在所有文本分类的实验模型中,所提出的BERT字注释_BiGRU_Attention模型有最高的精确率和召回率,能反映整体性能的F1-Score则分别高达98.16%和96.52%。  相似文献   

8.
文本分类是自然语言处理的基础任务,文本中的特征稀疏性和提取特征所用的神经网络影响后续的分类效果.针对文本中的特征信息不足以及传统模型上下文依赖关系方面不足的问题,提出经过TF-IDF加权的词向量和LDA主题模型相融合,利用双向门控循环神经网络层(BiGRU)充分提取文本深度信息特征的分类方法.该方法主要使用的数据集是天...  相似文献   

9.
传统文本情感分类方法通常以词或短语等词汇信息作为文本向量模型特征,造成情感指向不明和隐藏观点遗漏的问题。针对此问题提出一种基于主题角色的文本情感分类方法。该方法首先提取出文本中的潜在评价对象形成评价对象集,评价对象作为情感句描述的主体能够很好地保存文本情感信息;然后使用LDA模型对评价对象集进行主题抽取,将抽取出的主题分裂成"正""负"两种特征项,将这两种特征项记为正负主题角色用于保存文本情感信息;最后,计算主题角色在文本中的情感影响值并建立主题角色模型。实验结果表明,所提方法与传统方法相比可有效提高主观性文本情感分类的准确率。  相似文献   

10.
文本情感分类是自然语言处理领域的研究热点,更是产品评价领域的重要任务.考虑到词向量与句向量之间的语义关系和用户信息、产品信息对文本情感分类的影响,提出余弦相似度LSTM网络. 该网络通过在不同语义层级中引入用户信息和产品信息的注意力机制,并根据词向量和句向量之间的相似度初始化词层级注意力矩阵中隐层节点的权重. 在Yelp13、Yelp14和IMDB三个情感分类数据集上的实验结果表明文中方法的有效性.  相似文献   

11.
微博是个人和组织用户分享或获取简短实时信息的重要社交平台,微博文本自动生成技术能帮助用户在微博平台上快速实现各种社交意图。为辅助用户发表博文并表达社交意图,提出一种基于用户意图的微博文本生成技术,以挖掘提取微博文本特征,并在给定微博主题的条件下生成与用户意图相一致的微博文本。采用预训练语言模型与微调相结合的方法,在预训练语言模型GPT2上实现联合主题和用户意图的文本控制生成,以及具备用户对话功能的文本预测生成。实验结果表明,该技术生成的文本具有较高的可读性且符合微博文本语言风格,结合主题和5类用户意图的生成样本人工评分达77分以上。  相似文献   

12.
同主题词短文本分类算法中BTM的应用与改进   总被引:1,自引:0,他引:1  
为解决大规模短文本语料库主题模型参数K较大导致求解慢的问题,本文提出FBTM模型,将BTM中单个词对采样复杂度由O (K)降低O (1).针对短文本词语稀疏、描述能力弱的特点,提出一种结合同主题词对与FBTM的短文本分类算法,首先使用FBTM进行主题建模,将一段滑动窗口内的同主题词对作为特征扩充到原文本中,然后使用FBTM主题分布作为另一部分文本特征.对特征扩展后的Weibo语料库进行分类实验,结果显示该方法显著提高了分类性能.  相似文献   

13.
Event-related topics in social networking services are always the epitome of heated society issues, therefore determining the significance of analyzing its evolution patterns. In this paper, we present a comprehensive survey on the tweets about "ransomware" in Sina Weibo, a famous social networking service similar to twitter in China. The keyword corresponds to a global ransomware attack in May 2017, on which our example event-related topics are based. We collect text data from sina Weibo and vectorize each tweets, before using a dynamic topic model to discover the event-related topics. The results of the topic model are explainable enough and help us to understand the evolution of those topics more thoroughly.  相似文献   

14.
随着互联网技术的发展,以微博为主的社交媒体平台上网络谣言逐渐泛滥,研究微博谣言的自动检测对维护社会稳定具有重要意义。现今主流的基于深度学习的谣言检测方法普遍存在没有充分考虑微博文本语义信息的问题,同时,过分依赖传播信息的谣言检测方法使得检测时间滞后,不能满足谣言检测的现实需求。针对以上问题,本文提出一种融合用户历史交互信息的微博谣言检测模型,不使用待检测微博的传播信息,构建并训练AbaNet(ALBERT-BiGRU-Attention)深度学习网络模型,充分考虑待检测微博和用户历史传播信息文本的文本特征和语义信息进行谣言检测。实验结果显示,本文模型具有准确率高、稳定性强的特点,并且能够在获得较高检测精度的情况下大大缩短谣言检测的时间。  相似文献   

15.
文本主题提取技术能够有效地精炼文本消息,传统的中文文本由最基本的词语组成,由于词汇本身的信息粒度过小,针对词语进行中文信息抽取不能完整表达文本片段的语义信息。短语本身包含较为丰富的细粒度语义信息,更能表达出文本片段的主题性。本文提出基于双层语料过滤器(词性过滤器与短语扩展规则过滤器)的方法来进行文本语料的冗余信息过滤并抽取文本主题短语信息。实验证明,本文的方法具有一定的可靠性和应用性。  相似文献   

16.
Hashtag recommendation for microblogs is a very hot research topic that is useful to many applications involving microblogs. However, since short text in microblogs and low utilization rate of hashtags will lead to the data sparsity problem, it is difficult for typical hashtag recommendation methods to achieve accurate recommendation. In light of this, we propose HRMF, a hashtag recommendation method based on multi-features of microblogs in this article. First, our HRMF expands short text into long text, and then it simultaneously models multi-features (i.e., user, hashtag, text) of microblogs by designing a new topic model. To further alleviate the data sparsity problem, HRMF exploits hashtags of both similar users and similar microblogs as the candidate hashtags. In particular, to find similar users, HRMF combines the designed topic model with typical user-based collaborative filtering method. Finally, we realize hashtag recommendation by calculating the recommended score of each hashtag based on the generated topical representations of multi-features. Experimental results on a real-world dataset crawled from Sina Weibo demonstrate the effectiveness of our HRMF for hashtag recommendation.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号