首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
Recent years have shown us the quick development of social network. For companies, microblog platform is more and more important as one source to disseminate brand information and monitor their development. Compared with the frequently used text information existing in traditional media, microblog platform provides information about brands in more types such as images and other related information forms. According to the statistics, microblogs posted on social network contain more and more percentage of images. Hence how to recognize logos in images from social network is of high value. To address this problem, we propose a novel learning-based logo detection method with social network information assistance. A new dense histogram type feature is proposed to classify logo and non-logo image patches. To increase the detection precision, social network content is analyzed and employed to do filtering to reduce detection window candidates. Through the evaluation on large-scale data collected from Sina Weibo platform, the proposed method is demonstrated effective.  相似文献   

2.
传统的微博广告过滤方法忽略了微博广告文本的数据稀疏性、语义信息和广告背景领域特征等因素的影响。针对这些问题,提出一种基于隐含狄列克雷分配(LDA)分类特征扩展的广告过滤方法。首先,将微博分为正常微博和广告型微博,并分别构建LDA主题模型预测短文本对应的主题分布,将主题中的词作为特征扩展的基础;其次,在特征扩展时结合文本类别信息提取背景领域特征,以降低其对文本分类的影响;最后,将扩展后的特征向量作为分类器的输入,根据支持向量机(SVM)的分类结果过滤广告。实验结果表明,与现有的仅基于短文本分类的过滤方法相比,其准确率平均提升4个百分点。因此,该方法能有效扩展文本特征,并降低背景领域特征的影响,更适用于数据量较大的微博广告过滤。  相似文献   

3.
以短文本为主体的微博等社交媒体,因具备文本短、特征稀疏等特性,使得传统文本分类方法不能够高精度地对短文本进行分类。针对这一问题,文章提出了基于词项关联的短文本分类方法。首先对训练集进行强关联规则挖掘,将强关联规则加入到短文本的特征中,提高短文本特征密度,进而提高短文本分类精度。对比实验表明,该方法一定程度上减缓了短文本特征稀疏特点对分类结果的影响,提高了分类准确率、召回率和F1值。  相似文献   

4.
随着社交媒体的迅速发展,谣言通过社交媒体迅速传播,识别社交媒体网络上的谣言是社交网络研究中一个至关重要的问题.本文提出了一种新的考虑注意力机制的微博谣言检测模型,考虑到卷积神经网络(CNN)提取到的特征对输出结果影响力问题,在经典的文本卷积神经网络(Text CNN)上引入了注意力机制,通过CNN中的卷积层学习微博窗口的特征表示,再根据每个特征表示对输出结果的影响力不同通过注意力机制赋予不同的权重来进行谣言事件的检测.研究结果表明,本文提出的微博谣言检测模型准确率达到了96.8%,并且在召回率和F1值上也有提升,即本文提出的新的微博谣言检测模型具有更好的谣言识别能力.  相似文献   

5.
一种基于朴素贝叶斯的微博情感分类   总被引:1,自引:0,他引:1  
本文基于二次情感特征提取算法,利用句法依存关系进行一次文本情感特征提取,在此基础上,利用情感词典,进行二次情感特征提取。构建朴素贝叶斯分类器,对采集的热门话题微博和酒店评论进行文本情感倾向性分类。主要比较了表情符号、标点符号,基于情感词典的特征提取和基于二次情感特征提取方法,在不同的组合下的分类性能,寻找更佳的微博文本情感分类预处理方法。并与酒店评论情感分类结果对比、分析,发现影响微博情感分类性能的原因。实验结果表明,二次特征提取方法在分类上取得更高的F1。实验最佳的分类预处理方式是"表情符号+标点符号+二次情感特征提取+BOOL值"。同时发现,朴素贝叶斯在酒店评论情感分类取得更高的分类性能,主要是微博评价对象多样化造成的。  相似文献   

6.
Wang  Yanmei 《Multimedia Tools and Applications》2020,79(27-28):19151-19166

Microblog (such as Weibo) is an integrated social platform of vital importance in the internet age. Because of its diversity, subjectivity and timeliness, microblog is popular among public. In order to perform sentiment classification on microblog posts and overcome the limitation of text information, a fine-grained sentiment analysis method is proposed, in which emoticon attributes are considered. Firstly, the microblog texts are pre-processed to remove some stop words and noise information such as links. Then the data is matched in the sentiment lexicon, and when the first matching succeeds, the second matching is performed in the emoticon dictionary. The emoticons in the emoticon dictionary are transformed into vector form. Through these matching, the emotional features are vectorized and other text features are considered. Finally, the iterative-based naive Bayesian classification method is used for sentiment classification. The experiment results show that emoticons have obvious effect on facilitating the sentiment classification of microblog posts, and the proposed sentiment classification method achieved better than average results in term of classification accuracy compared with state-of-art techniques.

  相似文献   

7.
社交媒体文本中突出的长尾效应和过量的词典外词汇(OOV)导致严重的特征稀疏问题,影响分类模型的准确率.针对此问题,文中提出基于字词特征自注意力学习的社交媒体文本分类方法.在字级别构建全局特征,用于学习文本中各词的注意力权值分布.改进现有的多头注意力机制,降低参数规模和计算复杂度.为了更好地分析字词特征融合的作用,提出OOV词汇敏感度,用于衡量不同类型的特征受OOV词汇的影响.多组社交媒体文本分类任务的实验表明,文中方法在融合字特征和词特征方面的有效性与分类准确度均有较明显的提升.此外,OOV词汇敏感度指标的量化结果验证文中方法是可行有效的.  相似文献   

8.
殷昊  徐健  李寿山  周国栋 《计算机科学》2018,45(Z11):105-112
文本情绪识别是自然语言处理问题中的一项基本任务。该任务旨在通过分析文本判断该文本是否含有情绪。针对该任务,提出了一种基于字词融合特征的微博情绪识别方法。相对于传统方法,所提方法能够充分考虑微博语言的特点,充分利用字词融合特征提升识别性能。具体而言,首先将微博文本分别用字特征和词特征表示;然后利用LSTM模型(或双向LSTM模型)分别从字特征和词特征表示的微博文本中提取隐层特征;最后融合两组隐层特征,得到字词融合特征,从而进行情绪识别。实验结果表明,该方法能够获得更好的情绪识别性能。  相似文献   

9.
孙嘉  陈智勇 《计算机仿真》2020,37(1):179-182,316
校园微博作为影响学生学习与生活的平台,其中的负信息数量逐渐增多。针对当前校园微博负信息分类方法中存在的分类准确性差、耗时长的问题,提出基于贝叶斯的校园中微博演化网络动画负信息分类方法。依据完全性和可区分性对微博演化网络动画负信息特征集合进行构造,设定判定阈值,去除各篇信息文档中频次比设定阈值低的信息特征项,获取每篇微博信息文档特征项集合。根据特征项集合的构建,给出专指度定义,针对专指度比较高的信息特征项,对其频次进行适当增加。针对专指度比较低的信息特征项,对其频次进行适当减少,完成微博演化网络动画信息文档特征向量的构建,并对特征向量进行归一化。利用点互信息对校园中微博演化网络动画负信息进行初分类,通过贝叶斯分类器对初次分类后未被分类的微博负信息进行二次分类。实验结果表明,上述方法负信息分类准确率高,耗时短,具有可行性。  相似文献   

10.
熊宇  张一飞  冯时  王大玲 《控制与决策》2019,34(7):1409-1416
作为一种重要的社会媒体平台,分析、检测并跟踪微博内重大社会事件可以及时提供舆论焦点.但因其碎片化、异构性和实时性,传统方法很难有效分析海量微博,为此,提出一种基于多模态特征深度融合的微博事件检测与跟踪框架.首先基于文本处理对微博事件进行标注;然后用多模态特征深度融合实现事件的检测与表示;最后利用基于时间平滑的图变换模型完成事件流的跟踪.在真实数据集上的实验表明,所提出的方法能有效检测和跟踪微博流事件.  相似文献   

11.
微博案件观点所涉方面的自动识别是了解互联网社交媒体新闻舆情的重要手段,但由于微博文本形式和内容均灵活多变,传统的方面识别方法通常只利用单一的正文或评论,使微博语义理解非常有限。针对涉案微博文本的方面识别问题开展研究,提出一种基于正文和评论交互注意的案件方面识别方法,通过融合社交媒体的上下文信息,实现对案件观点所涉方面的识别。首先基于Transformer框架对正文和评论分别进行编码;然后基于交互注意力机制,实现正文信息和评论信息的融合,并基于融合后的特征实现对评论文本案件方面的识别;最后基于12个案件构建的微博数据集进行实验,实验结果表明,采用交互注意力机制融合微博正文信息和评论信息可以显著提升案件方面识别的准确率,证明了所提方法的有效性。  相似文献   

12.
王臻皇  陈思明  袁晓如 《软件学报》2018,29(4):1115-1130
随着微博的发展,其影响力日益增大,对微博主题内容进行分析具有重要的价值.主题模型技术能够从文本数据中提取主题,但是,由于微博文本短、随意性大、信息量小等特点,微博主题的分析具有一定的难度.提出了一个微博主题可视分析系统,利用多种互相关联的视图与丰富的交互手段,支持用户对主题模型结果进行分析与探索.系统结合了微博数据的特点,引入微博用户与时间因素,支持分析者从多角度对微博主题进行全面分析.系统支持用户在主题可视分析的基础上,通过交互操作对主题进行编辑,从而改进主题模型,提高模型的准确性和可靠性.案例分析结果表明,提出的系统可以有效地帮助用户分析微博主题和修正主题.  相似文献   

13.
张阳  王小宁 《计算机应用》2021,41(11):3151-3155
文本特征是自然语言处理中的关键部分。针对目前文本特征的高维性和稀疏性问题,提出了一种基于Word2Vec词嵌入和高维生物基因选择遗传算法(GARBO)的文本特征选择方法,从而便于后续文本分类任务。首先,优化数据输入形式,使用Word2Vec词嵌入方法将文本转变成类似基因表示的词向量;然后,将高维词向量模拟基因表达方式进行迭代进化;最后,使用随机森林分类器对特征选择后的文本进行分类。使用中文评论数据集对所提出的方法进行实验,实验结果表明了优化后的GARBO特征选择方法在文本特征选择上的有效性,该方法成功地将300维特征降低为50维更有价值的特征,分类准确率达到88%,与其他过滤式文本特征选择方法相比,能够有效地降低文本特征维度,提高文本分类效果。  相似文献   

14.
针对短文本具有特征稀疏、不规范、主题不明确等特点,提出一种有效的基于支持向量机的短文本分类方法。由于汉语中依存语法分析准确率和时间效率不高的问题,针对客户文本咨询的特点,在对短文本分类时,本文并未对句子进行依存语法的分析,而是主要使用句法特征进行分析,找出文本的子串和子序列形成候选特征集,之后利用信息增益、互信息、卡方统计3种特征选择方法进行有效特征选择,最后采用支持向量机方法进行文本分类。将本文所提的模型应用于一组真实数据,实验结果表明,平均正确率可达到84.19%,从而验证该分类方法的鲁棒性和有效性。  相似文献   

15.
万志超  胡峰  邓维斌 《计算机应用》2019,39(11):3127-3133
传统的特征选择方法在面对不平衡文本情感倾向性分类时会有很大的局限性,这种局限性主要体现在特征维数过高、特征过于稀疏和特征分布不平衡,这会使得分类的准确度大幅度下降。根据不平衡文本情感特征分布的特点,结合三支决策的思想,提出了一种面向不平衡文本情感分类的三支决策特征选择方法(TWD-FS)。该方法将两种有监督特征选择方法相结合,将选择出的特征词进一步筛选,使得最终选择出的特征词同时满足类间离散度最大和类内离散度最小的特点,有效地减少了特征词的数量,降低了特征维度;此外,通过组合正负类情感特征,缓解了情感特征的不平衡性,有效提高了不平衡样本中少数类情感的分类效果。在COAE2013中文微博非平衡数据集等多个数据集上的实验结果表明,所提的特征选择算法TWD-FS可以有效提高不平衡文本情感分类的准确度。  相似文献   

16.
Microblog as one kind of typical social media has many research implications in social event discovery and social-media-based e-learning and collaborative learning. At present, researchers usually employ feature-based classification approaches to detect social events in microblogs. However, it is very common to get different results when different features are used in event discovery. Therefore, it has been a critical issue how to select appropriate features for event discovery in microblogs. In this paper, we analyze five different feature selection methods and present an improved method for selecting features for microblog-based event discovery. We compare all the methods on a real microblog dataset in terms of various metrics including precision, recall, and F-measure. And finally we discuss the best feature selection method for the event discovery in microblogs. To the best of our knowledge, there are no such comparative studies on feature selection for event discovery in social media, and this paper is expected to offer some useful references for the future research and applications on the event discovery in microblogs.  相似文献   

17.
As a new information sharing platform, microblog has got explosive growth in recent years and has become an important source for public opinion mining. A variety of information like the reviews of brands/products or the trends of events can be socially sensed from such kind of data. However, it is still a challenging task to search relevant microblogs as the user generated content tends to be mixed with noise. Besides short text, image is getting popular in microblogs due to its power in visual information conveying. In this paper, we leverage textual and visual cues integratedly and propose a general re-ranking approach for microblog retrieval via multi-graph semi-supervised learning. We argue that the different types of information in microblogs correspond to different relationships among microblogs and each type of the relationship can be represented as a similarity graph. We then integrate different graphs into a unified framework and solve them simultaneously for microblog re-ranking. Extensive experiments on a recently published Brand-Social-Net dataset showed the effectiveness of the proposed method and marginal improvements have been achieved in accuracy as compared to the single graph model based method.  相似文献   

18.
该文针对微博数据稀疏、内容关系难以计算的特点,提出了一种基于特征驱动的微博话题检测方法。提取有意义串作为微博动态特征,根据微博的结构关系计算特征的作者影响力和文档影响力,与内容统计特性共同构成特征的属性组,采用逻辑回归对特征建模,基于属性组对特征二元分类得到话题关键特征,将关键特征之间的互信息作为距离度量,改进最近邻聚类方法对关键特征聚类产生话题。微博数据实验表明,该方法有效提高了微博话题检测的准确率和召回率。  相似文献   

19.
针对现有中文微博观点分类方法对上下文利用不足、数据表示稀疏和特征依赖于人工设计等问题,提出基于卷积神经网络的中文微博观点分类方法.首先利用交互上下文扩充不同主题下的微博内容,使用低维密集向量初始化微博文本.然后构造卷积神经网络模型,实现特征抽取和组合.最后基于softmax分类函数估计中文微博观点类别.实验表明,相比基准方法,文中方法在精确度和F1值上的效果更好.  相似文献   

20.
针对日渐丰富的多语种文本数据,为了实现对同一类别体系下不同语种的文本分类,充分发挥多语种文本信息的价值,提出一种结合双向长短时记忆单元和卷积神经网络的多语种文本分类模型BiLSTM-CNN模型。针对每个语种,利用双向长短时记忆神经网络提取文本特征,并引入卷积神经网络进行特征优化,获得各语种更深层次的文本表示,最后将各语种的文本表示级联输入到softmax函数预测类别。在中英朝科技文献平行数据集上进行了实验验证,实验结果表明,该方法相比于基准方法分类正确率提高了4%,且对任一语种文本均能正确分类,具有良好的扩展性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号