首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
微博是信息共享的重要平台,同时,也成为虚假消息产生和推广的重要平台,虚假消息的传播严重扰乱了社会秩序。为了快速、有效地识别微博虚假消息,提出一种基于梯度提升决策树(GBDT)的虚假消息检测方法。首先,从评论的角度分析微博虚假消息和真实消息之间存在的差异,在此基础上提取评论中的文本内容、用户属性,信息传播和时间特性的分类特征;然后,基于分类特征,采用GBDT算法实现微博虚假消息识别模型;最后,在两个真实的微博数据集上进行验证。实验结果表明,基于GBDT的识别模型能有效提高微博虚假消息检测的准确率。  相似文献   

2.
微博用户性别分类旨在根据用户信息进行用户性别的识别。目前性别分类的相关研究主要针对单一类型的特征(文本特征或者社交特征)进行性别分类。与以往研究不同,文中提出了一种双通道LSTM(Long-Short Term Memory)模型,以充分结合文本特征(用户发表的微博文本)和社交特征(用户关注者的信息)进行用户性别分类方法的研究。首先,利用单通道LSTM模型分别学习两组文本特征,得到两种特征表示;然后,在神经网络中加入Merge层, 结合两种特征表示进行集成学习,以充分学习文本特征和社交特征之间的联系。实验结果表明,相对于传统的分类算法,双通道LSTM模型分类算法能够获得更好的用户性别分类效果。  相似文献   

3.
随着互联网的蓬勃发展,微博受到了越来越多用户的青睐,对微博用户性别的研究也逐渐成为学术界研究的热点。目前,对英文微博文本用户的性别识别已有研究,但针对中文微博用户性别识别的研究较少。从两性表达情绪的差异出发,提出了一种基于情绪特征的中文微博用户性别识别方法。本文考虑的情绪特征包括情绪词特征和与情绪相关的语言风格特征。实验结果表明,利用情绪特征提高了用户性别识别的精度。  相似文献   

4.
郁友琴  李弼程 《计算机科学》2021,48(12):219-225
微博用户兴趣发现对社交网络的个性化推荐和信息传播的正确引导具有重要意义,因此提出了一种基于多粒度文本特征表示的微博用户兴趣识别方法.首先,从主题层、词序层和词汇层3个方面对微博用户构造文本向量,利用LDA提取内容的主题特征,通过LSTM学习内容的语义特征,引入腾讯AI Lab开源词向量获取词义特征;然后,将以上3种特征向量拼接得到的多粒度文本特征表示矩阵输入CNN中,进行文本分类训练;最后,通过多端输出层实现对微博用户的兴趣识别.实验结果表明,多粒度特征表示模型的分类实验结果比单粒度特征表示模型的精准率、召回率和F1值分别提高了8%,12%和13%.基于对文本粗、细语义粒度和词粒度的综合考量,结合神经网络分类算法,多粒度特征表示模型的评价指标均优于单粒度特征表示模型.  相似文献   

5.
基于评论异常度的新浪微博谣言识别方法   总被引:2,自引:0,他引:2  
以微博为代表的社交媒体在为公众提供信息共享平台的同时, 也为谣言提供了可乘之机.开展微博中谣言的识别和清理方法研究, 对维护社会的安全稳定有着重要的现实意义.本文针对新浪微博平台中谣言识别的问题, 提出了一种基于评论异常度的微博谣言识别方法.首先采用D-S理论实现微博评论异常度的计算方法; 然后利用评论异常度与微博的内容特征、传播特征、用户特征对微博进行抽象表示; 最后再利用SVM (Support vector machine)构建一个基于评论异常度的谣言识别模型, 实现对新浪微博中谣言微博的识别.实验表明, 本文提出的谣言识别模型对新浪微博中谣言识别具有较好的效果, 谣言微博识别的F1值达到了96.2 %, 相较于现有文献的最好结果提高了1.3 %.  相似文献   

6.
针对微博用户兴趣建模问题,提出一种在微博短文本数据集上建立用户兴趣模型的方法。为缓解短文本造成的数据稀疏性问题,在分析微博短文本结构和内容的基础上,给出微博短文本重构概念,根据微博相关的其他微博短文本和文本中包含的3种特殊符号,进行文本内容的扩展,从而扩充原始微博的特征信息。利用HowNet2000概念词典将重构后文本的特征词集映射到概念集。以抽象到概念层的文本向量为基础进行聚类,划分用户的兴趣集合,并给出用户兴趣模型的表示机制。实验结果表明,短文本重构和概念映射提高了聚类效果,与基于协同过滤的微博用户兴趣建模方法相比,平衡均值提高29.1%,表明构建的微博用户兴趣模型具有较好的性能。  相似文献   

7.
该文旨在研究中文微博用户的性别分类问题,即根据微博提供的中文文本信息对注册用户的性别进行识别。虽然基于微博的性别分类已经有一定研究,但是针对中文的性别分类工作还很缺乏。该文首先提出分别利用用户名和微博文本构建两个分类器对用户的性别类型进行判别,并对不同的特征(例如,字特征、词特征等)进行了研究分析;其次,在针对用户名和微博文本的两个分类器的基础上,使用贝叶斯融合方法进行分类器融合,从而达到采用这两种文本分类信息同时对用户性别进行性别判断。实验结果表明该文的方法可以达到较高的识别准确率,并且分类器融合的方法明显优于仅利用用户名或者微博文本的分类方法。  相似文献   

8.
陈抒晨 《福建电脑》2012,28(5):6-7,25
本文将新浪微博作为一种新型的空间数据源,基于微博消息的空间特征、时间特征、属性特征,对原创微博影响力的评价因素进行定量分析。首次将微博的空间传播距离纳入评价因素,结合微博转发时间间隔、微博用户的关注特征,建立微博影响力评估模型。  相似文献   

9.
消费意图是指用户在文本中明确表达出的购买产品或服务等一些商业消费的意愿,如“想买一部手机”。该文针对微博上的消息文本,提出一种基于用户自然标注的微博消费意图识别方法。该方法将微博消费意图识别看作为领域自适应学习问题,通过自动获取的训练语料基于源域和目标域共同特征设计分类器,抽取置信度高的伪标注消费意图微博,再利用微博特征训练新的分类器对微博进行消费意图识别。实验结果表明该文所采用的方法是有效的,F值达到69%和77%,其中使用的各种特征对于提高消费意图识别的效果皆有帮助。  相似文献   

10.
潜在狄利克雷分配(LDA)主题模型可用于识别大规模文档集中潜藏的主题信息,但是对于微博短文本的应用效果并不理想。为此,提出一种基于LDA的微博用户模型,将微博基于用户进行划分,合并每个用户发布的微博以代表用户,标准的文档-主题-词的三层LDA模型变为用户-主题-词的用户模型,利用该模型进行用户推荐。在真实微博数据集上的实验结果表明,与传统的向量空间模型方法相比,采用该方法进行用户推荐具有更好的效果,在选择合适的主题数情况下,其准确率提高近10%。  相似文献   

11.
微博中重要影响力个体的发现有着极为重要的作用。中介中心度方法是发现网络中重要节点的有效方法, 然而传统的中介中心度方法只适用于小规模的网络, 对于海量的微博网络信息却无能为力。提出一种基于随机游走的中介中心度算法, 该算法不仅能有效地应对海量的微博网络数据, 而且其发现结果也明显优于相关的研究。  相似文献   

12.
徐伟  赵斌  吉根林 《计算机科学》2016,43(2):78-82, 100
现有的话题演化研究主要针对长文本。因此研究了微博短文本的话题演化问题,综合考虑微博的文本特征和非文本特征,利用微博的传播特性,提出了基于转发关系的微博话题演化算法MTERR。该算法首先以话题模型为基础,结合微博转发特性和话题的时间特征提取微博话题;然后采用话题的内容相关性指标和转发关联度指标构建话题关联函数,生成话题演化拓扑图;最后,基于真实微博数据集的实验结果表明,MTERR算法生成的话题演化图可以有效地反映热点事件发展演化的过程。  相似文献   

13.
仲兆满  管燕  胡云  李存华 《软件学报》2017,28(2):278-291
微博用户兴趣挖掘是个性化推荐、社群划分的基础工作.在深入分析微博网络特点的基础上,给出了能够揭示微博网络多模性的描述模型,对面向微博网络的后续研究具有参考价值.根据微博网络的特点,提出了基于背景的用户静态兴趣表示及挖掘方法,以及基于微博的用户动态兴趣表示和挖掘方法.针对微博网络中缺少背景信息、发表微博很少的大量不活跃用户,提出了基于关注的用户兴趣挖掘方法.以新浪微博为例,选取了时尚、企业管理、教育、军事、文化这5个领域进行用户兴趣挖掘及相似度计算的实验分析和比较,结果表明,与主流的兴趣挖掘方法相比,该微博用户兴趣的表示和挖掘方法可以有效地改善微博用户兴趣挖掘的效果.  相似文献   

14.
针对现有中文微博观点分类方法对上下文利用不足、数据表示稀疏和特征依赖于人工设计等问题,提出基于卷积神经网络的中文微博观点分类方法.首先利用交互上下文扩充不同主题下的微博内容,使用低维密集向量初始化微博文本.然后构造卷积神经网络模型,实现特征抽取和组合.最后基于softmax分类函数估计中文微博观点类别.实验表明,相比基准方法,文中方法在精确度和F1值上的效果更好.  相似文献   

15.
微博消息传播中意见领袖影响力建模研究   总被引:1,自引:0,他引:1  
王晨旭  管晓宏  秦涛  周亚东 《软件学报》2015,26(6):1473-1485
在微博网络中,消息的传播与意见领袖的影响力密切相关.然而,意见领袖在消息动态传播过程中所表现出的影响力难以量化衡量,这对意见领袖影响力的评估和消息传播趋势的预测带来了巨大挑战.针对这一问题,提出一种基于消息传播的微博意见领袖影响力建模与测量分析方法.在分析消息传播模式的基础上,采用动态有向图描述消息在微博网络中的传播过程;发现该过程可近似分解为由各个意见领袖所驱动的子过程,根据对意见领袖影响力属性特征的分析发现,该子过程可以由指数截断的幂律衰减函数来描述.对模型中各个参数进行估计,可以定量地衡量意见领袖在消息传播过程中的初始影响力、影响力衰减指数及其影响力持续时间等指标.结合新浪微博数据的分析结果显示:消息的传播范围与传播过程中参与传播的意见领袖的数量呈弱相关;虽然意见领袖的初始影响力与其粉丝数量的大小正相关,但影响力衰减指数的大小以及影响力持续时间的长短与粉丝数量几乎无关.最后,采用所建模型对真实微博消息的传播趋势进行预测,结果表明,所提模型能够较好地对热门消息的传播趋势进行预测,这对微博中公众舆论的控制及广告定点投放具有重要意义.  相似文献   

16.
微博客蕴含交通事件信息抽取的自动标注方法   总被引:1,自引:0,他引:1  
微博客文本蕴含丰富的实时交通事件信息,能够为现有交通信息采集手段提供补充。然而,当前事件抽取方法缺少对地理实体关系的判断过程,对涉及多个地理实体及关系表达的地理空间要素抽取效果不佳,难以准确识别交通事件信息的位置描述。该文提出一种自动标注方法,将地理实体关系识别引入事件抽取过程来解决这一问题。该方法利用条件随机场模型实现交通事件角色标注,利用支撑向量机模型实现角色关系与要素关系标注,完成了交通事件信息空间要素识别。以新浪微博为数据源开展的实验分析表明,该文所提出的微博客蕴含交通事件抽取方法,正确率和召回率均达到90%,优于现有的基于模式匹配的抽取方法。  相似文献   

17.
基于特定领域的中文微博热点话题挖掘系统BTopicMiner   总被引:1,自引:0,他引:1  
李劲  张华  吴浩雄  向军 《计算机应用》2012,32(8):2346-2349
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。  相似文献   

18.
Recent progress of Web 2.0 applications has witnessed the rapid development of microblog in China, which has already been one of the most important ways for online communications, especially on sharing information. This paper tries to make an in-depth investigation on the big data modeling and analysis of microblog ecosystem in China by using a real dataset containing over17 million records of SinaWeibo users. First, we present the detailed geography, gender, authentication, education and age analysis of microblog users in this dataset. Then we conduct the numerical features distribution analysis, propose the user influence formula and calculate the influences for different kinds of microblog users. Finally, user content intention analysis is performed to reveal users most concerns in their daily life.  相似文献   

19.
随着微博用户数量的快速增长,微博中所携带的一些情感和观点对社会的影响越来越大,尤其是一些涉及到公众人身安全的负面情绪,可能会影响到社会的稳定,因此进行微博情感分析意义重大。微博情感分析的内容包括微博语料的获取、微博语料的预处理和情感分析方法等,常用的情感分析方法有基于情感词典的方法、基于机器学习的方法和基于深度学习的方法。随着注意力机制在NLP领域的广泛使用,很多研究者开始将注意力机制融合到深度学习模型中进行情感分析,这使得情感分析的准确率得到了很大的提升。谷歌提出的BERT模型本质上也是基于注意力机制实现的,BERT模型在情感分析领域取得了突破性的进展。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号