首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
黄铃  李学明 《计算机应用》2013,33(12):3563-3566
针对微博上存在的大量垃圾评论,提出一种基于AdaBoost的微博垃圾评论识别方法。该方法首先提取表示微博评论的特征值向量,由8个特征值组成,然后通过AdaBoost算法在这些特征上训练出若干个比随机预测好的弱分类器,最后将得到的弱分类器加权集合成高精度的强分类器。从实际的热门新浪微博中提取评论数据集进行实验,结果表明所选取的8个特征是有效的,该方法对于微博垃圾评论的识别拥有较高的识别率。  相似文献   

2.
随着微博平台的快速发展,垃圾信息检测与过滤也面临着巨大的考验,实时精确地识别垃圾信息对于提高用户的体验以及微博平台的可持续发展意义重大.本文根据新浪微博的真实数据,提出了一种基于多特征的垃圾微博检测方法.首先,提取微博的显式特征(用户特征、内容特征);然后利用文档主题生成模型(LDA)提取微博中的隐含主题特征;最后根据所提取的微博特征利用支持向量机(SVM)构建分类器.实验结果表明,该方法相比于现有方法在准确率和F1值方面都有一定的提升.  相似文献   

3.
该文从统计学方法与机器学习的分类思想出发,对中文微博文本的情感类别进行研究。针对微博文本的特点,提出了一种级联式微博情感分类器模型,该模型首先构建基于情感词典和新浪表情符号词典的微博情感初级分类模型;然后根据基准词构建基于类别倾向相似度的二级分类模型,对初级模型未能确定情感类别的微博进行再次分类,并对初级模型的词典进行更新;最后采用朴素贝叶斯分类器构建三级分类模型,对以上还未确定情感类别的微博进行三级分类。通过与NLPCC2014微博情感分类评测参赛结果进行比较,说明了所提方法的有效性。  相似文献   

4.
为解决基于深度神经网络的微博谣言检测工作中带标签数据稀缺的问题,提出一种基于迁移学习的微博谣言检测方法.利用双层双向的门控循环单元和卷积神经网络组成的联合模型作为特征提取器,利用丰富的评论数据对联合神经网络进行预训练,将训练好的特征提取层迁移到微博谣言检测任务中,通过区分微调和斜三角学习率两种微调策略对特征提取层进行调整,使其适应于目标任务.实验结果表明,采用迁移学习方法的联合神经网络能有效提高微博谣言检测的准确率.  相似文献   

5.
深度网络模型在微博情感倾向性分析过程中难以有效利用情感特征信息,为此,提出一种基于多样化特征信息的卷积神经网络(MF-CNN)模型。结合词语多样化的抽象特征和2种网络输入矩阵计算方法,利用句中的情感信息,以优化情感分类效果。在COAE2014和微博语料数据集上进行文本情感分析,结果表明,MF-CNN模型的情感分类效果优于传统的分类器和深度卷积神经网络模型。  相似文献   

6.
针对微博文本情感分析中大量有标记数据难获取,以及文本特征学习不完全的问题,提出将长短时记忆网络(Long Short-Term Memory,LSTM)及其衍生模型双向长短时记忆网络(Bi-LSTM)引入变分自编码生成模型,构建基于变分自编码的半监督文本分类模型.其中LSTM作为变分编码器中的编码器和解码器,Bi-LSTM作为分类器.分类器既为编码器提供标签信息共同生成隐变量,也与隐变量通过解码器共同重构数据,利用无标记数据的有用信息提高分类器的性能.与其他方法在同一公开数据集上对比的实验结果表明,该模型的分类效果更好.  相似文献   

7.
传统微博用户推荐算法采用的数据来源单一,模型简单,导致推荐准确率不高。针对这一问题,本文提出一种基于标签的User Profile推荐算法,根据微博数据的特点,深入研究“微博文本”、“标签”、“社交关系”和“用户自身基本信息”等因素对微博个性化推荐的影响,通过训练LDA主题模型和SVM分类器将它们转换为标签,并赋予权重来描述用户兴趣,进行用户推荐以提高推荐准确性。实验结果表明,与传统VSM模型方法相比,该算法进行用户推荐效果更佳。  相似文献   

8.
以微博为代表的社交平台是信息时代人们必不可少的交流工具.挖掘微博文本数据中的信息对自动问答、舆情分析等应用研究都具有重要意义.短文本数据的分类研究是短文本数据挖掘的基础.基于神经网络的Word2vec模型能很好的解决传统的文本分类方法无法解决的高维稀疏和语义鸿沟的问题.本文首先基于Word2vec模型得到词向量,然后将类别因素引入传统权重计算方法TF-IDF (Term Frequency-Inverse Document Frequency)设计词向量权重,进而用加权求和的方法得到短文本向量,最后用SVM分类器对短文本做分类训练并且通过微博数据实验验证了该方法的有效性.  相似文献   

9.
单通道信号源个数估计是单通道盲源分离问题的前提与难点,传统方法无法直接进行估计且准确率较低.文章提出了一种基于深度网络分类器的单通道信号源估计方法.该方法将源个数估计作为分类问题,在经典CNN的基础上引入一维卷积网络与残差结构作为分类器,采用短时傅里叶变换和梅尔倒谱系数作为联合特征输入分类器.在Libricount数据集上的测试结果表明,该方法的源个数估计准确率明显优于基准模型.  相似文献   

10.
基于深层特征和集成分类器的微博谣言检测研究   总被引:1,自引:0,他引:1  
微博中存在着大量的虚假信息甚至谣言,微博谣言的广泛传播影响社会稳定,损害个人和国家利益。为有效检测微博谣言,提出了一种基于深层特征和集成分类器的微博谣言检测方法。首先,对微博情感倾向性、微博传播过程和微博用户历史信息进行特征提取得到深层分类特征;然后利用分类特征训练集成分类器;最后利用集成分类器对微博谣言进行检测。实验结果表明,提出的基于深层特征和集成分类器的方法能够有效提高微博谣言检测的性能。  相似文献   

11.
In today’s digital world, millions of individuals are linked to one another via the Internet and social media. This opens up new avenues for information exchange with others. Sentiment analysis (SA) has gotten a lot of attention during the last decade. We analyse the challenges of Sentiment Analysis (SA) in one of the Asian regional languages known as Marathi in this study by providing a benchmark setup in which we first produced an annotated dataset composed of Marathi text acquired from microblogging websites such as Twitter. We also choose domain experts to manually annotate Marathi microblogging posts with positive, negative, and neutral polarity. In addition, to show the efficient use of the annotated dataset, an ensemble-based model for sentiment analysis was created. In contrast to others machine learning classifier, we achieved better performance in terms of accuracy for ensemble classifier with 10-fold cross-validation (cv), outcomes as 97.77%, f-score is 97.89%.  相似文献   

12.
随着Web技术的发展,微博已经成为最受欢迎的社交平台之一了。在中国,微博用户规模已经达到了2.42亿。微博用户影响力计算对社会信息在微博里面有效传播,正确传播,健康传播有着非常重要的意义。本文以新浪微博数据为实验的对象,通过改进传统的PageRank模型,提出了的新型用户影响力排名算法---MBUI-Rank(Micro-Blog User Influence Rank)算法。在考虑传统PageRank方法的用户链接关系的同时,MBUI-Rank算法还考虑到微博用户自身行为活动,构建用户对微博的影响的动态挖掘模型。实验结果表明,MBUI-Rank算法与传统的PageRank算法相比,可以更加真实有效地反映微博用户的实际影响力。  相似文献   

13.
信息传播的高速性加剧了谣言等网络污染在微博网络中的扩散。微博网络的用户量和信息量极为庞大。因此,对微博污染传播机制和污染检测手段的研究显得尤为重要。根据基于用户影响力建立的微博谣言传播模型,利用蚁群算法逆推污染传播路径,搜索受染用户,并分别以Twitter和新浪微博为实验平台,通过对比分析验证了模型的可行性。实验结果表明:模型通过对受染个体的搜索,缩小了污染的检测范围,提高了微博污染的治理效率和准确性。  相似文献   

14.
李锐  王斌 《中文信息学报》2014,28(2):136-143
近年来,微博的发展令人瞩目,微博检索已经成为一个重要的研究课题。而微博具有文本内容短、更新快、融合社交网络等特点,这些特点使微博的检索不同于传统的web检索。该文首先分析了传统的向量空间模型、概率模型以及基本的语言模型直接用于微博检索将面临的问题;接着在语言模型框架下提出了利用作者信息对微博内容进行扩展的思想,即利用作者信息重新估计微博的语言模型;然后针对话题模型在短文档训练中存在的问题,提出了使用作者的文档话题模型来进一步扩展微博的内容;最后在TREC公开数据集上进行了实验。实验结果表明,可以通过合理使用作者信息来有效的提高微博检索的效果。  相似文献   

15.
为了构建一个基于微博的社会网络,需要提供大量的微博数据源,那么如何才能实时高效的获取微博信息是构建微博社会网络面临的重大挑战。本文提出了一种基于聚类的动态负载均衡数据采集方法,将聚类算法与动态负载均衡结合是一次新的尝试,测试表明,能够满足对微博数据采集的需求。  相似文献   

16.
针对流媒体的流行度预测问题,提出一种基于视频特征及历史数据的流行度预测模型。首先,根据视频特征及在社交网络中的影响力,使用K-近邻(KNN)算法对视频的流行程度进行预测。然后,基于流行程度的预测结果,结合自回归滑动平均(Autoregressive Moving Average,ARMA)模型对视频的点播量进行预测。最后,通过爬取豆瓣电影及新浪微博数据,对模型进行试验。结果表明,与朴素贝叶斯分类器及ARMA模型相比,本文模型的召回率(recall)明显较高,平均平方根误差(RMSE)降低了约20%。  相似文献   

17.
微博是舆情话题传播的重要渠道,研究微博网络中的舆情话题传播机制,将有利于对舆情话题的传播过程进行分析与监控,而传统的网络信息传播模型却无法真实地描述微博网络中的舆情话题传播机制。针对以上问题,分析了微博网络中的信息互动模式及舆情话题的传播特点,以传染病动力学中的SIR模型为基础,通过引入一个新的节点状态--接触状态,构建了基于SCIR(Susceptible Contacted Infected Removed)的微博网络舆情话题传播模型。仿真结果表明,该模型可以很好地描述微博网络中的舆情话题传播规律。  相似文献   

18.
The robot joint is an important component of the construction robot, and its fault diagnosis can ensure the exact execution of building jobs, stable operation, and timely prevention of probable safety mishaps. However, deep learning-based fault diagnosis needs a multitude of measured fault data, which is difficult to obtain for various reasons. To solve the problem of insufficient data, a digital twin-assisted fault diagnosis system for robot joints is proposed. First, a simplified dynamics model of the robot joint is developed to generate the virtual entity data which can be used as the X-domain data for the digital twin model. Second, a CycleGAN-based digital twin model is proposed to map the virtual entity (X-domain) data to the physical entity (Y-domain) utilizing only a small amount of measured data. In the end, a test-rig for the robot joint is built to simulate the robot's working conditions, and the CNN-ResNet classifier is utilized to verify the effectiveness of the simulated data generated by the digital twin model. The results show that the fault diagnosis accuracy can be increased from 32.5% to 98.86% utilizing only 400 sets of measured data.  相似文献   

19.
为了提高网络入侵检测正确率,利用特征选择和检测分类器参数间的相互联系,提出一种特征和分类器联合优化的网络入侵检测算法。联合优化方法将网络状态特征和分类器参数作为遗传算法的个体,网络入侵检测正确率作为个体适应度函数,通过选择、交叉和变异等遗传操作获得最优特征和分类器参数,利用KDD 1999数据集对联合优化算法进行验证性测试。实验结果表明,相对于其他入侵检测算法,联合优化算法既解决了特征与分类器不匹配带来的入检测检测能力下降,又提高了网络入侵检测正确率和效率,为网络入侵检测提供了一种新的研究思路。  相似文献   

20.
周杰英  贺鹏飞  邱荣发  陈国  吴维刚 《软件学报》2021,32(10):3254-3265
网络入侵检测系统作为一种保护网络免受攻击的安全防御技术,在保障计算机系统和网络安全领域起着非常重要的作用.针对网络入侵检测中数据不平衡的多分类问题,机器学习已被广泛用于入侵检测,比传统方法更智能、更准确.对现有的网络入侵检测多分类方法进行了改进研究,提出了一种融合随机森林模型进行特征转换、使用梯度提升决策树模型进行分类的入侵检测模型RF-GBDT,该模型主要分为特征选择、特征转换和分类器这3个部分.采用UNSW-NB15数据集对RF-GBDT模型进行了实验测试,与其他3种同领域的算法相比,RF-GBDT既缩短了训练时间,又具有较高的检测率和较低的误报率,在测试数据集上受试者工作特征曲线下的面积可达98.57%.RF-GBDT对于解决网络入侵检测数据不平衡的多分类问题具有较显著的优势,是一种切实可行的入侵检测方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号