首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
针对微博热点话题检测使用主题模型只能提取出无序话题词组合的问题,提出一种结合词激活力模型与主题模型各自优点的微博热点话题检测方法及话题关键词的计算方法。首先,使用传统的主题模型提取出微博文本中的热点主题;其次,根据各主题下文档的概率分布提取出新的话题文档;然后引入词激活力模型计算各个词之间的词激活力,生成词激活力矩阵;最后,利用词激活力矩阵生成有序的词序列作为热点事件。实验验证了该方法的可行性,表明所提出方法能够很好地识别出热点词并生成可读性高的事件。  相似文献   

2.
微博热点预测是一类贫信息、小样本、不确定性的复杂预测问题。为了提高微博热点预测精度,提出一种基于支持向量机修正ARIMA误差的微博热点预测模型(ARIMA-SVM)。首先对微博数据进行预处理、提取主题构建网络微博热点时间序列,然后采用ARIMA建立网络微博热点预测模型,并采用支持向量机对ARIMA预测误差进行修正得到微博热点最终预测结果,最后模型性能进行仿真测试。结果表明,相对于传统预测模型,ARIMA-SVM提高了网络微博热点的预测精度,预测结果具有一定实用价值。  相似文献   

3.
针对微博的文本存在短小、快速、变化等特点,导致热点发现困难的问题,本文提出了一种基于改进的FIHC聚类和TOPSIS的热点发现方法。首先把知网语义相似度引入FIHC聚类算法Score函数的计算,考虑了频繁词之间的语义联系,更准确的生成基于频繁词的初始簇;然后对微博文本重复的初始簇进行消减,再采用Single-Pass聚类的思想对消减完的话题簇进一步聚类最终得到热点话题;最后对热点话题采用改进的TOPSIS模型进行排序,更好的获得热点话题的排行。通过和其他文本聚类算法以及热点发现方法对比,该方法热点发现效果好,能够比较全面的反应当前的热点话题。  相似文献   

4.
PAM概率主题模型研究综述   总被引:1,自引:0,他引:1  
近年来,主题模型逐渐成为计算机科学领域的一个研究热点,在自然语言处理、文本分类以及信息检索等方面都有很广泛的应用。介绍了概率主题模型的发展后,主要针对PAM模型及其改进的层次PAM和非参PAM进行了分析和比较,层次PAM可以更好地表达主题层次结构;非参PAM则是给定一个基于HDP的非参贝叶斯先验,对复杂结构的模型有更强的表现力。最后对PAM相关主题模型的理论及应用进行了总结,并对未来发展趋势进行了探讨。  相似文献   

5.
通过结合情感词库和微博语义特征,采用向量空间模型的方法表示微博文本,提出一种融合模式匹配和机器学习的微博文本倾向性分析方法。对分词之后的微博文本,先提取出情感关键词,再匹配分析出的几种模式抽取情感评价短句,情感短句和微博表情符号等其它情感特征共同组成情感特征序列,最后采用多步分类的支持向量机方法得到微博文本的情感倾向。通过实验与其它评测结果进行对比,表明本文方法有效。  相似文献   

6.
中文微博情感分析可以发现公众对热点事件的态度掌握网络舆情,因此成为文本挖掘的一个热点研究。采用一种基于Spark并行化的深度置信网络的情感分类方法,该方法利用Word2Vec工具表示微博文本和建立情感词典;使用深度置信网络构建微博情感分类模型;通过Spark集群对深度置信神经网络进行并行化处理。实验结果表明,基于深度置信网络的微博情感分类模型在Spark平台下并行化,训练时间大幅缩短,情感分类的准确率比传统的浅层学习方法高5%。  相似文献   

7.
王臻皇  陈思明  袁晓如 《软件学报》2018,29(4):1115-1130
随着微博的发展,其影响力日益增大,对微博主题内容进行分析具有重要的价值.主题模型技术能够从文本数据中提取主题,但是,由于微博文本短、随意性大、信息量小等特点,微博主题的分析具有一定的难度.提出了一个微博主题可视分析系统,利用多种互相关联的视图与丰富的交互手段,支持用户对主题模型结果进行分析与探索.系统结合了微博数据的特点,引入微博用户与时间因素,支持分析者从多角度对微博主题进行全面分析.系统支持用户在主题可视分析的基础上,通过交互操作对主题进行编辑,从而改进主题模型,提高模型的准确性和可靠性.案例分析结果表明,提出的系统可以有效地帮助用户分析微博主题和修正主题.  相似文献   

8.
殷昊  徐健  李寿山  周国栋 《计算机科学》2018,45(Z11):105-112
文本情绪识别是自然语言处理问题中的一项基本任务。该任务旨在通过分析文本判断该文本是否含有情绪。针对该任务,提出了一种基于字词融合特征的微博情绪识别方法。相对于传统方法,所提方法能够充分考虑微博语言的特点,充分利用字词融合特征提升识别性能。具体而言,首先将微博文本分别用字特征和词特征表示;然后利用LSTM模型(或双向LSTM模型)分别从字特征和词特征表示的微博文本中提取隐层特征;最后融合两组隐层特征,得到字词融合特征,从而进行情绪识别。实验结果表明,该方法能够获得更好的情绪识别性能。  相似文献   

9.
使用主题模型对文本建模,提取文本的隐含主题,进而进行词性标注和文本分类等工作,是机器学习和文本挖掘领域的研究热点。提出一个基于LDA的主题模型,它基于“段袋“假设--文本中的段落具有相同的主题,且连续的段落更倾向于具有相同的主题。对于文章的段落,采用条件随机场(CRF)模型划分并判断它们是否具有相同主题。实验表明,新模型相比LDA模型能更好得提取主题并具有更低的困惑度,同时,能够较好地进行词性标注和文本分类工作。  相似文献   

10.
文章提出了一种基于聚类的微博关键词提取方法。实验过程分三个步骤进行。第一步,对微博文本进行预处理和分词处理,再运用TF-IDF算法与TextRank算法计算词语权重,针对微博短文本的特性在计算词语权重时运用加权计算的方法,在得到词语权重后使用聚类算法提取候选关键词;第二步,根据n-gram语言模型的理论,取n的值为2定义最大左邻概率和最大右邻概率,据此对候选关键词进行扩展;第三步,根据语义扩展模型中邻接变化数和语义单元数的概念,对扩展后的关键词进行筛选,得到最终的提取结果。实验结果表明在处理短文本时Text Ramk算法比TF-IDF算法表现更佳,同时该方法能够有效地提取出微博中的关键词。  相似文献   

11.
微博转发行为是实现信息传播的重要方式,微博转发预测对微博影响力分析、微博话题分析具有重要价值。现有微博转发预测研究大多围绕消息属性、用户属性等微博自身特征,该文提出融合热点话题的微博转发预测方法,对背景热点话题内容和传播趋势对用户转发行为的影响进行量化分析,提出融合背景热点信息的转发兴趣、转发活跃度、行为模式等特征,并基于分类算法建立了面向热点话题相关微博的转发预测模型,在真实数据上的实验结果表明,该方法的预测准确性达到96.6%,提升幅度最高达到12.14%。  相似文献   

12.
微博作为当代生活中信息传播的重要平台,对其进行热点话题挖掘成为当今重要的研究方向之一。针对传统的热点话题发现方法在处理微博文本时存在文本表示缺乏语义信息、挖掘热点话题效果差等问题,本文提出一种基于频繁词集和BERT语义的文本双表示模型(Text dual representation model based on frequent word sets and BERT semantics, FWS-BERT),通过该模型计算加权文本相似度对微博文本进行谱聚类,进一步基于改进相似性度量的affinity propagation (AP)聚类算法进行微博话题挖掘,最后通过引入文献计量学中的H指数提出一种话题热度评估方法。实验表明,本文提出的方法在轮廓系数及Calinski-Harabasz(CH)指标值上均高于基于频繁词集的单一文本表示方法和K-means方法,并且能准确地对微博数据进行话题表示和热度评估。  相似文献   

13.
为了解决短文本信息流的特征稀疏性对热点话题发现带来的挑战,提出了结合词语互信息和概率主题模型的微博热点话题发现方法。通过建立词共现矩阵并应用对称非负矩阵分解算法获取词项-主题矩阵,再利用概率潜在语义分析模型进行主题发现,最终通过定义微博热度分析和排序,有效地支持微博热点话题发现。实验表明,此方法能有效地进行话题聚类并检测出热点话题。  相似文献   

14.
针对现有微博事件抽取方法由于基于事件的内容特征,而忽略事件本身的社会属性与时间特征之间的关系,进而无法识别微博热点传播过程中关键事件的问题,提出了一种融合社会影响力和时间分布的微博关键事件抽取方法。首先通过建模社会影响力来刻画微博事件的重要性,然后融合微博事件演化过程中的时间特性以捕获事件在不同时间分布下的差异,最后抽取出不同时间分布下的微博关键事件。在真实数据集上的实验结果表明,所提方法能有效抽取微博热点中的关键事件,较随机选择、词频-逆文本频率(TF-IDF)、最小权重支配集以及度与聚集系数这四种方法在事件集的完整性指标ROUGE-1上在数据集1上分别提升了21%、18%、26%以及30%,在数据集2上分别提升了14%、2%、21%以及23%,抽取效果优于传统方法。  相似文献   

15.
随着自媒体的迅速发展,微博中的舆情监控和舆情疏导成为一项重大的研究课题. 为了解决传统话题检测方法对于微博中大数据的分析往往具有复杂度高、实时性低、影响力小等问题,提出一种基于词共现和情感分析的突发话题检测方法. 通过研究微博中情感的突发和共现关系,从而建立情感子空间模型;通过该模型对微博中的信息流进行分类,最后对每个类别中的微博进行主题词提取,实现话题检测的目的. 在NLPIR微博内容语料库上的实验结果表明,该方法能够有效地从大规模微博信息中检测突发新闻,提高突发新闻的识别率.  相似文献   

16.
微博消息传播中意见领袖影响力建模研究   总被引:1,自引:0,他引:1  
王晨旭  管晓宏  秦涛  周亚东 《软件学报》2015,26(6):1473-1485
在微博网络中,消息的传播与意见领袖的影响力密切相关.然而,意见领袖在消息动态传播过程中所表现出的影响力难以量化衡量,这对意见领袖影响力的评估和消息传播趋势的预测带来了巨大挑战.针对这一问题,提出一种基于消息传播的微博意见领袖影响力建模与测量分析方法.在分析消息传播模式的基础上,采用动态有向图描述消息在微博网络中的传播过程;发现该过程可近似分解为由各个意见领袖所驱动的子过程,根据对意见领袖影响力属性特征的分析发现,该子过程可以由指数截断的幂律衰减函数来描述.对模型中各个参数进行估计,可以定量地衡量意见领袖在消息传播过程中的初始影响力、影响力衰减指数及其影响力持续时间等指标.结合新浪微博数据的分析结果显示:消息的传播范围与传播过程中参与传播的意见领袖的数量呈弱相关;虽然意见领袖的初始影响力与其粉丝数量的大小正相关,但影响力衰减指数的大小以及影响力持续时间的长短与粉丝数量几乎无关.最后,采用所建模型对真实微博消息的传播趋势进行预测,结果表明,所提模型能够较好地对热门消息的传播趋势进行预测,这对微博中公众舆论的控制及广告定点投放具有重要意义.  相似文献   

17.
基于Hadoop的微博舆情监控系统   总被引:1,自引:1,他引:0  
随着在线社会网络如社交网站、微博、在线社区等的快速发展, 一个真正的双向传播和新媒体时代逐步形成. 在线社会网络让每个用户都能创造自己的内容, 并且快速传播出去. 据不完全统计, 新浪微博平均每秒有超过1000条的新微博产生, 日增量数据为5TB, 因此海量数据给舆情监控带来了严峻的挑战. 将介绍一种基于Hadoop的微博舆情监控系统, 能够对大规模采集数据进行挖掘、分析, 实现对舆情热点话题的发现及追踪、对微博的社会网络分析, 分析结果可视化呈现, 为党政机关、大型企业等单位和组织及时发现敏感信息、掌握  相似文献   

18.
随着微博的日趋流行,新浪微博已成为公众获取和传播信息的重要平台之一,针对微博数据的话题挖掘也成为当前的研究热点。提出一个面向大规模微博数据的话题挖掘方法。首先对大规模微博数据进行分析,基于Bloom Filter算法对数据进行去重处理,针对微博的特有结构,对文本进行预处理,提出改进的LDA主题模型Social Network LDA(SNLDA),采用吉布斯采样法进行模型推导,挖掘出微博话题。实验结果表明,方法能有效地从大规模微博数据中挖掘出话题信息。  相似文献   

19.
Feng  Shi  Wang  Yang  Liu  Liran  Wang  Daling  Yu  Ge 《World Wide Web》2019,22(1):59-81
World Wide Web - Analyzing sentiment polarities of microblog has become a hot research topic for both academic and industrial communities. Most of the existing algorithms regard each microblog as...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号