首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 154 毫秒
1.
基于特定领域的中文微博热点话题挖掘系统BTopicMiner   总被引:1,自引:0,他引:1  
李劲  张华  吴浩雄  向军 《计算机应用》2012,32(8):2346-2349
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。  相似文献   

2.
现有话题流行度预测方法仅基于话题本身的特征进行流行度预测,未考虑不同话题间的相关性.然而在微博上下文不同的话题之间存在一定的相关性,特别是在同一个事件的不同话题之间.因此,文中利用动态话题模型探测微博中的隐式话题及其流行度时间序列,通过Jensen Shannon散度和皮尔逊相关系数分别分析话题间的内容和时序相关度,然后在预测模型中引入话题时序相关性,提出基于向量自回归模型的微博隐式话题流行度预测算法.通过在真实微博数据上的实验分析可知,相比未考虑话题相关性的算法,文中算法具有更高的预测准确率和更好的模型拟合效果.  相似文献   

3.
针对由于微博文本的数据特性造成的传统信息搜索方法无法直接实现微博话题内容搜索的问题,提出了一种基于卷积神经网络的微博话题内容搜索方法,对微博安全话题内容进行搜索和匹配排序。该方法包括基于深度卷积神经网络的微博内容筛选和微博内容匹配两部分。微博内容筛选依据深度卷积特征表示进行微博内容筛选,微博内容匹配通过卷积特征非线性变换对筛选结果进行匹配排序。微博内容筛选和微博内容匹配对国民安全话题相关的微博文本内容局部特征进行处理,对筛选结果进行相似度计算从而实现相似度匹配。实验结果表明该方法在微博搜索性能上优于现有同类方法,并验证了所提出方法针对安全话题的微博文本内容搜索的有效性。  相似文献   

4.
随着微博从小到大,从一个小众之间无足轻重的应用,发展到一个具有颠覆性的媒体,关于微博营销的话题也得到业界越来越多的重视,成为许多企业借之成长的重要手段。作为国内第一影响力的新浪微博,与其相关的事件非常多,越来越多的公司正在从这些事件中吸取教训,也有许多学者和业内人士在探索微博营销的新路。  相似文献   

5.
随着微博的大量普及和关注度的不断提高,微博热点话题发现已成为当前研究热点。针对于短文本、向量空间模型(VSM)文本表示方法存在高维度、稀疏,以及同义多义问题,导致难以准确度量文本相似度,提出一种基于隐含语义分析的两阶段聚类话题发现方法。引入话题热度的概念来选取具有一定关注度的微博文本,用隐含语义分析(LSA)对数据集进行建模;用层次聚类的CURE算法确定初始类中心;用K-means聚类得到热点话题的聚类结果。真实微博数据集的实验结果验证了该方法的有效性。  相似文献   

6.
智能手机和微博客户端强化了微博的媒体特性,实时发现微博话题具有现实意义。文章提出了一种基于关键字分类的中文微博热点话题发现方法,通过关键字对微博信息进行筛选和归类,以时间窗内词频和增长速度构造赋权函数提取主题词,词汇的同文本条件概率作为相似度判定依据,基于改进的单遍聚类算法进行主题词聚类。对系统运行结果分析表明,该方法可以实时有效地聚类发现微博热点话题。  相似文献   

7.
微博作为新兴的社交媒体平台,越来越多的网民选择在微博上获取与分享自己感兴趣的信息。在微博日均千万级的大数据面前,分析网民对某一事件的观点与态度是一件非常有意义的工作。调研中发现,大众对单个事件的不同话题存在不同的情感分布。针对这一现象,该文提出了使用无监督学习的层次聚类排序方法和半监督学习的微博话题纠正算法两种方法,进行事件话题及其相关微博的挖掘。最后利用情感分析的相关技术,达到对相关微博进行情感分布统计及其原因分析的目的。通过在人工构建的数据集上测试,结果表明该方法能够准确分析事件情感分布的原因。  相似文献   

8.
基于新闻要素的新事件检测方法研究   总被引:1,自引:0,他引:1  
薛晓飞  张永奎  任晓东 《计算机应用》2008,28(11):2975-2977
新事件检测(NED)的目标是检测出报道一个新闻话题种子事件的第一个新闻。考虑到新闻的基本要素在新闻中的作用,采用特征加权的方式对传统的词频和倒排文档频率(TF-IDF)模型进行改进,并在新闻报道中提取出时间信息和地点信息,分别对内容相似度、时间相似度和地点相似度进行计算,并将三者结合来检测新事件。实验证明这种方法有效。  相似文献   

9.
随着全媒体时代的到来和社交网络的发展,流行度预测在舆情监测和数据话语权的争夺上开始发挥重要的作用。现有的流行度预测研究多集中于外文媒体,对以微博为代表的国内主流媒体进行流行度预测是一个新兴且具有挑战的方向。本文针对微博这一国内社交媒体平台进行研究,通过对微博内容及微博用户的特征分析,设计了多种流行度预测方案,同时,提出了一种基于XGBoost的微博流行度预测算法,将流行度预测问题转换为互动值档位分类问题,在分类式框架下将提取融合后的特征用于模型训练,可以较为准确地对有用户信息的微博的流行度情况进行预测。本文的算法在微博流行度预测数据集中得到验证,并且取得了准确率高达85.69%的优越效果。  相似文献   

10.
徐伟  赵斌  吉根林 《计算机科学》2016,43(2):78-82, 100
现有的话题演化研究主要针对长文本。因此研究了微博短文本的话题演化问题,综合考虑微博的文本特征和非文本特征,利用微博的传播特性,提出了基于转发关系的微博话题演化算法MTERR。该算法首先以话题模型为基础,结合微博转发特性和话题的时间特征提取微博话题;然后采用话题的内容相关性指标和转发关联度指标构建话题关联函数,生成话题演化拓扑图;最后,基于真实微博数据集的实验结果表明,MTERR算法生成的话题演化图可以有效地反映热点事件发展演化的过程。  相似文献   

11.
微博案件观点所涉方面的自动识别是了解互联网社交媒体新闻舆情的重要手段,但由于微博文本形式和内容均灵活多变,传统的方面识别方法通常只利用单一的正文或评论,使微博语义理解非常有限。针对涉案微博文本的方面识别问题开展研究,提出一种基于正文和评论交互注意的案件方面识别方法,通过融合社交媒体的上下文信息,实现对案件观点所涉方面的识别。首先基于Transformer框架对正文和评论分别进行编码;然后基于交互注意力机制,实现正文信息和评论信息的融合,并基于融合后的特征实现对评论文本案件方面的识别;最后基于12个案件构建的微博数据集进行实验,实验结果表明,采用交互注意力机制融合微博正文信息和评论信息可以显著提升案件方面识别的准确率,证明了所提方法的有效性。  相似文献   

12.
Examining 22,504 tweets extracted from Sina Weibo, a microblog site, we identify two clusters of microblog users and study how they influence the stock market. Our research contributes the following significant findings to the existing literature. First, we discover that there exists an inverse U-shaped curve between stock return and the attention of both news media and investors. Second, we verify that news media attention plays a positive moderating effect in the relationship between investor attention and the stock return. Finally, we find that social interaction could positively moderate the effect of news media’s and investor’s sentiments on stock return.  相似文献   

13.
Xiong  Yu  Zhou  Xiangmin  Zhang  Yifei  Feng  Shi  Wang  Daling 《Multimedia Tools and Applications》2019,78(6):6409-6440

Effectively and efficiently summarizing social media is crucial and non-trivial to analyze social media. On social streams, events which are the main concept of semantic similar social messages, often bring us a firsthand story of daily news. However, to identify the valuable news, it is almost impossible to plough through millions of multi-modal messages one by one with traditional methods. Thus, it is urgent to summarize events with a few representative data samples on the streams. In this paper, we provide a vivid textual-visual media summarization approach for microblog streams, which exploits the incremental latent semantic analysis (LSA) of detected events. Firstly, with a novel weighting scheme for keyword relationship, we can detect and track daily sub-events on a keyword relation graph (WordGraph) of microblog streams effectively. Then, to summarize the stream with representative texts and images, we use cross-modal fusion to analyze the semantics of microblog texts and images incrementally and separately, with a novel incremental cross-modal LSA algorithm. The experimental results on a real microblog dataset show that our method is at least 1.31% better and 23.67% faster than existing state-of-the-art methods, and cross-modal fusion can improve the summarization performance by 4.16% on average.

  相似文献   

14.
Microblog is a popular and open platform for discovering and sharing the latest news about social issues and daily life. The quickly-updated microblog streams make it urgent to develop an effective tool to monitor such streams. Emerging topic tracking is one of such tools to reveal what new events are attracting the most online attention at present. However, due to the fast changing, high noise and short length of the microblog feeds, two challenges should be addressed in emerging topic tracking. One is the problem of detecting emerging topics early, long before they become hot, and the other is how to effectively monitor evolving topics over time. In this study, we propose a novel emerging topics tracking method, which aligns emerging word detection from temporal perspective with coherent topic mining from spatial perspective. Specifically, we first design a metric to estimate word novelty and fading based on local weighted linear regression (LWLR), which can highlight the word novelty of expressing an emerging topic and suppress the word novelty of expressing an existing topic. We then track emerging topics by leveraging topic novelty and fading probabilities, which are learnt by designing and solving an optimization problem. We evaluate our method on a microblog stream containing over one million feeds. Experimental results show the promising performance of the proposed method in detecting emerging topic and tracking topic evolution over time on both effectiveness and efficiency.  相似文献   

15.
一种中文微博新闻话题检测的方法   总被引:6,自引:3,他引:3  
微博的迅猛发展带来了另一种社会化的新闻媒体形式。提出一种从微博中挖掘新闻话题的方法,即在线检测微博消息中大量突现的关键字,并将它们进行聚类,从而找到新闻话题。为了提取出新闻主题词,综合考虑短文本中的词频和增长速度而构造复合权值,用以量化词语是新闻词汇的程度;在话题构造中使用了上下文的相关度模型来支撑增量式聚类算法,相比于语义相似度模型,其更能适应该问题的特点。在真实的微博数据上运行的实验表明,本方法可以有效地从大量消息中检测出新闻话题。  相似文献   

16.
基于隐主题分析和文本聚类的微博客中新闻话题的发现   总被引:1,自引:0,他引:1  
提出一种在大规模微博客短文本数据集上发现新闻话题的方法。利用隐主题分析技术,解决短文本相似度度量的问题。在每个时间窗口内,根据新闻的特点选取出最有可能谈论新闻事件的微博客文本,然后用两层的K均值和层次聚类的混合聚类方法,对这个时间窗口内的那些最有可能谈论新闻事件的微博文本进行聚类,从而检测出新闻话题。此方法能较好地解决微博客短文本的数据稀疏性及数据量巨大的问题。实验证明该算法的有效性。  相似文献   

17.
基于词共现图的中文微博新闻话题识别   总被引:2,自引:0,他引:2  
针对传统的话题检测算法主要适用于新闻网页和博客等长文本信息,而不能有效处理具有稀疏性的微博数据,给出一种基于词共现图的方法来识别微博中的新闻话题.该方法首先在微博数据预处理之后,综合相对词频和词频增加率2个因素抽取微博数据中的主题词.然后根据主题词间的共现度构建词共现图,把词共现图中每个不连通的簇集看成一个新闻话题,并使用每个簇集中包含信息量较大的几个主题词来表示微博新闻话题.最后在微博数据集上进行实验,实现了对微博中新闻话题的识别,验证了该方法的有效性.  相似文献   

18.
Being aware of local community information is critical to maintaining civic engagement and participation. The use of online news and microblog content to create and disseminate community information has long been studied. However, interactions in the online spaces dedicated to local communities tend to only garner very limited usage, and people often do not consider microblog content as a meaningful source of local community information. Local News Chatter (LNC) was designed to address these challenges by augmenting local news feeds with microblog content and presenting them in a tag cloud that displays news topics of varying popularity with different tag sizes. Our study with 30 local residents highlights that LNC increases the visibility of hyperlocal community news information and successfully utilizes microblog as an additional information layer. LNC also increases one’s community awareness and shows the potential for leveraging community knowledge as a deliberation platform for local topics.  相似文献   

19.
微博客的产生和发展对于新闻来说是一场革命,它打破了传统媒体一些中规中矩的状态。在带给传统媒体挑战与生机的同时,也与之互为补充地共存着。辩证地看待微博与传统媒体之间的关系,从它们对立统一的关系中对比出之间的异同,在此基础上总结微博所独有的新闻价值。微博客让新闻传播更快捷,接收更主动,内容各方面都更加人性化,是微博存在与发展的根源,也是新闻贡献于人民的助力车。  相似文献   

20.
随着“一带一路”国家战略实施,我国与越南的交流与合作日益密切,及时掌握两国新闻事件动态意义重大。该文针对汉越双语新闻事件关联分析所面临的跨语言关联问题,研究汉越双语新闻事件关联分析方法。汉越双语新闻事件分析其实质是多语言多文本的理解问题。其主要难点是要解决多语言多文本下的新闻事件理解问题。该文提出了基于因子图模型的局部密切度传播算法。首先使用双语主题概率模型,从双语文档中获得双语主题及主题概率分布,然后基于新闻事件的文本相似度构建事件因子图模型,在因子图上对相互关联的事件使用局部密切度传播算法计算某一主题下所有相互关联的事件间的影响力。最后得到不同主题下事件间的影响力拓扑图。实验结果表明该方法相比相似度计算和词语共现的方法取得了不错效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号