首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
李培  翁伟  林琛 《中文信息学报》2016,30(3):143-151
新浪微博、腾讯微博等微博平台已经成为国内重要的网络媒体。随着海量的实时信息在微博上分享和传播,为每个用户提供更多方便,展现一目了然的实事资讯的任务已经迫在眉睫。这就需要在微博中理出重大事件的发展进程。该文中,我们将利用最小权重支配集和有向斯坦纳树在给定查询的微博数据集上生成故事线。该文的工作由三部分组成:第一部分是在Lucene检索出来的结果集上构建多视点图;其次,通过在图中寻找最小权重支配集来选出具有代表性的微博;最后,通过求解有向斯坦纳树问题来平滑地连接这些已挑选的微博,形成故事线。在实际数据集上的实验验证了该文提出系统的高效性和有效性。
  相似文献   

2.
基于词共现图的中文微博新闻话题识别   总被引:2,自引:0,他引:2  
针对传统的话题检测算法主要适用于新闻网页和博客等长文本信息,而不能有效处理具有稀疏性的微博数据,给出一种基于词共现图的方法来识别微博中的新闻话题.该方法首先在微博数据预处理之后,综合相对词频和词频增加率2个因素抽取微博数据中的主题词.然后根据主题词间的共现度构建词共现图,把词共现图中每个不连通的簇集看成一个新闻话题,并使用每个簇集中包含信息量较大的几个主题词来表示微博新闻话题.最后在微博数据集上进行实验,实现了对微博中新闻话题的识别,验证了该方法的有效性.  相似文献   

3.
周诗龙  徐俊刚 《软件学报》2013,24(S2):150-161
目前,微博搜索大多应用向量空间模型计算查询词与文档间的相关程度,通常使用TF-IDF(termfrequency-inverse document frequency)统计方法来确定词的权重.然而仅使用词进行微博搜索并不能检测到某条微博的信息含量,而这些往往是查询用户所关注的问题.为此提出了一种基于分析特征与动态步长的微博排序学习算法.首先,定义了一些微博分析特征,经过统计分析获得的这些分析特征可以用来预测用户行为;其次,在此基础上,提出了以词性为单位计算微博相关度的方法,结合信息熵计算方法得到微博词性信息的含量,并用来预测该微博的信息含量;最后,在现有ListNet排序学习算法的基础上,引入了动态步长的概念,对步长进行了动态优化,最终形成了一种基于动态步长的微博排序学习算法——RDLS(ranking based on dynamic learning stepsize)算法.实验结果表明,无论是基于直接特征还是加入分析特征,在相同迭代轮数情况下,相比ListNet算法,RDLS 算法可以训练出更优的模型,在微博排序方面有更好的表现.  相似文献   

4.
In microblogs, authors use hashtags to mark keywords or topics. These manually labeled tags can be used to benefit various live social media applications (e.g., microblog retrieval, classification). However, because only a small portion of microblogs contain hashtags, recommending hashtags for use in microblogs are a worthwhile exercise. In addition, human inference often relies on the intrinsic grouping of words into phrases. However, existing work uses only unigrams to model corpora. In this work, we propose a novel phrase-based topical translation model to address this problem. We use the bag-of-phrases model to better capture the underlying topics of posted microblogs. We regard the phrases and hashtags in a microblog as two different languages that are talking about the same thing. Thus, the hashtag recommendation task can be viewed as a translation process from phrases to hashtags. To handle the topical information of microblogs, the proposed model regards translation probability as being topic specific. We test the methods on data collected from realworld microblogging services. The results demonstrate that the proposed method outperforms state-of-the-art methods that use the unigram model.  相似文献   

5.
微博客作为一种新的用户信息传播载体,在网络舆情发起和传播中起着重要作用。由于用户有意(上传广告)、无意(转发)操作所带来的大量噪音微博和相似微博,对网络舆情分析和用户浏览造成极为不利的影响。检测这些噪音微博和相似微博,对微博数据进行提纯,成为一个亟待解决的问题。基于统计数据分析了噪音微博和相似微博的特点,提出一种面向微博文本流的噪音判别和内容相似性双重检测的过滤方法:通过URL链接、字符率、高频词等特征判别,过滤噪音微博;通过分段过滤和索引过滤的双重内容过滤,检测和剔除相似微博。实验表明该方法能有效地对微博数据进行提纯,高效准确地过滤掉相似微博和噪音微博。  相似文献   

6.
用户驱动的微博可视化搜索   总被引:1,自引:1,他引:0       下载免费PDF全文
目的 微博作为一个社交与信息分享平台,日信息量数以亿计,如何高效地搜索用户感兴趣的信息成为亟待解决的问题.提出了一个新颖的用户驱动的可视化微博信息搜索方法.方法 采用特征词及其权重来建模用户的兴趣特征,并基于此建立用户与特征词之间的相关关系.搜索微博信息时,首先定位与检索词相关的微博用户,在相关微博用户的微博中筛选与搜索相关的微博.另外,采用关注度传递算法对搜索进行扩展,将返回的特征词和微博用户进行可视化展示,并提供交互供用户查看与选定特征词或用户相关的微博.结果 实验结果表明,基于本文方法,用户可以高效地定位感兴趣的微博信息.结论 以用户作为桥梁,大大缩小了微博信息的搜索范围,同时采用关注度传递算法对搜索进行扩展,对结果进行可视化展示.实验表明本文方法能够使用户快速搜索出感兴趣的信息.  相似文献   

7.
Real‐time microblogs can be utilized to provide situational awareness during emergency and disaster events. However, the utilization of these datasets requires the decision makers to perform their exploration and analysis across a range of data scales from local to global, while maintaining a cohesive thematic context of the transition between the different granularity levels. The exploration of different information dimensions at the varied data and human scales remains to be a non‐trivial task. To this end, we present a visual analytics situational awareness environment that supports the real‐time exploration of microblog data across multiple scales of analysis. We classify microblogs based on a fine‐grained, crisis‐related categorization approach, and visualize the spatiotemporal evolution of multiple categories by coupling a spatial lens with a glyph‐based visual design. We propose a transparency‐based spatial context preserving technique that maintains a smooth transition between different spatial scales. To evaluate our system, we conduct user studies and provide domain expert feedback.  相似文献   

8.
对高校大学生微博身份进行精确识别有利于尽早的定位大学生网络谣言、高校舆情事件的起源,为高校辅导员及相关管理部门采取线下补救措施、及时处理突发事件争取时间.以学校提供的学生信息资料为背景,让挖掘到的大学生微博信息尽可能地去匹配已有的背景信息,从而识别高校区域大学生微博帐号.分别采用3种阈值进行实验分析,证明这种循环匹配的方法可以获得较好的识别效果.  相似文献   

9.
王臻皇  陈思明  袁晓如 《软件学报》2018,29(4):1115-1130
随着微博的发展,其影响力日益增大,对微博主题内容进行分析具有重要的价值.主题模型技术能够从文本数据中提取主题,但是,由于微博文本短、随意性大、信息量小等特点,微博主题的分析具有一定的难度.提出了一个微博主题可视分析系统,利用多种互相关联的视图与丰富的交互手段,支持用户对主题模型结果进行分析与探索.系统结合了微博数据的特点,引入微博用户与时间因素,支持分析者从多角度对微博主题进行全面分析.系统支持用户在主题可视分析的基础上,通过交互操作对主题进行编辑,从而改进主题模型,提高模型的准确性和可靠性.案例分析结果表明,提出的系统可以有效地帮助用户分析微博主题和修正主题.  相似文献   

10.
针对现有模型无法进行微博主题情感演化分析的问题,提出一种基于主题情感混合模型(TSCM)和情感周期性理论的主题情感演化模型——动态主题情感混合模型(DTSCM)。DTSCM通过捕获不同时间片中微博消息集的主题和情感,追踪不同时间片内主题与情感的变化趋势,获得主题情感演化图,从而实现主题和情感的演化分析。真实微博数据集上的实验结果表明,与当前优秀代表算法JST(Joint Sentiment/Topic)、S-LDA(Sentiment-Latent Dirichlet Allocation)和DPLDA(Dependency Phrases-Latent Dirichlet Allocation)相比,该方法的情感分类准确率分别提高了3.01%、4.33%和8.75%,并且可以获得主题情感演化图。这表明该方法具有更高的情感分类准确率并且可以进行微博主题情感演化分析,为舆情分析等应用提供了较好的帮助。  相似文献   

11.
聚类相关度大的个人微博有助于快速了解博主的专业兴趣和经历,目前的短文本聚类方法缺乏对于语义和句子相关度的充分考虑,提出了一种基于知网的个人微博语义相关度的聚类方法。其要点如下:(1)利用Skip-gram训练大量微博文本生成词汇向量;(2)根据词汇义原进行句内词汇消除歧义;(3)分别计算个人微博之间词汇和句子的相似度并将其综合得到博文相关度;(4)根据博文相关度进行个人微博的聚类。实验表明,相较于层次聚类法、密度聚类法,本文算法的准确度有明显提高。  相似文献   

12.
叶菁菁  李琳  钟珞 《计算机应用》2016,36(2):563-567
针对微博关键词抽取准确率不高的问题,提出一种基于标签优先的抽取排序方法。该方法利用微博本身具有的社交特征——标签,从微博内容集中抽取关键词。该方法首先根据微博自身建立初始词与微博之间的加权图,再将基于标签的随机游走方法应用于图中,随机游走反复跳跃到标签词节点上,经过一系列迭代得出每个词的平稳概率,并通过概率决定词的最终排序。该抽取方法根据真实的新浪微博内容进行测验,结果显示,与通过词与词的加权图来抽取关键词相比,基于标签的微博关键词抽取方法准确率提高了50%,在实际应用中能够有效提高关键词抽取的正确率。  相似文献   

13.
Mining the interests of Chinese microbloggers via keyword extraction   总被引:1,自引:0,他引:1  
Microblogging provides a new platform for communicating and sharing information among Web users. Users can express opinions and record daily life using microblogs. Microblogs that are posted by users indicate their interests to some extent. We aim to mine user interests via keyword extraction from microblogs. Traditional keyword extraction methods are usually designed for formal documents such as news articles or scientific papers. Messages posted by microblogging users, however, are usually noisy and full of new words, which is a challenge for keyword extraction. In this paper, we combine a translation-based method with a frequency-based method for keyword extraction. In our experiments, we extract keywords for microblog users from the largest microblogging website in China, Sina Weibo. The results show that our method can identify users’ interests accurately and efficiently.  相似文献   

14.
随着微博网络的盛行,越来越多的微博信息困扰用户无法快速定位自己感兴趣的博文。为了解决微博信息过载问题,信息过滤、推荐和搜索等技术被应用于微博研究中。该文提出了一个综合信任模型、社会网络关系分析的综合推荐模型,应用LDA主题模型及矩阵分解技术推断微博的主题分布和用户的兴趣取向,实现微博的个性化推荐。通过实验验证,该方法能十分有效地解决个性化博文推荐问题。  相似文献   

15.
Recent years have witnessed the flourishing of social media platforms (SMPs), such as Twitter, Facebook, and Sina Weibo. The rapid development of these SMPs has resulted in increasingly large scale multimedia data, which has been proved with remarkable marketing values. It is in an urgent need to classify these social media data into a specified list of concerned entities, such as brands, products, and events, to analyze their sales, popularity or influences. But this is a rather challenging task due to the shortness, conversationality, the incompatibility between images and text, and the data diversity of microblogs. In this paper, we present a multi-modal microblog classification method in a multi-task learning framework. Firstly features of different modalities are extracted for each microblog. Specifically, we extract TF-IDF features for each microblog text and low-level visual features and high-level semantic features for each microblog image. Then multiple related classification tasks are learned simultaneously for each feature to increase the sample size for each task and improve the prediction performance. Finally the outputs of each feature are integrated by a Support Vector Machine that learns how to optimally combine and weight each feature. We evaluate the proposed method on Brand-Social-Net to classify the contained 100 brands. Experimental results demonstrate the superiority of the proposed method, as compared to the state-of-the-art approaches.  相似文献   

16.
熊宇  张一飞  冯时  王大玲 《控制与决策》2019,34(7):1409-1416
作为一种重要的社会媒体平台,分析、检测并跟踪微博内重大社会事件可以及时提供舆论焦点.但因其碎片化、异构性和实时性,传统方法很难有效分析海量微博,为此,提出一种基于多模态特征深度融合的微博事件检测与跟踪框架.首先基于文本处理对微博事件进行标注;然后用多模态特征深度融合实现事件的检测与表示;最后利用基于时间平滑的图变换模型完成事件流的跟踪.在真实数据集上的实验表明,所提出的方法能有效检测和跟踪微博流事件.  相似文献   

17.
基于特定领域的中文微博热点话题挖掘系统BTopicMiner   总被引:1,自引:0,他引:1  
李劲  张华  吴浩雄  向军 《计算机应用》2012,32(8):2346-2349
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。  相似文献   

18.
马慧芳  张迪  赵卫中  史忠植 《软件学报》2019,30(11):3397-3412
向微博用户推荐对其有价值和感兴趣的内容,是改善用户体验的重要途径.通过分析微博特点以及现有微博推荐算法的缺陷,利用标签信息表征用户兴趣,提出一种结合标签扩充与标签概率相关性的微博推荐方法.首先,考虑到大部分微博用户未给自己添加任何标签或添加标签过少,视用户发布微博为超边,微博中的词视为超点来构建超图,并以一定的加权策略对超边和超点进行加权,通过在超图上随机游走,得到一定数量的关键词,对微博用户标签进行扩充;然后,采用相关性标签权重加权方案构建用户-标签矩阵,利用标签之间的概率相关性,构造标签相似性矩阵,对用户-标签矩阵进行更新,使该矩阵既包含用户兴趣信息,又包含标签与标签之间的关系.以新浪微博公开API抓取的微博信息作为实验数据进行了一系列的实验和分析,结果表明,该推荐算法具有较好的效果.  相似文献   

19.
Microblog as one kind of typical social media has many research implications in social event discovery and social-media-based e-learning and collaborative learning. At present, researchers usually employ feature-based classification approaches to detect social events in microblogs. However, it is very common to get different results when different features are used in event discovery. Therefore, it has been a critical issue how to select appropriate features for event discovery in microblogs. In this paper, we analyze five different feature selection methods and present an improved method for selecting features for microblog-based event discovery. We compare all the methods on a real microblog dataset in terms of various metrics including precision, recall, and F-measure. And finally we discuss the best feature selection method for the event discovery in microblogs. To the best of our knowledge, there are no such comparative studies on feature selection for event discovery in social media, and this paper is expected to offer some useful references for the future research and applications on the event discovery in microblogs.  相似文献   

20.
个人微博是现在流行的社交工具,因其数量繁杂而对用户浏览产生困扰。本文将语义相似度大的微博聚类以 方便用户浏览。主要研究工作如下:1. 使用python 中的jieba 分词对个人微博进行分词预处理并去除停用词;2. 将分词数据集 利用CBOW模型训练词语向量;3. 用词语向量表示个人微博句子向量;4. 个人微博句子向量表示成空间中的分布点,使用改进 的曼哈顿句子算法计算距离即个人微博间的相似度。5. 使用改进的clarans 算法聚类。实验表明本文的方法与传统聚类算法 如划分法、层次法、密度法等有明显的提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号