首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 296 毫秒
1.
近几年,在基于事件的社交网络(EBSNs)服务中,为便于增强用户体验,事件推荐任务一直被广泛研究。本文基于对EBSN中用户行为数据的详细分析,提出了一种新型的融合多种数据特征的潜在因子模型。该模型综合考虑EBSN中两种新型的数据特征: 异构的社交关系特征(线上社交关系+线下社交关系)和用户参与行为的地域性特征。基于真实的Meetup数据集,实验结果表明我们的算法在解决事件推荐问题时比传统的算法有更好的性能。
  相似文献   

2.
面向互联网新闻的在线事件检测   总被引:1,自引:0,他引:1  
付艳  周明全  王学松  栾华 《软件学报》2010,21(Z1):363-372
为了提高互联网上新闻事件在线检测的效率,利用加窗策略、命名实体识别及后缀树聚类等技术提出了一种新的检测算法.该算法基于实体识别技术解析出新闻数据特有的信息元素(例如日期、地点、人物等),并在限定的时间窗口内,通过新闻特征的语义匹配实现了新事件的快速识别,从而大幅降低了基于文本相似度计算的检测算法带来的巨大时间消耗.实验结果证明,该算法能够实现在保障检测准确率的同时显著提高检测的效率.  相似文献   

3.
基于滑动窗口的微博时间线摘要算法   总被引:1,自引:0,他引:1  
时间线摘要是在时间维度上对文本进行内容归纳和概要生成的技术。传统的时间线摘要主要研究诸如新闻之类的长文本,而本文研究微博短文本的时间线摘要问题。由于微博短文本内容特征有限,无法仅依靠文本内容生成摘要,本文采用内容覆盖性、时间分布性和传播影响力3种指标评价时间线摘要,并提出了基于滑动窗口的微博时间线摘要算法(Microblog timeline summariaztion based on sliding window, MTSW)。该算法首先利用词项强度和熵来确定代表性词项;然后基于上述3种指标构建出评价时间线摘要的综合评价指标;最后采用滑动窗口的方法,遍历时间轴上的微博消息序列,生成微博时间线摘要。利用真实微博数据集的实验结果表明,MTSW算法生成的时间线摘要可以有效地反映热点事件发展演化的过程。  相似文献   

4.
微博是当前最流行的在线社交媒体之一,有效地检测出微博用户的社区结构,能够帮助人们理解微博社交网络的结构和用户的行为特征,从而为用户提供个性化的服务。然而,现有社区检测算法大多只考虑社交网络节点之间的直接链接关系,忽略节点自身的内容特征。针对此问题,提出一种基于增广网络的快速微博社区检测算法。该算法通过融合社交网络的链接信息以及用户在微博上所发布的博文内容信息构建增广网络,然后以模块度为目标函数快速挖掘增广网络中的主题社区。通过真实微博社交网络的实验表明,提出的算法能够高效地检测出社交网络的主题社区。
  相似文献   

5.
文本是社交媒体用户的重要信息之一,从文本中获取用户的词特征是实现用户主题建模、兴趣挖掘及个性化推荐等任务的基础。然而社交媒体中存在许多用户(冷启动用户)只含有少量甚至缺乏文本信息,为此该文提出一种融合用户信任关系及词相关关系的词特征重建方法。该方法通过对用户信任关系矩阵、词相关关系矩阵和用户词特征矩阵进行联合概率矩阵分解来实现对冷启动用户的词特征重建。在新浪微博和Twitter的四组数据集上的实验结果表明,该文所提出的冷启动用户词特征重建算法能够取得较好的词特征重建结果。  相似文献   

6.
微博用户性别分类旨在根据用户信息进行用户性别的识别。目前性别分类的相关研究主要针对单一类型的特征(文本特征或者社交特征)进行性别分类。与以往研究不同,文中提出了一种双通道LSTM(Long-Short Term Memory)模型,以充分结合文本特征(用户发表的微博文本)和社交特征(用户关注者的信息)进行用户性别分类方法的研究。首先,利用单通道LSTM模型分别学习两组文本特征,得到两种特征表示;然后,在神经网络中加入Merge层, 结合两种特征表示进行集成学习,以充分学习文本特征和社交特征之间的联系。实验结果表明,相对于传统的分类算法,双通道LSTM模型分类算法能够获得更好的用户性别分类效果。  相似文献   

7.
从微博中准确高效地挖掘出正在发生的热点事件是近年来研究的热点。通过综合考虑微博用户的粉丝数量和微博本身的转发、评论次数计算每条微博的影响力,从而提出一种基于影响力的微博新兴热点事件检测方法 IEED(Influence-Based Emerging Hotspot Event Detection)。该方法运用层次聚类将微博帖子聚类为事件集,并提取出事件中的关键词构成事件摘要。通过运用现实生活中的新浪微博数据作为实验数据集来测试所提出的方法,实验结果证明,基于影响力的微博新兴热点事件检测方法(IEED)能在早期高效地检测出微博中的新兴热点事件,具备一定的应用价值。  相似文献   

8.
命名实体识别是自然语言处理领域的一项基础性技术。近年来微博等网络社交平台发展迅速,其独特的形式对传统的命名实体识别技术提出了新的挑战。故提出一种基于条件随机场模型的改进方法,针对微博文本短小、语义含糊等特点,引入外部数据源提取主题特征和词向量特征来训练模型,针对微博数据规模大、人工标准化处理代价大的特点,采取一种基于最小置信度的主动学习算法,以较小的人工代价强化模型的训练效果。在新浪微博数据集上的实验证明,该方法与传统的条件随机场方法相比F值提高了4.54%。  相似文献   

9.
方冰  尚义博  刘笑影 《计算机与数字工程》2021,49(8):1599-1603,1723
社交网络用户立场检测指判断用户对于某一事件所持有的观点.以往的立场检测研究主要是以文本作为唯一研究对象,忽略了其它对用户立场检测有用的因素.根据认知理论研究,用户立场主要是在用户先验立场和外界环境的共同作用下形成的.基于此论文提出一种基于社交网络拓扑结构的立场检测算法.首先进行社区划分,提取用户的社交网络拓扑结构特征来衡量外部环境影响力;其次借文本语义提取技术分析用户先验立场,最后由两者共同作用判断用户最终立场.基于真实微博数据的实验结果表明,论文提出的新算法可以有效提高立场检测的准确性.  相似文献   

10.
陈志毅  隋杰 《计算机科学》2022,49(1):101-107
随着以微博为代表的社交媒体越来越流行,谣言信息借助社交媒体迅速传播,容易造成严重的后果,因此自动谣言检测问题受到了国内外学术界、产业界的广泛关注。目前,越来越多的用户使用图片来发布微博,而不仅仅是文本,微博通常由文本、图像和社会语境组成。因此,文中提出了一种基于深度神经网络,针对配文文本内容、图像以及用户属性信息的多模态网络谣言检测方法DCNN。该方法由多模态特征提取器和谣言检测器组成,多模态特征提取器分为3部分,即基于TextCNN的文本特征提取器、基于VGG-19的图片特征提取器和基于DeepFM算法的用户社会特征提取器,分别用于学习微博不同模态上的特征表示,以形成重新参数化的多模态特征,特征融合后将该融合后的多模态特征作为谣言检测器的输入进行分类检测。在微博数据集上对该算法进行了大量实验,实验结果表明DCNN算法将识别准确率从78.1%提高到了80.3%,验证了DCNN算法和其中对社会特征建立特征交互方法的可行性与有效性。  相似文献   

11.
针对现有微博事件抽取方法由于基于事件的内容特征,而忽略事件本身的社会属性与时间特征之间的关系,进而无法识别微博热点传播过程中关键事件的问题,提出了一种融合社会影响力和时间分布的微博关键事件抽取方法。首先通过建模社会影响力来刻画微博事件的重要性,然后融合微博事件演化过程中的时间特性以捕获事件在不同时间分布下的差异,最后抽取出不同时间分布下的微博关键事件。在真实数据集上的实验结果表明,所提方法能有效抽取微博热点中的关键事件,较随机选择、词频-逆文本频率(TF-IDF)、最小权重支配集以及度与聚集系数这四种方法在事件集的完整性指标ROUGE-1上在数据集1上分别提升了21%、18%、26%以及30%,在数据集2上分别提升了14%、2%、21%以及23%,抽取效果优于传统方法。  相似文献   

12.
突发事件容易引起社会舆论,是监管的重要对象。传统事件检测忽略了博文间影响力的差异。考虑到不同微博对事件的影响力不同,针对时序微博数据流,提出一种结合微博影响力与突发词的突发事件检测框架。在综合考虑用户及博文影响力的基础上,挖掘时间窗口内的重点微博,根据重点微博及历史数据计算突发词,再通过突发词检索的方式构建出具有突发性的潜在事件数据集,通过聚类算法检测突发事件。对比两种常见的事件检测方法,实验表明所提方法在准确率与效率上均有明显提升。  相似文献   

13.
武国亮  徐继宁 《计算机应用》2021,41(7):1891-1896
针对基于双向长短期记忆网络-条件随机场(BiLSTM-CRF)的事件抽取模型仅能获取字粒度语义信息,可学习特征维度较低致使模型上限低的问题,以开放领域的中文公共突发事件数据为研究对象,提出了一种基于命名实体识别任务反馈增强的中文突发事件抽取方法FB-Latiice-BiLSTM-CRF。首先,将Lattice(点阵)机制融合双向长短期记忆(BiLSTM)网络作为模型的共享层,获取句子中的词语语义特征;其次,增加命名实体识别辅助任务,以联合学习和挖掘实体语义信息,同时将命名实体识别任务的输出反馈到输入端,提取其中实体对应的分词结果作为Lattice机制的外输入,以减少该机制自组词数量大带来的运算负荷并进一步强化对实体语义特征的提取;最后,通过最大化同方差不确定性的最大高斯似然估计方法计算模型总损失,从而解决多任务联合学习产生的损失不平衡问题。实验结果表明,FB-Latiice-BiLSTM-CRF在测试集上的准确率达到81.25%,召回率达到76.50%,F1值达到78.80%,较基准模型分别提升7.63、4.41和5.95个百分点,验证了该方法对基准模型改进的有效性。  相似文献   

14.
社会网络中海量、无序且碎片化的新闻数据,使得人们无法从细粒度感知新闻事件,更无法多视角把握事件发展脉络。为了解决这个问题,该文提出基于命名实体敏感的分层新闻故事线生成方法,在无监督的情况下,充分利用新闻信息构造层次化、多视点的事件脉络。该方法主要通过以下3个步骤实现:(1)基于事件主题信息与隐式语义信息相结合的方法检测事件;(2)基于多维语义信息的社区检测算法划分主题事件的子事件;(3)基于多视点信息构造事件发展的脉络。在真实数据集上的实验结果表明,该方法在三个步骤比基线方法均有提高,其中在构造事件发展脉络阶段,该方法在理解性、概括性和准确性指标上分别高出0.44、0.11和0.50。  相似文献   

15.
微博平台隐含潜在的用户信息,通过微博数据挖掘用户兴趣具有重要的社会意义。结合用户兴趣与微博信息的特点,提出了一种文本聚类与兴趣衰减的微博用户兴趣挖掘(TCID-MUIM)方法。首先,通过基于词林的同义词合并策略弥补建模时词频信息不足的弊端;其次,利用二次Single-Pass不完全聚类算法将用户微博划分为多个簇,将簇合并为同一文档以弥补微博文本短小难以挖掘主题信息的问题;最后,通过LDA模型建模,并考虑用户兴趣随时间变化的问题,引入时间因子,将微博—主题矩阵压缩为用户—主题矩阵,获取用户兴趣。实验表明,较之传统建模方法与合并用户历史微博为同一文档的建模方法,TCID-MUIM方法挖掘的用户兴趣主题具有更好的主题区分度,且更贴合用户的真实兴趣偏好。  相似文献   

16.
微博突发事件检测是网络舆情分析的重要分支,近年来已受到国内外学者的广泛关注。分析用户行为特征,提出一种用户影响力计算方法,并将其与微博文本特征、传播特征相结合,提出词语突发度概念作为突发词的判定标准,进而抽取突发词集;引入凝聚式层次聚类算法,对突发词集进行聚类,并筛选出合适的突发词类簇用以描述突发事件,从而实现微博突发事件检测。通过实验检测,结果是正确率为63.64%,召回率为87.5%,F值为0.74,表明该方法可以在大量微博数据中有效检测到突发事件。  相似文献   

17.
微博客蕴含交通事件信息抽取的自动标注方法   总被引:1,自引:0,他引:1  
微博客文本蕴含丰富的实时交通事件信息,能够为现有交通信息采集手段提供补充。然而,当前事件抽取方法缺少对地理实体关系的判断过程,对涉及多个地理实体及关系表达的地理空间要素抽取效果不佳,难以准确识别交通事件信息的位置描述。该文提出一种自动标注方法,将地理实体关系识别引入事件抽取过程来解决这一问题。该方法利用条件随机场模型实现交通事件角色标注,利用支撑向量机模型实现角色关系与要素关系标注,完成了交通事件信息空间要素识别。以新浪微博为数据源开展的实验分析表明,该文所提出的微博客蕴含交通事件抽取方法,正确率和召回率均达到90%,优于现有的基于模式匹配的抽取方法。  相似文献   

18.
基于词向量语义分类的微博实体链接方法   总被引:1,自引:0,他引:1  
微博实体链接是把微博中给定的指称链接到知识库的过程,广泛应用于信息抽取、自动问答等自然语言处理任务(Natural language processing,NLP). 由于微博内容简短,传统长文本实体链接的算法并不能很好地用于微博实体链接任务. 以往研究大都基于实体指称及其上下文构建模型进行消歧,难以识别具有相似词汇和句法特征的候选实体. 本文充分利用指称和候选实体本身所含有的语义信息,提出在词向量层面对任务进行抽象建模,并设计一种基于词向量语义分类的微博实体链接方法. 首先通过神经网络训练词向量模板,然后通过实体聚类获得类别标签作为特征,再通过多分类模型预测目标实体的主题类别来完成实体消歧. 在NLPCC2014公开评测数据集上的实验结果表明,本文方法的准确率和召回率均高于此前已报道的最佳结果,特别是实体链接准确率有显著提升.  相似文献   

19.
周诗龙  徐俊刚 《软件学报》2013,24(S2):150-161
目前,微博搜索大多应用向量空间模型计算查询词与文档间的相关程度,通常使用TF-IDF(termfrequency-inverse document frequency)统计方法来确定词的权重.然而仅使用词进行微博搜索并不能检测到某条微博的信息含量,而这些往往是查询用户所关注的问题.为此提出了一种基于分析特征与动态步长的微博排序学习算法.首先,定义了一些微博分析特征,经过统计分析获得的这些分析特征可以用来预测用户行为;其次,在此基础上,提出了以词性为单位计算微博相关度的方法,结合信息熵计算方法得到微博词性信息的含量,并用来预测该微博的信息含量;最后,在现有ListNet排序学习算法的基础上,引入了动态步长的概念,对步长进行了动态优化,最终形成了一种基于动态步长的微博排序学习算法——RDLS(ranking based on dynamic learning stepsize)算法.实验结果表明,无论是基于直接特征还是加入分析特征,在相同迭代轮数情况下,相比ListNet算法,RDLS 算法可以训练出更优的模型,在微博排序方面有更好的表现.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号