排序方式: 共有78条查询结果,搜索用时 701 毫秒
71.
针对微博的文本存在短小、快速、变化等特点,导致热点发现困难的问题,本文提出了一种基于改进的FIHC聚类和TOPSIS的热点发现方法。首先把知网语义相似度引入FIHC聚类算法Score函数的计算,考虑了频繁词之间的语义联系,更准确的生成基于频繁词的初始簇;然后对微博文本重复的初始簇进行消减,再采用Single-Pass聚类的思想对消减完的话题簇进一步聚类最终得到热点话题;最后对热点话题采用改进的TOPSIS模型进行排序,更好的获得热点话题的排行。通过和其他文本聚类算法以及热点发现方法对比,该方法热点发现效果好,能够比较全面的反应当前的热点话题。 相似文献
72.
针对现有中文微博观点分类方法对上下文利用不足、数据表示稀疏和特征依赖于人工设计等问题,提出基于卷积神经网络的中文微博观点分类方法.首先利用交互上下文扩充不同主题下的微博内容,使用低维密集向量初始化微博文本.然后构造卷积神经网络模型,实现特征抽取和组合.最后基于softmax分类函数估计中文微博观点类别.实验表明,相比基准方法,文中方法在精确度和F1值上的效果更好. 相似文献
73.
基于隐主题分析和文本聚类的微博客中新闻话题的发现 总被引:1,自引:0,他引:1
提出一种在大规模微博客短文本数据集上发现新闻话题的方法。利用隐主题分析技术,解决短文本相似度度量的问题。在每个时间窗口内,根据新闻的特点选取出最有可能谈论新闻事件的微博客文本,然后用两层的K均值和层次聚类的混合聚类方法,对这个时间窗口内的那些最有可能谈论新闻事件的微博文本进行聚类,从而检测出新闻话题。此方法能较好地解决微博客短文本的数据稀疏性及数据量巨大的问题。实验证明该算法的有效性。 相似文献
74.
基于关系图特征的微博水军发现方法 总被引:1,自引:0,他引:1
随着网络水军策略的不断演变,传统的基于用户内容和用户行为的发现方法 对新型社交网络水军的识别效果不断下降.水军用户可以变更自身的博文内容与转发行为, 但无法改变与网络中正常用户的连结关系,形成的结构图具有一定的稳定性, 因此,相对于用户的内容特征与行为特征,用户关系特征在水军识别中具有更强的鲁棒性与准确度. 由此,本文提出一种基于用户关系图特征的微博水军账号识别方法. 实验中通过爬虫程序抓取新浪微博网络数据; 然后,提取用户的属性特征、时间特征、关系图特征;最后,利用三种机器学习算法对用户进行分类预测. 仿真结果表明,添加新特征后对水军账号的识别准确率、召回率提高5%以上, 从而验证了关系图特征在水军识别中的有效性. 相似文献
75.
随着社交网络的快速发展,对其研究也逐步深入。显然,社交网络基础数据的获取对研究具有非常重要的意义。针对目前已有的数据采集方案,根据新浪授权标准以及最新的微博加密方式,研究了两种采集方案:1)经OAuth2.0认证后,通过微博API接口获取数据;2)在RSA2加密方式下模拟登录微博,再通过网络爬虫抓取数据。同时,还研究了通过网页采集器针对微博编写适当的采集规则进而实现对数据的获取。3种数据采集方案都能有效地对数据进行采集且各具特点,针对数据的采集需求,提出融合不同的采集方案的策略。经实验研究,方案的融合策略可快速、高效地实现大数据量的采集。 相似文献
76.
传统搜索引擎需要用户从返回网页中提炼有用知识;社交网络搜索根据人物的社会关系、共同爱好,提供人物和兴趣间的关系等方面的搜索结果。当前,社交网络搜索主要存在2个问题:不能从语义上理解用户查询词;仅局限于人物、兴趣搜索,限制了查询范围。为解决微博搜索中存在的一些问题,并主动返回更多知识,基于微博这一社交网络的重要平台,研究微博社区知识图谱构建方法,重点提出5方面的研究:微博社区中概念提取,其概念包括人物、事物、地点、事件和话题等5种类型;微博社区概念间的关系提取,其关系包括上述5种概念间的组合关系;知识图谱是带有语义的网络图谱,将概念作为顶点并将概念间关系作为边,研究知识图谱的构建方法;分析微博社区知识图谱,包括构建效果、演化特征、应用效果分析;研发基于微博知识图谱的应用系统等内容。 相似文献
77.
78.
微博社区中用户的影响力对微博信息的有效传播具有重要意义。为了快速并准确地寻找微博社区信息传播的规律,提出一种基于微博社区计算用户影响力的USR算法。首先提取种子用户的数据,利用R-C模型进行微博社区发现,在划分好的社区中选取一个社区;然后依据USR算法,对社区内的用户进行影响力计算;最后输出用户的影响力。以新浪微博数据集为例,提出孤立点的概念和信息传播实际影响人次覆盖率评价指标,将USR算法与传统影响力算法进行对比。实验结果表明,使用USR算法能够得到较优的结果。 相似文献