共查询到20条相似文献,搜索用时 31 毫秒
1.
微博社交网络是由节点构成的,每个节点代表一个微博用户。节点与节点间存在着关系,因此连接紧密的节点形成了社区。如何从微博社交网络中挖掘出社区,已成为Web2.0的团体挖掘研究热点。详细介绍了传统的网络团体挖掘算法,并提出了一种新的社区发现的算法,称为基于用户兴趣的社区发现算法。该算法不论在计算效率还是社区发现效果上比传统算法都具有明显的提升,取得了不错的实验效果。 相似文献
2.
为在微博舆情信息高速转发时段内实现对热点数据的精准挖掘,文中设计一种基于话题标签的微博舆情热点挖掘系统。首先确定框架体系连接形式,并根据热点信息定义结果建立话题标签模型。以此为基础,对热点信息散列表进行排重处理,完成对微博舆情热点数据的处理。最后,联合采集到的目标信息样本对论坛结构进行分割处理,完成挖掘系统设计。实验结果表明,在话题标签模型作用下,系统主机对于热点数据的挖掘准确率较高,可以在微博舆情信息高速转发时段内实现对热点数据的精准挖掘,满足实际应用需求;与基于机器阅读理解的挖掘系统、基于跨语言神经主题模型的挖掘系统相比,这种新型挖掘系统能够在微博舆情信息高速转发时段内,对热点数据进行精准挖掘,与设计初衷相符合。 相似文献
3.
4.
新闻节目是信息传播和舆论引导的重要载体。互联网时代,新闻数量急速增长,从海量的新闻数据中高效挖掘热点,掌握社会最新动态,成为当今媒体从业人员研究的热点。以影响力最大的34套电视上星综合频道实际新闻节目数据为实验对象,应用新闻条目智能分割技术,实现新闻报道切分,基于TF-IDF技术对新闻语音文本、新闻标题字幕内容进行关键词提取,并采用Word2vec工具实现新闻条目的向量化,并基于single pass算法实现新闻条目聚类从而拆分各个新闻话题并计算话题热度,初步实现新闻热点分析。 相似文献
5.
6.
在社交网络中进行意见领袖的挖掘对信息传播与演化的深度分析、舆情监控和引导具有重要意义,本文综合结构特征、行为特征和用户的情感特征对意见领袖节点挖掘问题进行研究.本文首先对微博真实文本数据进行话题识别得到主题社区,在主题社区中基于用户节点之间的关注关系构建交互网络拓扑.然后分别从结构、行为和情感三个维度对用户的影响力进行度量.最后,分析用户在主题社区中的影响力分布与传播规律,提出意见领袖识别算法MFP(Multi-Feature PageRank).实验表明,该算法可有效地挖掘潜在的意见领袖节点,能够获得较高的支持率. 相似文献
7.
在线社交网络文本流中的热点短语能反映文本流中隐含的热点话题和突发事件。本文提出了一种无需分词并能支持多种热度度量函数的热点短语挖掘技术。首先用文本流的某个典型时段采样得到候选短语,构建AC-Trie前缀树。然后,基于该前缀树,单遍扫描后续的文本流,将候选短语的历史出现频率记录在Trie相应节点上,从而支持多种基于历史频率的热度计算方法。此外,为及时发现新的热点短语并减少AC-Trie的构建次数,本文通过分析Trie树各节点上的遗漏短语频率,动态确定候选短语的更新时机。新浪微博数据集上的实验验证了本文方法的有效性(准确率达89%)和高效性(时空开销仅为基准算法的2%)。 相似文献
8.
9.
针对新冠疫情期间高校疫情管控过程中所出现的舆情问题,提出一种基于词频分析与LDA模型的舆情情感分析方法。首先,从微博上挖掘与疫情防控有关的话题,采用Python爬虫爬取8219条微博留言;然后,运用情感分析与LDA模式,对正负情绪进行主题挖掘,并使用PyLDAvis进行可视化展示;最后,利用社会网络和Gephi对正面和负面的舆论影响进行相关性分析。实验结果表明,研究可为高校有效管理提供理论依据和技术支撑。 相似文献
10.
11.
12.
本文在综合兴趣模型研究现状的基础上,结合微博数据集对微博用户的特征进行分析,建立微博用户兴趣模型,并提出基于微博用户兴趣模型的发现算法。实验结果表明,本文提出的算法能很好的发现微博用户的兴趣,提高推荐系统的质量。 相似文献
13.
为更好地开展微博热门话题监测工作,文中借鉴Web自动化功能测试技术,设计了一套基于WatirWebDriver的微博热度数据采集系统,实现了对微博及其热度数据的采集和处理。实验表明,系统能有效的解决传统采集方案中微博热度数据分散的问题,减轻后续分析工作压力并为其提供高质量数据素材。 相似文献
14.
15.
微博文本数据高维度、同义、多义特征明显,传统基于向量空间模型(VSM)联合K-均值的热点话题发现方法存在准确率低,计算复杂,聚类中心难以确定等问题。提出一种相关向量机(RVM)优化VSM的微博文本向量化方法,首先利用RVM的自适应特征选择能力对VSM特征向量进行降维,然后利用主成分分析(PCA)方法确定K-均值算法的初始聚类中心,进而采用K-均值算法得到聚类结果,最后根据微博转发、评论和高影响力用户数量定义热度指数,热度指数最大的话题即为当前热点话题。采用实际微博文本数据集开展实验,结果表明所提方法相对于2种传统方法的准确率分别提升7.3%和1.1%,实时性分别提升45%和53%。 相似文献
16.
本文提出了一种基于数据融合的互联网舆情分析系统.系统使用网络爬虫采集互联网新闻、微信公众号、博客、论坛、APP、微博、报纸、视频等信息,结合中国移动自有DPI数据,采用情感分析等多种自然语言处理算法实现数据融合分析处理,建立不同类型数据之间的关联关系,挖掘更多数据价值,且系统使用多租户模式实现底层数据共享和用户舆情信息隔离,大量节省硬件存储成本,也让用户体验个性化舆情. 相似文献
17.
18.
微博是一个基于用户关系的信息分享、传播以及获取平台,庞大的微博用户群构成了一个复杂的在线社区网络,每天都有巨大的信息量在其间产生、流动、扩散,影响着人们的工作生活。通过这个网络找出重要的关键用户,无论对市场营销还是舆论控制都具有十分重要的意义。相关研究均以改进链接分析中的PageRank算法为主,然而在复杂的网络以及部分数据难以获取的情况下,这些算法并不适用。文中通过划分子网的方法降低网络复杂度,提出了一种单纯的基于网络结构的PageRank改进算法来计算用户的重要程度。实验数据分析表明,该算法简单可靠,能准确反映微博用户的重要程度。 相似文献
19.