首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
在线论坛中潜在影响力主题的发现研究   总被引:1,自引:0,他引:1  
在线论坛已经成为人们获取信息、发表言论的重要场所,针对传统的在线论坛中有影响力主题计算方法的不足,通过计算词语在回帖传播链上的影响力,提出一种根据对有影响力词语聚类的方法发现在线论坛中具有潜在影响力的主题。它能够为用户和论坛管理人员及时、准确和方便地提取重要的主题信息,以便更好地对论坛进行管理。  相似文献   

2.
网络逐渐成为了人与人之间的主要社交工具,在网络中挖掘最有影响力的用户成为了非常值得关注的问题。在传统影响力最大化算法的基础上提出了一种面向主题耦合的影响力最大化算法,该算法首先分析网络中不同主题之间的耦合相似性,在综合考虑主题之间耦合相似性与用户对不同主题偏好的基础上扩展独立级联模型,并使用经典的贪心算法挖掘最具有影响力的用户。与不考虑主题耦合的影响力最大化算法相比,所提算法考虑了传播主题之间的耦合相似性,并且能够与用户偏好进行更为有效地结合。最后,实验表明,相比于经典的影响力最大化算法,该算法能够更为有效地挖 掘在特定主题下最具有影响力的种子节点。  相似文献   

3.
近年来,微博用户都凭借其自身在社区中的影响力来对信息传播做出贡献,尤其是活跃的大V用户能够引起信息广泛的传播。为了在微博社区中提高用户影响力衡量的准确性,提出了一种基于传统的PageRank算法和用户交互行为的用户影响力改进算法(IUIR算法),此算法通过直接质量指数和间接质量指数来构建微博用户的质量指数,再结合近期用户的活跃度来构造用户影响力评价公式。在新浪微博数据集上进行实验,并与传统的PageRank算法作比较,结果表明,该算法能够更有效地反映微博用户影响力的排名。  相似文献   

4.
提出了基于传统的PageRank算法的改进模型评估微博社区博主的影响力。微博社区中博主的影响力反映其话语权的大小,是研究微博社区的核心概念之一。通过对平均度、聚类系数和平均路径长度等网络特征指标的统计,验证了微博社区网络具有"小世界"的显著特性。从用户活跃度和博文质量两个角度出发,构建了博主影响力的评价指标,引入了博主传播能力这个因子,利用PageRank算法的思想设计了新的影响力排名(Influence Rank)算法模型来评估博主影响力。通过实验对比发现Influence Rank算法在考虑节点间的关系之外还考虑了节点本身的特性,能够更加准确客观地反映博主的影响力排名。  相似文献   

5.
在线社会网络的消息扩散研究对社会经济、政治等方面都具有较大的现实意义。针对当前在线社会网络消息扩散模型存在的独立、封闭等问题,引入时间、主题以及合作与竞争关系、非封闭世界环境等实际因素,提出一种消息扩散概率计算方法以及消息扩散模型。将此模型应用于实际在线社会网络拓扑进行网络仿真,通过与网络真实消息扩散过程对比,结果表明该模型能够很好地拟合现实在线社会网络的消息扩散过程。  相似文献   

6.
一种新的面向主题的爬行算法   总被引:1,自引:0,他引:1  
虽然通用网络爬行器已经给人们提供了极大的便利,但由于它的综合性不具备面向专业的特点,在准确性和速度等方面存在不足;面向主题的爬行器能弥补这些不足。主要研究面向主题网络爬行器两个方面的问题,即如何充分地定义主题和有效地排序爬行器待下载链接队列中的链接,使得只需访问很少的不相关页面就能够得到很多相关的页面链接。结合网页的半结构化信息特征,提出了一种新的基于内容的爬行策略,实验结果显示是一种寻找主题相关页面很有效的方法。  相似文献   

7.
节点影响力排序一直是复杂网络研究的热点问题。Susceptible-Infected-Recovered(SIR)模型是一种较为理想的节点影响力排序方法,业内常将其用于评价其他的节点影响力排序方法,但该方法时间复杂度较高,难以实际应用。文中提出一个基于sir值学习的节点影响力排序模型,模型综合节点的局部和全局结构信息描述节点特征,利用机器学习方法构建sir值学习模型,以构建的同等规模网络的节点特征和sir值对模型进行训练,训练后的模型能够基于节点特征预测节点的sir值,进而实现节点影响力排序。文中基于该模型实现了一个具体的节点影响力排序方法,并在真实数据集上进行了实验,结果表明,基于该模型得到的影响力排序结果,其准确性和单调性相比度中心性、Kshell、Weighted Kshell degree neighborhood等基于结构特征的方法均有所提升。  相似文献   

8.
爬虫是搜索引擎的关键组成部分,本文提出了一种可利用之前爬行数据自动改进其分析算法与种子URL集合的主题爬行算法,并讨论了其首次爬行和再次爬行算法。实验结果表明该算法的准确率在大多数情况下优于基于宽度策略、基于PageRank和基于内容相似度分析的爬虫。  相似文献   

9.
基于主题的语言模型自适应方法应尽可能提高语言模型权重系数的更新速度并降低语言模型的调用量以满足语音识别实时性要求。本文采用基于聚类的方法实现连续相邻二元词对的量化表示并以此刻画语音识别预测历史和各个文本主题中心,依据语音识别历史矢量和各个文本主题中心矢量的相似度更新语言模型权重系数并摒弃全局语言模型。同传统的基于EM算法的自适应方法相比,实验表明该方法明显提高了语音识别性能和实时性,识别错误率相对下降5.1% ,说明该方法可比较准确地判断测试内容所属文本主题。  相似文献   

10.
在大规模在线社交网络中,通过对用户影响力进行排序找出其中最具影响力的节点(集合)是一个很重要的研究方向,对于有效控制信息扩散、舆情分析和控制、精准营销等均有重要的作用。已有的节点影响力排序算法或者需要网络的全局拓扑信息来计算单个节点影响力(如基于介数中心性的算法)而时间开销过大,不适用于大规模网络;或者基于传统的网页排序算法(如PageRank)而不能很好地处理社交网络中存在着大量“末梢”节点的问题以及不同用户之间的联系强度不同的问题。在传统的PageRank算法的基础上做出了两点改进。首先,通过在PageRank算法的权值回收步骤中考虑对不同的连接赋予不同的权值,有效避免了末梢节点带来的影响。其次,在PageRank算法的投票过程中考虑邻居个体的差异性,提出了一种基于半邻域信息的节点权值分配方法,有效提高了节点排序的准确度。在一个包含大约15 000个用户的样本网络中,我们所提出的改进算法能够找出前1 000个最有影响力的节点中的40%以上的节点,而传统的PageRank算法仅能找出其中11%的节点。同时,相比于基于介数中心性的算法,所提出的改进算法以小得多的时间开销达到了相近甚至更好的排序准确度。  相似文献   

11.
12.
杨茹  陶晓鹏 《计算机应用》2009,29(3):908-911
社团挖掘是Web信息挖掘领域的重要应用,而话题监控是文本信息研究领域的重要应用,目前这两种技术是各自独立的。为更好地应用于互联网形成的复杂社会网络,将这两种技术结合起来研究,发现了社团和话题之间的关系,创建了社团挖掘和话题监控的静态和动态互动模型,设计了社团挖掘、话题识别以及社团跟踪算法。  相似文献   

13.
伴随着互联网大数据时代的来临,网络论坛数据呈爆炸式增长,这类数据具有社会性、随意性、分散性等特点,难以被直接使用。而论坛主题挖掘技术能从复杂的论坛数据中识别出用户集中讨论的文本内容,并从中提取主题,以达到提炼论坛主要论点的目的。对论坛主题挖掘进行了问题描述和任务框架梳理,并依照任务框架对现有技术进行了分类,基本类型为论坛文本预处理、主题挖掘算法和主题建模,详细阐述了以上三类论坛主题挖掘技术的基本特征和典型方法,进行了比较与总结,对论坛主题挖掘当前存在的问题及其发展趋势进行了分析与讨论。  相似文献   

14.
从语义相关性角度分析超链归纳主题搜索(HITS)算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,因此引入局部密集因子LDF(Local Density Factor)的概念。为了解决Web内容的重叠性,基于切平面的概念提出了一种新的主题提取算法(CPTDA)。CPTDA不但可以发现用户最感兴趣的主题页面集合,还可以发现与查询相关的其他页面集合。在10个查询上的实验结果表明,与HITS算法相比,CPTDA算法不仅可以减少30%-52%的主题漂移率,而且可以发现与查询相关的多个主题。  相似文献   

15.
针对话题先验相关报道稀疏性及在话题发展过程中所产生的漂移问题,结合微博文本特点提出了一种基于双态模型的微博话题跟踪方法。该方法首先提出了双态话题模型的构建方法,将其划分为永久存储区域和临时存储区域,分别用于保持跟踪话题的中心和跟踪话题部分特征词的变迁;并在跟踪过程中动态更新话题模型,能有效应对微博话题发展所产生的漂移。将该方法与其他微博话题跟踪方法进行对比,结果表明,该方法使得漏检率和误检率等指标均得到降低,有效地提高了话题跟踪的效果。  相似文献   

16.
杨威亚  余正涛  高盛祥  宋燃 《计算机应用》2021,41(10):2879-2884
针对汉越跨语言新闻话题发现任务中汉越平行语料稀缺,训练高质量的双语词嵌入较为困难,而且新闻文本一般较长导致双语词嵌入的方法难以很好地表征文本的问题,提出一种基于跨语言神经主题模型(CL-NTM)的汉越新闻话题发现方法,利用新闻的主题信息对新闻文本进行表征,将双语语义对齐转化为双语主题对齐任务。首先,针对汉语和越南语分别训练基于变分自编码器的神经主题模型,从而得到单语的主题抽象表征;然后,利用小规模的平行语料将双语主题映射到同一语义空间;最后,使用K-means方法对双语主题表征进行聚类,从而发现新闻事件簇的话题。实验结果表明,所提方法相较于面向中英文的隐狄利克雷分配主题改进模型(ICE-LDA)在Macro-F1值与主题一致性上分别提升了4个百分点与7个百分点,可见所提方法可有效提升新闻话题的聚类效果与话题可解释性。  相似文献   

17.
传统的社团发现算法利用链接关系对社团进行划分,不利于发现社团之间的非链接关系,从而影响划分精度。研究分析了节点蕴含的文本信息,挖掘了文本信息蕴含了节点的主题信息,根据这些主题信息判断社团在主题上的关系。研究设计了优化的潜在狄利克雷分配模型对社团进行主题划分,应用优化的模块度社团发现算法对社团进行链接划分,合并成为一个能对社团进行主题划分和链接划分的主题社团发现算法。此外,还针对主题社团设计了一种评估方法,并且使用多个数据集在主题社团发现的各个阶段对算法进行了实验验证。实验结果证明,基于主题检测的社团发现算法能够正确地对社团进行主题划分和链接划分。  相似文献   

18.
潜在狄利克雷分配(LDA)主题模型是处理非结构化文档的有效工具。但是它是建立在词袋模型假设上的(BOW,bag of word),这种假设把每一篇文档看成是单词的组合,既不考虑文档与文档之间的顺序关系,也不考虑单词与单词之间的顺序关系。同时针对现有的模型精度不高,我们提出了基于中心词的上下文主题模型,这种模型的思想是一篇文档中单词的主题与其附近若干单词的主题关系更为紧密。在计算每个单词的主题分布时,以这个词为中心,前后各扩展若干个单词作为窗口,然后对每个窗口进行计算。这种方法就会形成窗口与窗口之间的顺序,从而形成了单词之间也是局部有序,同时由于每个单词的上下文信息不同,所以每个单词的主题分布与其所在文档中的位置有关。通过实验表明,基于中心词的上下文主题模型在未知数据集上具有更高的精度和收敛速度。  相似文献   

19.
郑燕  鲁燃  赵爱华 《计算机应用》2012,32(5):1343-1346
在话题追踪过程中,由于给定的初始话题相关报道少,而且话题具有动态演变的特点造成话题模型不准确。针对这一问题,提出了利用动态阈值收集反馈报道构造话题修正模型,实现了话题模型的动态修正;同时结合命名实体能够更加有效地区分不同话题的特性,提出了在修正话题模型时增大相关命名实体权重的方法,从而获得更准确的话题表示模型。实验结果表明,该方法能有效避免话题漂移现象,降低话题追踪过程中的漏报率和错报率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号