首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
目前,话题的演化跟踪方法大部分基于不同时间片对应数据集的特征关键词之间语义相似度与语义距离的计算,忽略话题的不同动态演变阶段各个特征关键词之间关联关系的作用.为此提出一种基于并行关联规则的话题演化跟踪方法.引入时间窗口的概念,对数据集按照时序进行划分,在每个时间窗口获取大规模频繁关键词集;对每个时间窗口的频繁关键词集,应用并行关联规则算法获取关联规则集;筛选并组合所有关联规则集形成话题的相关关键词信息,发现相邻时间窗口的数据集之间的关联关系并实现话题演化跟踪.实验结果表明,与OLDA算法相比,该方法能够更加完整有效地深入分析话题的动态演化细节.  相似文献   

2.
徐伟  赵斌  吉根林 《计算机科学》2016,43(2):78-82, 100
现有的话题演化研究主要针对长文本。因此研究了微博短文本的话题演化问题,综合考虑微博的文本特征和非文本特征,利用微博的传播特性,提出了基于转发关系的微博话题演化算法MTERR。该算法首先以话题模型为基础,结合微博转发特性和话题的时间特征提取微博话题;然后采用话题的内容相关性指标和转发关联度指标构建话题关联函数,生成话题演化拓扑图;最后,基于真实微博数据集的实验结果表明,MTERR算法生成的话题演化图可以有效地反映热点事件发展演化的过程。  相似文献   

3.
一种话题演化建模与分析方法   总被引:1,自引:0,他引:1  
胡艳丽  白亮  张维明 《自动化学报》2012,38(10):1690-1697
根据时序关系将文本流划分为连续时间片中的文本集, 在线抽取各时间片中隐含的子话题, 采用模型选择方法动态确定各时间片包含的子话题数, 以历史时间片的子话题信息作为当前子话题发现的先验知识, 基于 OLDA (Online latent Dirichlet allocation)模型抽取各时间片包含的子话题, 通过 Gibbs 抽样对话题模型参数进行估计; 对子话题进行关联分析, 定义子话题产生、消亡、继承、分裂和合并五种演化类型, 提出基于相对熵的子话题关联分析方法, 根据子话题语义相似度和时序关系建立子话题间的关联, 由具有时序关系和内容关联的子话题组成话题, 通过子话题内容和强度的变化描述话题演化. 基于真实网络新闻的话题演化分析实验表明, 本文提出的话题演化分析方法能够有效检测 网络新闻话题内容和强度的演化.  相似文献   

4.
《计算机工程》2018,(1):35-43
在大规模时序文档集中,异同话题缺乏从时序文档集中识别跟踪分析话题随时间变迁的能力。为此,提出一种面向时序文档语料库的话题变迁检测方法。该方法从时序文档语料库中发现相似话题和异同话题。利用改进的联合非负矩阵分解算法,从多个数据集中提取话题集合。为避免引入噪声话题,计算所有话题的话题熵,以获取优质话题,并通过运用词云和趋势图来分析话题变迁趋势。在20Newsgroups和LTN2011数据集上的实验结果表明,该方法可以有效地从时序文档集中发现异同话题,且提取的话题效果好、准确率高。  相似文献   

5.
目前的话题追踪方法无法对话题的发展演化进行全局的把握。为了准确地发现话题中各事件的发展演化关系,提出了一种基于事件多向量模型的事件演化分析算法。该方法通过子话题间的相似度计算来构建话题中的事件,利用事件向量间的相似度计算得到话题演化的具体过程及细节。通过在现实数据中的实验,该方法能够有效地反映话题中事件的来龙去脉。  相似文献   

6.
融合图结构与节点关联的关键词提取方法   总被引:1,自引:0,他引:1  
单篇文本的关键词提取可应用于网页检索、知识理解与文本分类等众多领域。该文提出一种融合图结构与节点关联的关键词提取方法,能够在脱离外部语料库的情况下发现单篇文本的关键词。首先,挖掘文本的频繁封闭项集并生成强关联规则集合;其次,取出强关联规则集合中的规则头与规则体作为节点,节点之间有边当且仅当彼此之间存在强关联规则时,边权重定义为关联规则的关联度,将强关联规则集合建模成关联图;再次,综合考虑节点的图结构属性、语义信息和彼此的关联性,设计一种新的随机游走算法计算节点的重要性分数;最后,为了避免抽取的词项之间有语义包含关系,对节点进行语义聚类并选取每个类的类中心作为关键词提取结果。通过设计关联图模型参数的选取、关键词的提取规模、不同算法对比3个实验,在具有代表性的中英文数据上证明了该方法能够有效提升关键词提取的效果。  相似文献   

7.
针对高维、稀疏的中文微博数据, 提出一种多步骤的新闻话题发现方法。首先结合微博的传播特点, 选取出不同时间窗口中具有较高新闻价值的微博文本; 再利用隐主题模型挖掘微博内容中隐含的主题信息, 并在此基础上进行文本聚类; 最后使用频繁项集挖掘技术获取话题关键词集合。该算法能够较好地实现对中文微博数据的降维与话题发现。真实的微博数据集实验结果验证了该方法的有效性。  相似文献   

8.
杨泽民 《计算机科学》2013,40(3):259-262
为了解决关联规则挖掘算法中频繁集信息挖掘不完善和时序周期对事务集频繁项挖掘的影响问题,提出了一种基于时序和兴趣度约束的加权关系规则挖掘算法。该算法首先利用时序滑动函数对时序事务集进行发生概率估算和权值赋值,依据兴趣度约束函数和剪枝定理进行事务集化简,然后根据支持度和寿支持期望进行加权频繁事务集抽取,最后依据置信度进行加权关联规则导出。实验结果证明,该算法能够快速有效地挖掘出符合用户兴趣度的关联规则。  相似文献   

9.
针对微博在线社会网络中的话题推荐问题,研究了如何选取多个驱动用户节点使得推荐话题能够得到大的传播广度,提出了一种新的信息推荐方法,可以求得次优的驱动节点集合使得推荐话题得到近似最大的传播广度。通过三个环节进行计算:通过修正的PageRank算法求得影响力大的节点;计算第一步得到的每个节点引起的话题传播广度;计算多个节点联合驱动时话题传播的广度,选择使传播广度最大的驱动节点集合。实验结果表明选取的近似最优驱动节点集合能够使得推荐信息得到更大广度的传播。  相似文献   

10.
章建  李芳 《中文信息学报》2015,29(2):179-189
自动挖掘大规模语料中的语义信息以及演化关系近年来已受到广大专家学者的关注。话题被认为是文档集合中的潜在语义信息,话题演化用于研究话题内容随时间的变化。该文提出了一种基于上下文的话题演化和话题关系抽取方法。分析发现,一个话题常和某些其他话题共现在多篇文档中,话题间的这种共现信息被称为话题的上下文。上下文信息可以用于计算同时间段话题间的语义关系以及识别不同时间段中具有相同语义的话题。该文对2008年~2012年两会报告以及2007年~2011年NIPS科技文献进行实验,通过人工分析,利用话题的上下文信息,不但可以提高话题演化的正确率,而且还能挖掘话题之间的语义关系,在话题演化的基础上,显示话题关系的演化。  相似文献   

11.
话题演化分析是舆情监控的研究热点之一,面向微博热点话题进行演化分析,对于网络用户以及网络监管部门都有很重要的现实意义。针对在线词对主题模型(On-line Biterm Topic Model,OBTM)新旧主题混合、冗余词概率相对较高的问题,对OBTM进行改进,提出基于话题标签和先验参数的OBTM模型(Topic Labels and Prior Parameters OBTM,LPOBTM)。根据微博热点话题的话题标签,将微博文本集区分为含话题标签和不含话题标签的两类数据集,并设置不同的文档-主题先验参数;在前一时间片文档-主题概率分布的基础上,借鉴Sigmod函数对所有主题进行强度排名,从而优化当前时间片上主题-词分布的先验参数计算方法。实验结果表明,LPOBTM能够更准确地描述话题的内容演化情况,并且有更低的模型困惑度。  相似文献   

12.
关联规则挖掘的主要任务是根据对事务的统计找出项之间的关系。传统的挖掘算法要求项具有逻辑属性,并在挖掘过程中产生大量的中间项集,成为算法的瓶颈。给出一种基于关联路径树的表格数据组织形式,并采用模式指导的方式进行频繁项集挖掘,该方法不要求项具有逻辑属性,初始模式不同的项集组合迭代可以分配到不同的CPU完成,提高了算法的执行效率。该算法对美国1984年国会选举数据进行了实验,结果完全正确。  相似文献   

13.
一个基于关联规则的多层文档聚类算法   总被引:3,自引:0,他引:3  
提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。  相似文献   

14.
基于Web数据挖掘的高效关联规则研究   总被引:4,自引:0,他引:4  
随着网络资源越来越丰富,Web数据挖掘逐渐成为因特网上资源有效利用的研究热点。本文提出通过对因特网上非结构化数据的XML格式进行筛选等处理,然后转化为结构化数据存储在SQL Server数据库中。并在此基础之上利用关联规则发现以生成最小关联规则集来代替完全关联规则集,就可以有效地剪除弱关联规则,大幅度地减少候选频繁项目目集,从而提高规则发现效率。最后,在传统经典算法Apriori基础上,利用弱关联规则的向上关闭特性设计了一个相应的高效算法。  相似文献   

15.
传统的频繁路径挖掘分析主要通过关联规则算法实现,但其在处理大型数据集时,会产生占用内存过多,数据处理速度慢等问题,对此提出一种基于Fuzzy [c]-means聚类算法的并行Apriori算法模型。该模型通过Fuzzy [c]-means算法完成对原始数据集的聚类分析,将同一区域的物流路径数据划分到内部相似度较高的数据类,并利用Apriori算法对各数据类中的频繁模式进行挖掘分析,进而获得各区域的物流频繁路径。同时通过Hadoop平台实现算法的并行化,有效提高算法运行效率和质量。通过对物流频繁路径的挖掘分析,使管理者更清楚货物流向,可为配送路径优化等决策提供支持。  相似文献   

16.
在关联规则挖掘算法中,Apriori由于多次对数据库进行扫描会产生较多的候选集,在多次扫描数据库的情况下容易产生I/O开销问题,并引起数据挖掘效率低.矩阵关联规则在数据挖掘过程中没有删除非频繁项集,致使存在较多的无效扫描,对于挖掘效率的提高也不明显.该文提出了一种改进的矩阵和排序索引关联规则数据挖掘算法,首先,删除不需...  相似文献   

17.
基于类频繁模式树的关联分类   总被引:1,自引:0,他引:1  
提出一种新的基于类频繁模式树的关联分类算法CFPC(Class FP-tree based Classifier).该方法基于FP-tree实现,无需生成庞大的候选项目集;依据记录的分类属性进行指导性划分,并使用类支持度进行记录项的分类剪枝,生成类模式树,避免了小数据类别集上的强关联模式遗漏;挖掘出的规则形成分类器,用于类标号未知的记录的区分.试验结果表明CFPC的正确性和有效性.  相似文献   

18.
针对微博用户兴趣随时间变化的特征,提出一种基于模糊关联规则的潜在兴趣发现方法(PIDFAR),利用LDA主题模型表达微博主题分布,通过时间加权的方式计算出用户现在兴趣的主题分布,进行模糊关联规则挖掘,得出关联规则集合以表示和发现用户兴趣随时间发生变化的一般规律,最后根据关联规则集合中关联规则和用户现在兴趣的主题分布来计算相似度,取相似度较高的关联规则的后项的集合组成用户的潜在兴趣.实验表明, PIDFAR方法能够使得用户潜在兴趣的发现过程脱离用户的好友群体限制,相比基于协同过滤技术的潜在兴趣发现方法明显提高了发现微博用户潜在兴趣的准确率.  相似文献   

19.
基于LDA模型的BBS话题演化   总被引:1,自引:0,他引:1  
BBS(论坛)作为一种新兴的网络媒体,是网民获取信息和发表评论的主要渠道之一。怎样组织BBS上的话题,发现和跟踪新话题以及话题的演化成为了研究的热点。传统的方法更多的是去检测和跟踪话题,而没有考虑话题的演化。提出了基于LDA模型的话题演化方法,表示话题在时间上的演化情况,发现热门话题和冷门话题,能更好地指导网民了解正在发生的事情。实验证明有很好的效果。  相似文献   

20.
挖掘空间关联规则的前缀树算法设计与实现   总被引:5,自引:0,他引:5       下载免费PDF全文
空间关联规则挖掘是在空间数据库中进行知识发现的一类重要问题.为此提出了挖掘空间关联规则的二阶段策略,通过多轮次单层布尔型关联规则挖掘,自顶向下逐步细化空间谓词的粒度,从而空间谓词的计算量大大减少.同时,设计了一种基于前缀树的单层布尔型关联规则挖掘算法(FPT-Generate),不需要反复扫描数据库,不产生候选模式集,并在关键优化技术上取得了突破.实验表明,以FPT-Generate为挖掘引擎的空间关联规则发现系统的时间效率与空间可伸缩性远远优于以经典算法Apriori为引擎的系统。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号