首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
基于共享背景主题的 Labeled LDA 模型   总被引:2,自引:0,他引:2       下载免费PDF全文
江雨燕  李平  王清 《电子学报》2013,41(9):1794
隐藏狄利克雷分配(Latent Dirichlet Allocation ,LDA )模型被广泛应用于文本分析、图像识别等领域。但由于LDA及其扩展模型多为无监督学习模型,无法将其应用于分类任务中。本文通过研究文档标记与LDA模型中主题的映射关系,提出一种新的Labeled LDA模型(Shared Background Topics Labeled LDA ,SBTL-LDA )。在SBTL-LDA模型中每个标记除了存在若干个独享的局部主题外,还存在若干个共享的背景(Background )主题,这样可以有效分析不同标记所含主题之间的依赖关系,而文档标记被映射为局部主题和共享主题的组合,因此SBTL-LDA模型可以有效提升文档标记判别的准确性。同时SBTL-LDA模型还可以看成是一种半监督聚类模型,在对文档进行聚类分析的过程中模型可以有效的利用文档的标记信息提升文档聚类效果。实验证明SBTL-LDA模型能够有效解决PLDA模型中主题之间的相似性和依赖关系,具有良好的多标记判别能力,并且具有优于LDA、PLDA模型的文档聚类效果。  相似文献   

2.
在分布式检索中,基于主题的语言模型集合选择方法首先引入Relevance Model计算用户查询和信息集合中文档的相似度,在此基础上通过文本聚类得到集合中文档的主题信息,加入语言模型计算得到各个信息集合的查询相关度排名,以此完成集合选择.实验表明,与ODRI、CRCS和基于传统语言模型的集合选择算法相比,该方法的检索效果得到了显著提高.  相似文献   

3.
原福永  杨治秋  王海霞 《信号处理》2005,21(Z1):606-608
随着网络信息的迅速增长,文档聚类技术成为了人们研究的热点课题.探讨了典型的基于向量空间模型的文档聚类算法-k-means算法,针对它的不足提出了改进的BK-means算法.最后,根据一定的评价标准,得出BK-means算法是文档聚类算法中较好的算法.  相似文献   

4.
《现代电子技术》2016,(1):148-152
考虑到传统Web文档聚类算法聚类效果差、速度慢等问题,针对Web文档聚类算法进行深入研究,使用目标优化策略将Web文档聚类认为是最佳划归文档集合的范畴,并通过引入优化算法进行聚类划分。针对使用SVD表示的Web文档向量存在高维稀疏性等问题,使用LDA对Web文档簇的潜在语义子空间进行重构,从而降低Web文档向量空间的维数,最后在低维空间使用遗传算法进行寻优。常规的GA算法通常存在算法早熟以及局部寻优能力弱等问题。故提出一种改进型GA算法,通过引入自适应对偶种群、自适应终止规则以及新的生成子代规则来保证种群在迭代过程中的多样性以解决算法早熟问题,并且要提高算法的搜索效率以提高算法对局部寻优的能力。最后通过实验验证提出的基于改进型GA算法的Web文档聚类算法的聚类有效性。  相似文献   

5.
吴永辉  王晓龙  丁宇新  徐军  郭鸿志 《电子学报》2010,38(11):2620-2624
 本文提出了一种基于改进HotRank算法的站点排序及种子URL选择方法,建立了在线主题发现系统信息采集自适应增量更新模型;结合LDA模型和仿射传播聚类算法(AP),提出了一种网络主题发现和热点新闻推荐方法,并在海天园知识服务平台热点新闻推荐系统中得到了应用.  相似文献   

6.
面向领域标签辅助的服务聚类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
田刚  何克清  王健  孙承爱  徐建建 《电子学报》2015,43(7):1266-1274
Web服务数量的激增对服务发现提出了更高的要求,服务聚类是促进服务发现的一种重要技术.但是,现有服务聚类方法只对单一类型的服务文档进行聚类,缺乏考虑服务的领域特性和服务标签的应用.针对这些问题,本文首先使用本体辅助的支持向量机和面向领域的服务特征降维技术建立服务的特征内容向量,然后使用一种标签辅助的主题服务聚类方法T-LDA建立融合标签信息之后的隐含主题表示,并利用归一化方法消除通用主题的影响,综合上述方法建立一个面向领域标签辅助的Web服务聚类方法DTWSC.实验结果表明,该框架能够提高针对不同类型的服务文档的聚类效果.与LDA、K-Means等方法相比,该方法在聚类纯度、熵和F-Measure指标上均具有更好的效果.  相似文献   

7.
杨全海 《信息技术》2016,(4):109-113
文中引入了CHAMELEON聚类来产生广义实例,采用带回溯的广义实例文本分类算法实现了模型改进和文本分类运算时间的显著提高。对两个语料库文档数据实验中验证表明,改进带回溯算法在两个语料库上都达到了与传统KNN分类算法相同的精度;带回溯的算法执行速度提高了10倍,在语料库上提高了8倍;在Tan语料库上带回溯算法比SVM文本算法精度高出3个百分点。上述研究对信息领域的大数据存储有明显的借鉴意义。  相似文献   

8.
用于高斯混合模型参数估计的EM算法及其初始化研究   总被引:2,自引:0,他引:2  
肖维 《电子测试》2011,(6):26-30
基于有限混合模型的聚类是一种重要的聚类分析方法,而EM算法是混合模型参数估计的重要方法.传统的EM算法对初始聚类中心比较敏感,因此如何选取初始值成为运用EM算法实现高斯混合模型聚类中的一个重要问题.本文提出一种基于网格的聚类算法来初始化EM算法,旨在改善EM算法的初始敏感性,使其达到更佳的聚类效果.此算法根据网格单元密...  相似文献   

9.
传统的减法聚类算法时间复杂度高,算法不具有分布式特性,不满足大数据处理的要求.提出一种基于Hadoop的改进减法聚类算法,利用MapReduce模型改进减法聚类执行过程,实现求解邻域半径、初始化密度指标、更新密度指标和划分数据记录等过程的并行化.实验结果表明,同传统的串行算法相比,提出的算法能够对大数据进行快速聚类,同时表现出良好的稳定性与扩展性.  相似文献   

10.
《现代电子技术》2019,(3):122-126
以英汉维三种大规模文本聚类为目标,针对三种语言的特点实现基于LDA模型的静态文本聚类系统。因为存在博客、微博等网络媒体的文本不太规范及涉及的话题范围广泛等现象,对文本特征的提取及聚类算法的选择带来一定的难度。通过对样本文本的分析,计算出适当的聚类数k,再调用LDA算法将文本聚为k类并给出每类文本的关键词。测试结果表明,该系统能将英汉维三种语言的文本相似度高的聚为一类,可显著提高聚类效果。  相似文献   

11.
12.
Nowadays, a considerably large number of documents are available over many online news sites (e.g., CNN and NYT). Therefore, the utilization of these online documents, for example, the discovery of a burst topic and its evolution, is a significant challenge. In this paper, a novel topic model, called intermittent Evolution LDA (iELDA) is proposed. In iELDA, the time-evolving documents are divided into many small epochs. iELDA utilizes the detected global topics as priors to guide the detection of an emerging topic and keep track of its evolution over different epochs. As a natural extension of the traditional Latent Dirichlet Allocation (LDA) and Dynamic Topic Model (DTM), iELDA has an advantage: it can discover the intermittent recurring pattern of a burst topic. We apply iELDA to real-world data from NYT; the results demonstrate that the proposed iELDA can appropriately capture a burst topic and track its intermittent evolution as well as pro-duce a better predictive ability than other re-lated topic models.  相似文献   

13.
徐超  周一民  沈磊 《电子与信息学报》2010,32(11):2695-2700
该文针对上下文树核用于文本表示时缺乏语义信息的问题,提出了一种面向隐含主题的上下文树核构造方法。首先采用隐含狄利克雷分配将文本中的词语映射到隐含主题空间,然后以隐含主题为单位建立上下文树模型,最后利用模型间的互信息构造上下文树核。该方法以词的语义类别来定义文本的生成模型,解决了基于词的文本建模时所遇到的统计数据的稀疏性问题。在文本数据集上的聚类实验结果表明,文中提出的上下文树核能够更好地度量文本间主题的相似性,提高了文本聚类的性能。  相似文献   

14.
Topic models such as Latent Dirichlet Allocation (LDA) have been successfully applied to many text mining tasks for extracting topics embedded in corpora. However, existing topic models generally cannot discover bursty topics that experience a sudden increase during a period of time. In this paper, we propose a new topic model named Burst-LDA, which simultaneously discovers topics and reveals their burstiness through explicitly modeling each topic's burst states with a first order Markov chain and using the chain to generate the topic proportion of documents in a Logistic Normal fashion. A Gibbs sampling algorithm is developed for the posterior inference of the proposed model. Experimental results on a news data set show our model can efficiently discover bursty topics, outperforming the state-of-the-art method.  相似文献   

15.
16.
物联网参考模型的分析   总被引:1,自引:0,他引:1  
研究物联网参考模型是开发和标准化物联网技术的关键而困难的课题,涉及到网络理论和技术中一系列基本概念和方法。通过研究欧盟有关物联网体系结构项目中的相关文稿,探讨了物联网的体系结构参考模型、参考体系结构的概念,分析了欧盟提出的物联网参考模型的建模方法,指出了欧盟物联网参考模型在物理实体、虚拟实体、数字实体和装置等概念方面的合理之处,阐述了物联网交互基本抽象方面的不适合之处,提出了一种改进物联网交互基本抽象的建议。  相似文献   

17.
This paper presents a new Bayesian sparse learning approach to select salient lexical features for sparse topic modeling. The Bayesian learning based on latent Dirichlet allocation (LDA) is performed by incorporating the spike-and-slab priors. According to this sparse LDA (sLDA), the spike distribution is used to select salient words while the slab distribution is applied to establish the latent topic model based on those selected relevant words. The variational inference procedure is developed to estimate prior parameters for sLDA. In the experiments on document modeling using LDA and sLDA, we find that the proposed sLDA does not only reduce the model perplexity but also reduce the memory and computation costs. Bayesian feature selection method does effectively identify relevant topic words for building sparse topic model.  相似文献   

18.
刘艳文  魏赟 《电子科技》2020,33(7):12-16
LDA主题模型在提取特征时缺乏对词语关联及相关词对的理解,这会影响情感极性分类的准确率。针对这一问题,文中提出一种在LDA主题模型中引入特征情感词对抽取方法的新模型,以改善特征情感词对的抽取效果。利用依存句法分析设计特征情感词对的识别方法,随后将识别方法作为约束条件引入LDA模型对特征情感词对进行抽取。通过吉布斯采样进行参数计算,给出了模型的生成过程。最后利用随机森林分类方法对文本进行情感极性分类。为验证文中模型的有效性,将其和另外两种模型一起进行实验,当主题个数为20时,文中所提模型分类的准确率、召回率、F值分别为81.54%、83.13%和82.33%,显著高于另外两种模型。  相似文献   

19.
陈培新  郭武 《信号处理》2017,33(8):1090-1096
经典的概率主题模型通过词与词的共现挖掘文本的潜在主题信息,在文本聚类与分类任务上被广泛应用。近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流。本文通过卷积神经网络(Convolutional Neural Network,CNN)和概率主题模型在文本主题分类上的效果对比,展示了CNN在此任务上的优越性。在此基础上,本文利用CNN模型提取文本的特征向量并将其命名为卷积语义特征。为了更好地刻画文本的主题信息,本文在卷积语义特征上加入文本的潜在主题分布信息,从而得到一种更有效的文本特征表示。实验结果表明,相比于单独的概率主题模型或CNN模型,新的特征表示显著地提升了主题分类任务的F1值。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号