首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,提出一种基于LDA模型的子话题划分方法.首先应用LDA模型对新闻文档进行建模,采用贝叶斯标准方法确定最优主题个数,使LDA模型拟合文档性能达到最佳;其次针对子话题间文本相似度较高的特点,引入主题特征词相关性分析,采用改进的KL距离公式,计算新闻文档之间相似度,有效区分了文档内容相似但话题重点不同的报道;最后通过single-pass增量聚类算法进行文档聚类,实现子话题划分.实验验证了改进后的相似度计算方法的有效性,实验结果表明该方法能够有效地提高热点新闻话题子话题划分的准确率.  相似文献   

2.
基于LDA模型的新闻话题的演化   总被引:1,自引:0,他引:1  
新闻话题及演化的研究可以帮助人们快速了解和获取新闻内容。提出了一种挖掘新闻话题随时间变化的方法,通过话题抽取和话题关联实现话题的演化。首先应用LDA(Latent Dirichlet Allocation Model)对不同时间段的文集进行话题的自动抽取,话题数目在不同时间段是可变的;计算相邻时间段中任意两个话题的分布距离实现话题的关联。实验结果证明该方法不但可以描述同一个话题随时间的演化过程,还可以描述话题内容随时间的变化,反映了话题(或子话题)之间多对多的演化关系。  相似文献   

3.
陈铭夏 《软件》2013,(12):163-166
当今的社交网络拥有庞大的用户数量和随之而来的海量信息,可以为工业界各个领域的研究提供重要的数据补充。其中,如何高效准确地对网络人群进行按照兴趣领域的划分成为了研究的热点。本文通过引入文本分析中常用的LDA模型,挖掘出微博用户和其单向关注的其他用户之间暗含的兴趣信息,建立主题模型来给用户进行粗粒度划分。同时本文研究了引入非对称超参数、弱连接理论、TF-IDF调频以优化本算法划分的正交度,并给出了相应分析。  相似文献   

4.
基于加权隐含狄利克雷分配模型的新闻话题挖掘方法   总被引:2,自引:0,他引:2  
李湘东  巴志超  黄莉 《计算机应用》2014,34(5):1354-1359
针对传统新闻话题挖掘准确率不高、话题可解释性差等问题,结合新闻报道的体例结构特点,提出一种基于加权隐含狄利克雷分配(LDA)模型的新闻话题挖掘方法。首先从不同角度改进词汇权重并构造复合权值,扩展LDA模型生成特征词的过程,以获取表意性较强的词汇;其次,将类别区分词(CDW)方法应用于建模结果的词序优化上,以消除话题歧义和噪声、提高话题的可解释性;最后,依据模型话题概率分布的数学特性,从文档对话题的贡献度以及话题权值概率角度对话题进行量化计算,以获取热门话题。仿真实验表明:与传统LDA模型相比,改进方法的漏报率、误报率分别平均降低1.43%、0.16%,最小标准代价平均降低2.68%,验证了该方法的可行性和有效性。  相似文献   

5.
评价对象抽取是自然语言处理中情感分析研究领域的一项重要任务.本文研究基于LDA进行中文评价对象的抽取问题.利用中文倾向性评测中任务3的Digital语料进行相关实验.首先对语料进行分词,词性标注以及去除干扰内容等预操作,然后利用LDA主题模型进行处理,最后对抽取的评价对象进行分析.数据结果表明,将LDA方法运用到评价对象抽取问题具有一定的研究和实用价值.  相似文献   

6.
潜在狄利克雷分布(LDA)以词袋(bag of words,BOW)模型为基础,简化了建模的复杂度,但使得主题的语义连贯性较差,文档表征能力不强。为解决此问题,提出了一种基于语义分布相似度的主题模型。该模型在EM(expectation maximization)算法框架下,使用GPU(generalized Pólya urn)模型加入单词—单词和文档—主题语义分布相似度来引导主题建模,从语义关联层面上削弱了词袋假设对主题产生的影响。在四个公开数据集上的实验表明,基于语义分布相似度的主题模型在主题语义连贯性、文本分类准确率方面相对于目前流行的主题建模算法表现得更加优越,同时该模型提高了收敛速度和模型精度。  相似文献   

7.
在多标签分类任务中随着标签数量的增多,传统的基于隐含狄利克雷分布模型的方法往往会遇到可扩展性问题。为解决这一问题,提出一种基于划分子集的带标签隐含狄利克雷模型。通过对数据划分子集降低算法的时间复杂度,在标签规模达到成百上千时灵活扩展模型,提高传统带标签狄利克雷模型的预测准确率。该方法被部署于大规模实验数据集上,与多个经典方法进行比对,实验结果表明,该方法具有良好的准确率和效率,是解决多标签学习问题的有效工具。  相似文献   

8.
在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。在面向Web的主题句抽取的具体应用中,取得了较好的效果。  相似文献   

9.
针对话题先验相关报道稀疏性及在话题发展过程中所产生的漂移问题,结合微博文本特点提出了一种基于双态模型的微博话题跟踪方法。该方法首先提出了双态话题模型的构建方法,将其划分为永久存储区域和临时存储区域,分别用于保持跟踪话题的中心和跟踪话题部分特征词的变迁;并在跟踪过程中动态更新话题模型,能有效应对微博话题发展所产生的漂移。将该方法与其他微博话题跟踪方法进行对比,结果表明,该方法使得漏检率和误检率等指标均得到降低,有效地提高了话题跟踪的效果。  相似文献   

10.
针对短文本的特征稀疏性和上下文依赖性两个问题,提出一种基于隐含狄列克雷分配模型的短文本分类方法。利用模型生成的主题,一方面区分相同词的上下文,降低权重;另一方面关联不同词以减少稀疏性,增加权重。采用K近邻方法对自动抓取的网易页面标题数据进行分类,实验表明新方法在分类性能上比传统的向量空间模型和基于主题的相似性度量分别高5%和2.5%左右。  相似文献   

11.
针对目前国内的英语作文辅助批阅系统缺少准确而高效的跑题检测算法的问题,提出了一种结合LDA和Word2vec的跑题检测算法。该算法利用LDA模型对文档建模并通过Word2vec对文档训练,利用得到的文档主题和词语之间的语义关系,对文档中各主题及其特征词计算概率加权和,最终通过设定合理阈值筛选出跑题作文。实验中通过改变文档的主题数而得到的不同F值,确定了最佳主题数。实验结果表明所提出的方法比基于向量空间模型的方法更具有效性,可以检测到更多的跑题作文并且准确率较高,F值达到89%以上,实现了作文跑题检测的智能化处理,可以有效地应用在英语作文教学中。  相似文献   

12.
曹建平  王晖  夏友清  乔凤才  张鑫 《自动化学报》2014,40(12):2877-2886
网络舆情分析中需要处理大量时效性较强的文本数据流. 针对在线时效性较强的文本数据流, 提出基于LDA (Latent Dirichlet allocation)的双通道在线主题演化模型(Bi-path evolution online-LDA, BPE-OLDA), 在下一时间片生成文本时考虑文本的内容遗传和强度遗传, 很好地模拟了人在生成时效性较强的文本时的特征. 估算模型参数时对 Gibbs 采样算法进行了简化, 实验证明, 使用简化后的在线 Gibbs 重采样算法, BPE-OLDA 模型在提取时效性较强的文本数据流的主题方面具有明显的效果.  相似文献   

13.
针对现有单一底层特征识别扣件状态的算法存在描述能力差、特征维度过高等问题,提出一种基于两种扣件底层特征的潜在语义主题融合的扣件检测模型.通过潜在狄利克雷分布(LDA)模型分别获取扣件图像的局部二值模式(LBP)特征和方向梯度直方图(HOG)特征的扣件语义主题向量.将这两种语义主题向量进行加权融合,权值由该图像LBP特征图和其梯度图的信息熵来确定.以该向量训练分类器,判断待检扣件状态.实验表明:与目前的主流扣件检测方法相比,该方法的漏检率和误检率明显降低,检测能力显著增强.  相似文献   

14.
基于LDA模型的主题分析   总被引:9,自引:0,他引:9  
石晶  范猛  李万龙 《自动化学报》2009,35(12):1586-1592
在文本分割的基础上, 确定片段主题, 进而总结全文的中心主题, 使文本的主题脉络呈现出来, 主题以词串的形式表示. 为了分析准确, 利用LDA (Latent dirichlet allocation)为语料库及文本建模, 以Clarity度量块间相似性, 并通过局部最小值识别片段边界. 依据词汇的香农信息提取片段主题词, 采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外, 尝试挖掘隐藏于字词表面之下的文本内涵. 实验表明, 文本分析的结果明显好于其他方法, 可以为下一步文本推理的工作提供有价值的预处理.  相似文献   

15.
融合显著信息的LDA极光图像分类   总被引:2,自引:0,他引:2  
韩冰  杨辰  高新波 《软件学报》2013,24(11):2758-2766
美丽的极光形态各异,不同形态的极光蕴含不同的物理意义,所以研究极光图像的分类具有重要的科学价值.在LDA(latent Dirichlet allocation)模型基础上提出了一种融合显著信息的LDA 方法(LDA with saliencyinformation,简称SI-LDA),利用极光图像的谱残差(spectral residual,简称SR)显著信息生成视觉字典,加强极光图像的语义信息,并将其用于极光图像的特征表示.最后,利用SVM分类器对极光图像进行分类.实验结果表明,所提出的算法获得了良好的分类结果.  相似文献   

16.
基于LDA模型的文本分割   总被引:9,自引:0,他引:9  
文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用.基于LDA模型的文本分割以LDA为语料库及文本建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,获取词汇的概率分布,使隐藏于片段内的不同主题与文本表面的字词建立联系.实验以汉语的整句作为基本块,尝试多种相似性度量手段及边界估计策略,其最佳结果表明二者的恰当结合可以使片段边界的识别错误率远远低于其它同类算法.  相似文献   

17.
基于LDA主题模型的文本相似度计算   总被引:1,自引:0,他引:1  
王振振  何明  杜永萍 《计算机科学》2013,40(12):229-232
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。  相似文献   

18.
郑诚  刘娇丽  项珑 《微机发展》2014,(1):133-135
传统的搜索引擎返回的数据太过庞大,很多情况下用户不能快速地找到自己要的答案。在这种情况下,文中引入FAQ系统。FAQ中如何找到最佳匹配答案,是文中的研究重点。改进了传统的VSM模型,使得它能更好地体现问题中词的权重。重点引人了LDA模型,并用计算机故障领域内的文档资料对它进行训练,得到主题-词的概率分布。通过主题-词中词的概率分布,计算词与词的相关度,提出通过词与词间相关度计算句子与句子间相似度的算法。对两个算法进行综合,得到最终的相似度算法。文中对FAQ进行整理,得到了FAQ问答系统的雏形。通过实验分析,说明相似度算法有很好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号