首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
为了抽取出更能反映文本主题的关键词,也为了解决文本关键短语抽取任务中主题信息缺失的问题,提出一种基于LDA和TextRank的单文本关键短语抽取方法。该方法利用LDA模型对语料库中的文本进行主题挖掘,并融入目标文本中的主题覆盖度和词语共现关系构建无向加权词图;引入节点词汇主题影响力因素根据词语主题相关性来修改节点间的随机跳转概率,在词图的基础上运用TextRank算法获取候选关键词排序;再利用bootstraping算法的思想迭代生成表意性更强的关键短语。实验表明,该方法可有效提取出表意性强且涵盖文本主题信息的关键短语。  相似文献   

2.
使用主题模型对文本建模,提取文本的隐含主题,进而进行词性标注和文本分类等工作,是机器学习和文本挖掘领域的研究热点。提出一个基于LDA的主题模型,它基于“段袋“假设--文本中的段落具有相同的主题,且连续的段落更倾向于具有相同的主题。对于文章的段落,采用条件随机场(CRF)模型划分并判断它们是否具有相同主题。实验表明,新模型相比LDA模型能更好得提取主题并具有更低的困惑度,同时,能够较好地进行词性标注和文本分类工作。  相似文献   

3.
传统文本情感分类方法通常以词或短语等词汇信息作为文本向量模型特征,造成情感指向不明和隐藏观点遗漏的问题。针对此问题提出一种基于主题角色的文本情感分类方法。该方法首先提取出文本中的潜在评价对象形成评价对象集,评价对象作为情感句描述的主体能够很好地保存文本情感信息;然后使用LDA模型对评价对象集进行主题抽取,将抽取出的主题分裂成"正""负"两种特征项,将这两种特征项记为正负主题角色用于保存文本情感信息;最后,计算主题角色在文本中的情感影响值并建立主题角色模型。实验结果表明,所提方法与传统方法相比可有效提高主观性文本情感分类的准确率。  相似文献   

4.
随着网络购物的发展,Web上产生了大量的商品评论文本数据,其中蕴含着丰富的评价知识。如何从这些海量评论文本中有效提取商品特征和情感词,进而获取特征级别的情感倾向,是进行商品评论细粒度情感分析的关键。本文根据中文商品评论文本的特点,从句法分析、词义理解和语境相关等多角度获取词语间的语义关系,然后将其作为约束知识嵌入到主题模型,提出语义关系约束的主题模型SRC-LDA(semantic relation constrained LDA),用来实现语义指导下LDA的细粒度主题词提取。由于SRC-LDA改善了标准LDA对于主题词的语义理解和识别能力,从而提高了相同主题下主题词分配的关联度和不同主题下主题词分配的区分度,可以更多地发现细粒度特征词、情感词及其之间的语义关联性。通过实验表明,SRC-LDA对于细粒度特征和情感词的发现和提取具有较好的效果。  相似文献   

5.
情感分析作为文本挖掘的一个新型领域,可用于分类、归纳用户发布的产品评论,从而有助于商家改善服务,提高产品质量;同时为其他消费者提供购买决策。本文提出一种基于情感词抽取与LDA特征表示的情感分析方法,对产品评论进行褒贬二元分类。在情感词抽取中,采用人工构造的情感词典对预处理之后的文本抽取情感词;用LDA模型建立文档的主题分布,以评论-主题分布作为特征,用SVM分类器进行分类。实验结果表明,本文方法在评论褒贬分类方面有着良好的效果。  相似文献   

6.
针对短文本缺乏足够共现信息所产生的词与词之间弱连接,且难以获取主题词的情况,导致面向短文本分类工作需要人工标注大量的训练样本,以及产生特征稀疏和维度爆炸的问题,提出了一种基于注意力机制和标签图的单词共生短文本分类模型(WGA-BERT)。首先利用预先训练好的BERT模型计算上下文感知的文本表示,并使用WNTM对每个单词的潜在单词组分布进行建模,以获取主题扩展特征向量;其次提出了一种标签图构造方法捕获主题词的结构和相关性;最后,提出了一种注意力机制建立主题词之间,以及主题词和文本之间的联系,解决了数据稀疏性和主题文本异构性的问题。实验结果表明,WGA-BERT模型对于新闻评论类的短文本分类,比传统的机器学习模型在分类精度上平均提高了3%。  相似文献   

7.
在文本特征选择中,由于词语概率空间和词义概率空间的差异,完全基于词语概率的主题特征往往不能很好地表达文章的思想,也不利于文本的分类。为达到主题特征更能反映文章思想这一目的,提取出一种基于词义降维的主题特征选择算法。该算法通过在词林基础上构建"同义词表",作为词到词义的映射矩阵,构造一个基于词义之上的概率分布,通过LDA提取文本特征用于分类,分类准确率得到了明显提高。实验表明,基于此种方法所建立的主题模型将有更强的主题表示维度,通过该算法基本解决文本特征提取中词语概率和词义概率之间差异的问题。  相似文献   

8.
LDA作为文本主题识别领域中使用最广泛的模型之一,其基于词袋模型的假设简单化地赋予词汇相同的权重,使得主题分布易向高频词倾斜,影响了识别主题的语义连贯性。本文针对该问题提出一种基于图挖掘的LDA改进算法GoW-LDA,首先基于特征词对在文本中的共现先后关系构建语义图模型,然后利用网络统计特征中节点的加权度,将文本的语义结构特点和关联性以权重修正的形式融入LDA主题建模中。实验结果显示,GoW-LDA相较于传统LDA和基于TF-IDF的LDA,能够大幅降低主题模型的混淆度,提高主题识别的互信息指数,并且有效减少模型的训练时间,为文本主题识别提供了一种新的解决思路。  相似文献   

9.
李芳  何婷婷  宋乐 《计算机科学》2012,39(6):159-162
主要研究如何从在线评论文本中挖掘产品的评价主题,并对其倾向性进行分析。首先采用一种启发式规则和共现概率统计相结合的方法识别文本集合中的名词性短语,再运用LDA模型挖掘潜在的评价主题。然后利用多特征融合的方法计算句子的倾向性,进而根据特征词群统计出各主题的倾向性结果。最后通过对网络汽车评论文本语料的实验证实了该方法的有效性。  相似文献   

10.
为了有效地获取双语文档的主题分布,提出了一种基于短语的柬汉双语LDA主题模型。修改了传统LDA主题模型中的词袋模型,融入短语(N-gram)的概念,能够在主题预测过程中考虑文章的词序以及上下文,并将之应用于可比语料的双语环境中。本模型基于一个3层贝叶斯网络模型,在此框架下,首先搜集中文和柬埔寨语的可比语料,每一对双语可比语料文档共享一个相同的主题分布,之后引入发现主题以及主题短语的主题模型:对每个单词,首先进行主题抽样,然后将其状态作为短语进行采样,最后对来自特定主题短语分布的单词进行采样。通过实验结果可知,基于短语的双语LDA主题模型比一般的双语LDA模型更能抓住文章的主题,且有更好的主题预测能力。  相似文献   

11.
如何从海量聊天数据获取聊天主题和聊天人物行为是案件智能化分析的热点问题之一.传统词嵌入方法,将文本中的所有词汇映射到向量空间,存在词汇特征冗余的问题.为了缓解这一问题,该文提出一种基于候选主题词的话题分类算法—CTW(candidate topic words).该算法使用LDA主题模型抽取聊天文本中的关键词,使用预训...  相似文献   

12.
随着互联网的快速发展,网络信息的事件抽取已然成为研究热点。针对微博中的开放域事件抽取问题进行深入研究,实现一个事件抽取和分类系统。主要通过序列标记方法提取微博语句中的命名实体和事件短语表征相应事件,利用非监督分类方法对事件进行分类,将每个日期下各类别的事件根据重要性排序之后,以日历的形式展现出来。其中,运用条件随机场模型完成事件抽取中的序列标记任务,非监督分类方法选用了LDA主题模型。实验证明方法有效可行,命名实体识别和事件短语抽取均取得较高的准确率和召回率。  相似文献   

13.
针对单一词向量中存在的一词多义和一义多词的问题,以柬语为例提出了一种基于HDP主题模型的主题词向量的构造方法。在单一词向量基础上融入了主题信息,首先通过HDP主题模型得到单词主题标签,然后将其视为伪单词与单词一起输入Skip-Gram模型,同时训练出主题向量和词向量,最后将文本主题信息的主题向量与单词训练后得到的词向量进行级联,获得文本中每个词的主题词向量。与未融入主题信息的词向量模型相比,该方法在单词相似度和文本分类方面均取得了更好的效果,获取的主题词向量具有更多的语义信息。  相似文献   

14.
越南语网络评论的情感分类是越南语事件观点分析的基础.越南语资源匮乏,标注困难,可借助中文标注语料进行跨语言情感分类,实现越南语评论的情感极性预测.但现有的跨语言情感分类模型忽略了主题信息对加强情感表征学习、减小语言差异的作用.为此,该文提出了一种融入主题特征的中越跨语言情感分类模型.将中文①和越南语的主题词分布作为外部...  相似文献   

15.
基于LDA模型的主题分析   总被引:9,自引:0,他引:9  
石晶  范猛  李万龙 《自动化学报》2009,35(12):1586-1592
在文本分割的基础上, 确定片段主题, 进而总结全文的中心主题, 使文本的主题脉络呈现出来, 主题以词串的形式表示. 为了分析准确, 利用LDA (Latent dirichlet allocation)为语料库及文本建模, 以Clarity度量块间相似性, 并通过局部最小值识别片段边界. 依据词汇的香农信息提取片段主题词, 采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外, 尝试挖掘隐藏于字词表面之下的文本内涵. 实验表明, 文本分析的结果明显好于其他方法, 可以为下一步文本推理的工作提供有价值的预处理.  相似文献   

16.
LDA主题模型     
在自然语言处理领域,LDA主题模型是进行文本语义挖掘的一种统计模型,用来发现文档中的隐含主题,将词项空间表达的文档约简为主题空间的低维表达,实现信息检索、文本分类等。本文阐述了LDA模型的文档生成过程、LDA模型的图模型表示、基于LDA的扩展模型以及未来的研究趋势。  相似文献   

17.
近年来概率主题模型受到了研究者的广泛关注,LDA(Latent Dirichlet Allocation)模型是主题模型中具有代表性的概率生成模型之一,它能够检测文本的隐含主题。提出一个基于LDA模型的主题特征,该特征计算文档的主题分布与句子主题分布的距离。结合传统多文档自动文摘中的常用特征,计算句子权重,最终根据句子的分值抽取句子形成摘要。实验结果证明,加入LDA模型的主题特征后,自动文摘的性能得到了显著的提高。  相似文献   

18.
基于LDA模型的主题词抽取方法   总被引:1,自引:0,他引:1       下载免费PDF全文
石晶  李万龙 《计算机工程》2010,36(19):81-83
以LDA模型表示文本词汇的概率分布,通过香农信息抽取体现主题的关键词。采用背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘文本的主题内涵。模型拟合基于快速Gibbs抽样算法进行。实验结果表明,快速Gibbs算法的速度约比传统Gibbs算法高5倍,准确率和抽取效率均较高。  相似文献   

19.
用户画像技术可以给企业带来巨大的商业价值。针对用户的历史查询词,利用词向量可以得到查询词在语义层次上的表达,但词向量模型对于同一个单词生成的词向量是相同的,使得该模型无法很好的处理一词多义的情况。因此,使用LDA主题模型为每个查询词分配主题,使查询词和其主题共同放入神经网络模型中学习得到其主题词向量,最后采用随机森林分类算法对用户基本属性进行分类构建用户画像。实验结果表明,该模型的分类精度要高于词向量模型。  相似文献   

20.
分析识别文本蕴涵的主流方法,并基于文本T和假设H可以从潜在混合主题中生成的猜想,提出一个混合主题模型来识别文本蕴涵,描述一个在混合主题模型上生成文本的概率模型。该模型把文本T和假设H看成是同一语义的不同表达,表示为多模式的数据,若文本T和假设H有蕴涵关系,则它们有相似的主题分布,共享混合词汇表和主题。设计mixLDA和LDA模型的对比实验,并对RTE-8任务进行测试,通过支持向量机对得到的句子相似度和其他词法句法特征进行分类。实验结果表明,基于混合主题模型的文本蕴涵识别具有较高的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号