首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
刘艳文  魏赟 《电子科技》2020,33(7):12-16
LDA主题模型在提取特征时缺乏对词语关联及相关词对的理解,这会影响情感极性分类的准确率。针对这一问题,文中提出一种在LDA主题模型中引入特征情感词对抽取方法的新模型,以改善特征情感词对的抽取效果。利用依存句法分析设计特征情感词对的识别方法,随后将识别方法作为约束条件引入LDA模型对特征情感词对进行抽取。通过吉布斯采样进行参数计算,给出了模型的生成过程。最后利用随机森林分类方法对文本进行情感极性分类。为验证文中模型的有效性,将其和另外两种模型一起进行实验,当主题个数为20时,文中所提模型分类的准确率、召回率、F值分别为81.54%、83.13%和82.33%,显著高于另外两种模型。  相似文献   

2.
微博文本简短、信息量少且语法随意,传统主题分类并不理想.Labeled LDA在LDA主题模型上附加类别标签协同计算隐含主题分配量使文本分类效果有所改进,但标签在处理隐式微博或主题频率相近的分类上,存在一定的模糊分配.本文提出的Union Labeled LDA模型通过引入评论转发信息丰富Label标签,进一步提升标签监督下的主题词频强度,一定程度上显化隐式微博、优化同频分配,采用吉布斯采样的方法求解模型.在真实数据集上的实验表明,Union Labeled LDA模型能更有效地对微博进行主题挖掘.  相似文献   

3.
吕品  计春雷  汪鑫  罗宜元 《电子学报》2018,46(5):1084-1088
从短文本集中挖掘不同粒度的主题、构建主题的层次结构在舆情分析、视觉检测、语义挖掘和图谱构建等方面具有重要应用.围绕如何从短文本集中分层次地挖掘主题,在修改传统短语定义的基础上,提出了融合锚词抽取的海量短文本主题层次挖掘框架.提出的主题层次挖掘框架首先基于词共现图实现主题推断和锚词抽取;然后,应用关联规则挖掘频繁锚词短语;最后,采用排序方法量化锚词短语以寻找最具代表性的主题短语.与已有的基于词共现图构建主题层次的方法相比,融合了锚词抽取的词共现图分析方法更有利于构建层次更高的主题.在2个实际的中文短文本数据集上执行实验,结果表明提出的方法挖掘的短语能较好地解释主题和用于分类预测.  相似文献   

4.
微博由于其开放、低门槛、终端扩展、内容简洁的特征,已经成为一个信息分享、传播以及获取的大众新闻时事的重要平台,而微博中的海量文本基本都是短文本快节奏的数据,等待我们去分析其中蕴含的大量的信息。这里突出介绍了LDA主题模型和Gibbs Sampling采样算法。通过实验用LDA模型来进行主题挖掘,挖掘出来的每个主题即为该用户的兴趣和爱好。  相似文献   

5.
针对网络短文本情感挖掘问题,提出一种新的基于LDA和互联网短评行为理论的主题情感混合模型TSCM,TSCM模型中的整篇评论中每个句子的主题分布是不同的,TSCM产生词的流程是先确定词的情感极性,再确定词的主题,TSCM考虑了词与词之间的联系.真实数据集Movie与Amazon上的大量实验表明,与代表性算法JST、S-LDA、D-PLDA和SAS相比较,TSCM模型能对用户真实情感与讨论主题进行更加有效的分析建模.  相似文献   

6.
传统的文本关键词提取方法忽略了上下文语义信息,不能解决一词多义问题,提取效果并不理想。基于LDA和BERT模型,文中提出LDA-BERT-LightG BM(LB-LightG BM)模型。该方法选择LDA主题模型获得每个评论的主题及其词分布,根据阈值筛选出候选关键词,将筛选出来的词和原评论文本拼接在一起输入到BERT模型中,进行词向量训练,得到包含文本主题词向量,从而将文本关键词提取问题通过LightG BM算法转化为二分类问题。通过实验对比了textrank算法、LDA算法、LightG BM算法及文中提出的LB-LightG BM模型对文本关键词提取的准确率P、召回率R以及F1。结果表明,当Top N取3~6时,F1的平均值比最优方法提升3.5%,该方法的抽取效果整体上优于实验中所选取的对比方法,能够更准确地发现文本关键词。  相似文献   

7.
《现代电子技术》2020,(3):173-176
传统的远程教育课程推荐方法因数据稀疏问题,造成其主题集中性较差,为此设计基于LDA用户兴趣模型的远程教育课程推荐方法。通过远程教育课程外在属性包容度和内在属性质量值,计算远程教育课程的重要度,并以重要度为依据,利用LDA用户兴趣模型判断用户对主题的偏好度,确定主题与远程教育课程的相似度系数,获得用户对远程教育课程的兴趣度,以此为基础完成远程教育课程的推荐。实验结果表明:使用基于LDA模型的推荐方法向用户推荐的课程有50%以上都是用户需求的课程,而传统的推荐方法只有不到20%,两者相比,基于LDA模型的推荐方法的主题集中性更强,更适合应用在远程教育课程推荐中。  相似文献   

8.
近年来国内外有很多学者将广泛用于自然语言处理的LDA模型引入视觉对象识别,对象分割,场景分类等应用中。LDA模型是产生式模型,所以必然存在产生式模型共有的弊端,即假设每个视觉词汇所对应主题的产生是条件独立的。根据图像本身的特征,图像的空间信息对图像物体识别起了很大的作用,一个视觉词汇主题的生成过程是受其相邻视觉词汇主题所影响的,为了提高图像视觉词汇的主题分配正确率,提出融合空间信息LDA模型,即融合条件随机场的LDA模型,从而在图像的局部主题标签上融合二维图像空间信息,既避免空间信息的丢失,同时可以提高其视觉词汇的主题分配正确率。论文主要研究内容:首先对LDA模型进行改进,并在该模型中引入条件随机场,同时推导出使用期望最大化算法确定的模型参数。该论文提出使用条件随机场获得图像的二维空间信息,将产生式模型和判别式模型融合,在增强由图像本身性质所决定的相邻区域主体标签的空间关联性的同时,也提高了视觉对象识别的精确度,完成图像的自动标注。  相似文献   

9.
基于概率主题模型的文档聚类   总被引:3,自引:0,他引:3       下载免费PDF全文
王李冬  魏宝刚  袁杰 《电子学报》2012,40(11):2346-2350
 为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allocation)模型和TC_LDA模型的聚类算法.TC_LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法不同,基于主题模型的聚类算法能将具备同一主题的文档聚为一类.实验结果表明从主题分析角度出发实现的聚类算法优于传统的聚类算法.  相似文献   

10.
本文提出了线条图形自动编辑的一种方法,通过对线条图形的跟踪采样获取图的信息。采样通过移动采样窗口跟踪曲线,在采样窗口内求线段的重心来实现,对获得的采样点,用模糊学的方法进行延伸与归并,以获取支撑点与支撑点之间图形元素的类型,从而实现线条图形的识别与编码。  相似文献   

11.
智能化客服系统是国家电网在传统人工客服上转型的重要方向。相对于传统客服,智能客服可以并发处理电力用户的诉求事件,掌握覆盖辖区内配电网准确、可靠、全面、及时的状态信息,并通过分析历史诉求文本数据和电力用户相关的多源异构大数据来积极应付突发事件,对诉求热点进行预测并进行主动性预警。文中首先通过隐含狄利克雷分布概率(LDA)主题模型对电力用户的交互式诉求文本进行主题挖掘,获得诉求用户的诉求主题标签。根据电力公司所收集到的多源异构大数据,文中设计多种特征提取算法,搭建基于卷积神经网络(CNN)和特征级数据融合的分类模型,来实现对未来时间内诉求热点的预测。实验证明LDA模型可以很好地提取出诉求文本中的主题,多源异构数据分类模型最终得到高达94%的分类准确率,相对于传统分类器平均提升12.6%,最终可以实现电力公司对电力故障和用户诉求的主动性预警功能。  相似文献   

12.
针对传统共词聚类分析法中共词矩阵构建不能全面反映主题词之间的关联问题,提出了基于高频主题词共现于同一篇文献多种格式内容构建共词矩阵的方法,针对传统聚类算法对于类团非球状且类团大小相异较大导致聚类效果不理想等问题,利用改进的CRUE聚类算法对共词矩阵聚类。并对PubMed中肺癌领域相关文献进行共词聚类分析,实验论证了改进后共词聚类分析方法的可行性。  相似文献   

13.
为了解决传统查询扩展时查准率低下的问题,基于词义消歧技术提出一种综合扩展语义树和词频共现率的语义查询扩展方法.针对查询词歧义所带来的查询主题漂移现象,利用WordNet知识源及其领域信息进行查询词义消歧,进而根据WordNet的层次结构生成扩展语义树,产生候选扩展词,并根据待扩展词与用户查询的整体最大相关性原则最终确定扩展词及其权重,使得扩展词能够充分表达用户查询请求,提高查询匹配准确率.实验表明,该方法在保证查全率的同时获得了较高的查准率.  相似文献   

14.
对某基于MSP430F149的传感器的低频窄脉冲周期信号识别时,若依据采样定律对该低频信号确定的采样率采样则会漏掉该窄脉冲;若提高采样率,频域处理时点数又太多。为此时域采样采用窗口内高采样率,对每个窗口用重采样作为一个采样点。采用快速傅里叶变换(FFT)将时域信号转换为频域信号,分析感兴趣频域范围内的信号。实验结果表明基于MSP430F149的频域识别方法,能准确地识别出与接收器相匹配的传感器信号,达到信号识别、排除干扰的目的。对其他需要处理低频窄脉冲周期信号的应用领域有一定的参考价值。  相似文献   

15.
基于共享背景主题的 Labeled LDA 模型   总被引:2,自引:0,他引:2       下载免费PDF全文
江雨燕  李平  王清 《电子学报》2013,41(9):1794
隐藏狄利克雷分配(Latent Dirichlet Allocation ,LDA )模型被广泛应用于文本分析、图像识别等领域。但由于LDA及其扩展模型多为无监督学习模型,无法将其应用于分类任务中。本文通过研究文档标记与LDA模型中主题的映射关系,提出一种新的Labeled LDA模型(Shared Background Topics Labeled LDA ,SBTL-LDA )。在SBTL-LDA模型中每个标记除了存在若干个独享的局部主题外,还存在若干个共享的背景(Background )主题,这样可以有效分析不同标记所含主题之间的依赖关系,而文档标记被映射为局部主题和共享主题的组合,因此SBTL-LDA模型可以有效提升文档标记判别的准确性。同时SBTL-LDA模型还可以看成是一种半监督聚类模型,在对文档进行聚类分析的过程中模型可以有效的利用文档的标记信息提升文档聚类效果。实验证明SBTL-LDA模型能够有效解决PLDA模型中主题之间的相似性和依赖关系,具有良好的多标记判别能力,并且具有优于LDA、PLDA模型的文档聚类效果。  相似文献   

16.
文章实现了一种应用于串行通信中的抗噪声接收电路的设计。UART被广泛应用于在远端设备之间进行串行通信,传统接收电路在位周期的中央对信号进行采样,但是由于各种随机噪声的干扰,会引起数据采样错误,造成通信出错。文章提出的设计方法是利用一个累加器在一个特定窗口周期内对串行数据进行采样并累加,再根据累加和判断出窗口期内正确数据位,从而滤去串行线路上的噪声得到纯净的串行数据,这大大增强了串行通信的可靠性。文章利用Quartus软件对设计进行编译、综合、仿真。仿真结果表明该电路能有效滤去串行线路上噪声,极大增强了接收电路的抗噪声性能。  相似文献   

17.
有监督主题模型的SLDA-TC文本分类新方法   总被引:1,自引:0,他引:1       下载免费PDF全文
本文提出了一种有监督主题模型的SLDA-TC(Supervised LDA-Text Categorization)文本分类方法,引入主题-类别概率分布参数,识别主题-类别的语义信息;提出SLDA-TC-Gibbs主题采样新方法,对每个词的隐含主题采样,只从该词所在文档的同类其它文档中采样,并给出了理论推导;另外,其主题数只需略大于类别数.实验表明,对比LDA-TC(LDA-Text Categorization)和SVM算法,本方法能提高分类精度和时间性能.  相似文献   

18.
张仰森  段宇翔  王建  吴云芳 《电子学报》2019,47(9):1919-1928
近年来,各领域内频频发生各类突发事件,对社会稳定发展产生了一定程度的影响.本文提出了一种基于多种词特征的微博突发事件检测模型,可以在海量微博数据中对突发事件进行检测,便于相关决策者进行微博监控和舆论引导,尽可能减少突发事件给社会带来的危害.首先根据时间信息对微博数据进行时间切片,对每一个时间窗口内的数据分别计算各个词语的词频特征、话题标签特征和词频增长率特征;然后基于D-S证据理论和层次分析法,确定词的各个特征权重,并进行加权融合得到词的突发特征值,将突发特征值大的词挑选出来构成突发特征词集,构建基于共现度和结合紧密度的突发事件特征词集的耦合度矩阵;最后将该耦合度矩阵作为凝聚式层次聚类算法的输入,生成一棵由突发词为叶子节点的二叉树,并采用内部相似度的二叉树剪枝算法对聚类结果进行划分,即可实现对相应时间窗口突发事件的检测.实验结果表明,基于突发词的事件检测模型在簇内部相似度阈值等于1.1时效果最好,正确率达到0.8462、召回率达到0.8684、F值为0.8571,表明了本文所提方法的有效性.  相似文献   

19.
陈培新  郭武 《信号处理》2017,33(8):1090-1096
经典的概率主题模型通过词与词的共现挖掘文本的潜在主题信息,在文本聚类与分类任务上被广泛应用。近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流。本文通过卷积神经网络(Convolutional Neural Network,CNN)和概率主题模型在文本主题分类上的效果对比,展示了CNN在此任务上的优越性。在此基础上,本文利用CNN模型提取文本的特征向量并将其命名为卷积语义特征。为了更好地刻画文本的主题信息,本文在卷积语义特征上加入文本的潜在主题分布信息,从而得到一种更有效的文本特征表示。实验结果表明,相比于单独的概率主题模型或CNN模型,新的特征表示显著地提升了主题分类任务的F1值。   相似文献   

20.
在递归神经网络(RNN)语言模型输入中增加表示当前词所对应主题的特征向量是一种有效利用长时间跨度历史信息的方法。由于在不同文档中各主题的概率分布通常差别很大,该文提出一种使用文档主题概率改进当前词主题特征的方法,并将改进后的特征应用于基于长短时记忆(LSTM)单元的递归神经网络语言模型中。实验表明,在PTB数据集上该文提出的方法使语言模型的困惑度相对于基线系统下降11.8%。在SWBD数据集多候选重估实验中,该文提出的特征使LSTM模型相对于基线模型词错误率(WER)相对下降6.0%;在WSJ数据集上的实验中,该特征使LSTM模型相对于基线模型词错误率(WER)相对下降6.8%,并且在eval92测试集上,改进隐含狄利克雷分布(LDA)特征使RNN效果与LSTM相当。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号