针对物联网中的评论等短文本进行情感分析时,出现上下文依赖性差和严重的特征稀疏,以及评论类文本的情感分析具有时效性等问题,提出了基于词嵌入和时间加权的高斯LDA算法(TG-LDA)。实验结果证明,与同类的主题模型相比,该模型的关键词的区分度强,主题的一致性高。  相似文献   

为快速、准确地识别和认知电网客户,并制定针对性、精细化、个性化的服务方案,从而提升服务质量与效率,该文提出一种自然语言处理技术下电网敏感客户画像多特征提取方法。基于电力系统业务需求方向,选取头脑风暴方式确定电网敏感客户画像标签本相,利用德尔菲法确定和完善与电网业务具有高度相关的标签,由此获取具有应用性的电网敏感客户画像标签。利用自然语言处理技术中的分词、词向量转换以及词权重计算等方法,提取画像标签中的特征:选取N元文法模型确定标签文本中分词计划,选用one-hot模型对分词后的文本实施词向量转换,计算词向量转换后标签文本内的词汇权重,利用词汇权重确定后保留下来的特征词,确定电网敏感客户画像标签文本内的句子情感,实现密度、范围、数量等多特征提取。实验结果表明,该方法特征提取精度优于对比方法,且其特征提取效率受画像标签样本数量提升的影响程度不显著,能够适用于电网大数据环境中。  相似文献   

由于船舶工业领域中的新闻内容篇幅较长且专业性较强,同时包含大量船舶领域专业词汇,目前针对该领域新闻文本分类的研究较少且缺少相应的船舶工业新闻语料。构建了一个船舶工业新闻语料库,并提出了一种新的面向船舶工业新闻的文本分类算法,首先基于文档频率、卡方统计量及主题模型LSA进行特征选择和特征降维,将文档-词矩阵映射成文档-主题矩阵后,最终对处理后的特征采用支持向量机进行文本分类。通过新闻文本分类的实验表明,所提出的算法能够有效解决文本向量的高维度、高稀疏性问题,在小样本集和类别有限的前提下相比传统方法具有较好的分类效果。  相似文献   

针对基于主题的文本分类任务存在的主题特征表征能力不足、数据高维导致的特征维度高等问题,本文对输入的特征表示与卷积神经网络结构(CNN)做出了改进。在特征表示时提出了使用LDA模型计算逆主题空间频率从而得到文本的主题向量矩阵,降低了噪声主题的特征表达,增强了关键主题的权重;分别将文本的主题向量矩阵与词向量矩阵作为CNN模型的输入。提出了双层CNN网络结构,在每层CNN的池化层后增加一层多通道池化层,以融合每层CNN的池化结果,降低特征维度的同时获取更多的局部显著特征;最后使用Attention机制对融合的特征进行加权后输入到全连接层进行分类。由实验结果可知,改进的模型在文本分类任务上的准确率、召回率均在98%以上,F1值较基准实验提高了近6%。  相似文献   

电网企业拥有海量采用中文记录的非结构化文本信息,其中包含有大量重要的可靠性统计信息。但依靠人工对其进行挖掘不仅效率低而且准确性因人而异。如何高效、准确、智能地挖掘电网企业设备缺陷文本中重要的可靠性统计信息是目前亟待解决的问题。文章基于改式隐式马尔科夫算法对通过全过程技术监督工作采集的非结构化文本数据进行分句分词,制定研究非结构化数据的结构化表达规则。利用主成分分析、词向量以及深度神经网络等的自然语言处理算法对现有的问题描述文本中的同名词、同义词以及近义词等的语义相似度进行计算,并采用K阶近邻算法对降维后的词向量进行分类聚类。上述工作解决了缺陷文本句子成分难以划分、数字量无法精确提取等问题,形成一份国网系统运检专业领域的数据词典库,为电网领域的非结构化数据挖掘提供了新技术,为今后技术监督工作的展开具有重要意义和贡献。  相似文献   

针对LDA主题模型文本特征提取时主题识别不明确的问题,提出一种基于Labeled-LDA模型的文本特征提取方法。使用LDA主题模型对文本隐含主题中的主题词进行提取,根据TF-IDF算法实现对文本类别的关键词进行提取。通过文本simhash算法对提取出的主题词与关键词进行相似度计算,找到文本隐含主题的类别并提取特征词。实验表明结合后的特征提取方法比TF-IDF、传统LDA主题模型的文本特征提取方法,获得更高的分类精度,其中准确度提高了3.40%,召回率提高了4.40%,F值提高了3.92%。  相似文献   

为满足对金融市场的进一步了解以及股价预测的需求,结合投资者的情感倾向提出了一种基于TA/SA(technical analysis/sentimental analysis)的股票价格预测模型,建立投资者情感与未来股票价格之间的关系的方案.该方案主要包括获取情感指数,建立回归模型以及计算未来股票收盘价.利用该模型预测200只股票价格并与SVM和BP神经网络两种模型预测结果进行比较,结果显示所提出模型的预测正确率分别提高了1o.9%和7.4%,表明该模型具有更好的预测准确性和实用价值.  相似文献   

心率变异性分析能够在情感识别中发挥重要作用,为了建立心电与情感类别之间的精准模型,提出了基于最大信息系 数(maximal information coefficient,MIC)的特征选择方法。 使用 Aubt 数据库和设计情感诱发实验进行研究,首先提取了心率变 异性时域、频域、非线性及时频域 40 个特征参数,然后基于 MIC 方法结合支持向量机、随机森林、K 近邻算法进行情感建模。 结 果显示,基于 MIC 特征选择方法,使用 Aubt 数据库针对唤醒度、效价、4 类情感的分类准确度分别为 90%、89%、84%,并进一步 选用皮尔森相关系数、ANOVA 特征选择方法与 MIC 进行对比;诱发实验数据中的多种一对一情感识别率均高于 75%。 结果表 明基于 MIC 特征选择方法能够显著提高分类准确度,对基于心电信号进行情感识别具有重要意义。  相似文献   

基于SVM的汉语语音情感识别研究   总被引:1,自引:0,他引:1  
随着信息技术的发展,对人机交互能力的要求不断提高,情感信息处理已成为提高人机交互能力的一个重要课题.本文提出了一种汉语语音情感分类方法,主要研究了4种基本的人类情感:高兴、愤怒、恐惧、悲伤.从汉语语音信号中提取了能量、基频、语速等特征,利用支持向量机方法识别,取得了43.7%的平均识别率.  相似文献   

针对电网调度业务意图缺乏有效识别方法的问题,提出一种基于ALBERT(A Lite BERT)和残差向量-字词嵌入向量-编码向量(RE2)融合模型的电网调度意图识别方法。首先,基于ALBERT预训练的动态词向量计算调度专业语言文本特征,建立调度意图分类模型,通过训练调度专业语言构建基于RE2的文本相似度计算模型。然后,采用RE2相似度模型计算召回文本与分类文本的匹配结果对ALBERT意图分类权重进行计算重组,建立融合ALBERT和RE2的意图识别模型。最后,通过某调控中心调度专业语言验证,并与其他方法对比,所提电网调度意图识别方法具有更强的分类能力和泛化能力,对于20种调度意图识别的平均精准率、召回率和F1值分别达到了98.11%、97.96%、98.03%。  相似文献   

Recently, sentiment analysis for identifying positive or negative opinions from texts has received much attention. In this paper, we introduce sentiment analysis into a new field, which recognizes sentiment of relations between entities in the text. Three sentiment polarities between entities are recognized, namely positive, negative, and neutral. The difficulty in this work is that several pairs of entities may appear in the same sentence, and their sentiment polarities are determined by different related regions of the sentence. In addition, different features of words and their interactions in a related region will affect the final sentiment. It is difficult to process this using rigid rule‐based methods. Therefore, we propose a machine‐learning method based on statistics. In the proposed method, the model of conditional random fields (CRFs) is used to annotate the sentiment polarity between entities with the help of the syntactic dependency tree. The string of words that connects two entities in the dependency tree is used as the related region to recognize the sentiment. Experimental results and comparison with the other methods based on different principles and related regions suggest that the proposed method shows better performance and proves its validity. Moreover, the effect of different features on the CRF is word of the ith word in the sentence. We can get a CRF model using the CRF++ tool based on feature template and training corpus. After obtaining the model, sentiment of relations could be assigned automatically. The algorithm is shown in Fig. 2. © 2014 Institute of Electrical Engineers of Japan. Published by John Wiley & Sons, Inc.  相似文献   

进度控制是水电工程管理的重要任务,及时总结进度管理信息有助于工程进度计划的制定与调整.水电工程建设中的进度信息多以半结构化、非结构化的文本形式呈现,增加了信息提取难度,实现水电工程进度文本信息自动化与智能化挖掘是当前亟待解决的问题.本文提出基于改进LDA的水电工程进度信息智能提取方法,智能提取进度管理文本中的关键信息....  相似文献   

Emotion prediction has been a core task in affective computing, which aims at finding the thorough human mental states by analyzing people's activities. In this paper, we focus on predicting emotions in the public online blogs from different people, by extracting as many reasonable emotions for each blog sentence as possible. Concretely, we consider three different perspectives for analyzing the multiple emotions in a sentence: (i) predict sentence emotions by examining the emotion related topics in a global sense; (ii) predict the sentence emotions from the context‐sensitive word emotions; and (iii) predict sentence emotions by considering the emotional significance in the local bag of words. We build different probabilistic models from each perspective, to separately generate the sentence emotion probabilities. We then integrate these probabilistic models to jointly predict the emotion probabilities. Because the component models are based on different emotional assumptions with distinct features, the integrated predictions should predict emotions from more general perspectives and therefore yield better results. In the experiment, we employ different evaluation criteria to compare the multi‐emotion predictions from the single and integrated models. Compared to the results in the baseline model, our bi‐integrated models achieve 8.69% higher Micro F1 and 7.78% higher Macro F1 scores, on average. Moreover, our tri‐integrated model acquires 10.00% higher Micro F1 and 9.19% higher Macro F1 scores than the baseline results, which proves our assumption, and suggests interesting features in the different emotion perspectives. © 2014 Institute of Electrical Engineers of Japan. Published by John Wiley & Sons, Inc.  相似文献   

In recent years, with plenty of online resources constantly emerging, emotion recognition in text has become increasingly important in human–computer interaction. Word emotion plays a very important role in emotion analysis of sentences or documents. This paper proposes a hybrid approach to recognition of word emotion in the dimension of eight emotion categories with corresponding intensities based on the Chinese emotion corpus. First, we present a new algorithm of semantic similarity computation for aiding emotion intensity computation and design a new algorithm of emotion vector computation by making use of both morpheme characteristics and semantic relations. And then, we adopt support vector machine model for the secondary classification to the words whose emotions cannot be calculated by the semantic analysis algorithm. Our approach achieves the accuracy of 54.00% and 78.75% for exact match and all five types of hit, respectively, on the basis of the core emotion lexicon CL4. Experimental results show that the integration of morpheme characteristics and semantic relations can improve the classification accuracy efficiently. © 2013 Institute of Electrical Engineers of Japan. Published by John Wiley & Sons, Inc.  相似文献   

目前电网企业的电力设备供应商满意度评价主要依赖于人工统计和指标计算,其准确性受评价人员和评价内容的影响较大.以电力业务平台的对话文本为研究对象,在扩充已有电力本体词典的词条和属性的基础上,建立了基于文本挖掘技术的电力设备供应商评价模型.首先提出了基于Transformer的双向编码器下句预测与余弦相似度加权的单轮对话文本下句预测分析方法,建立了对话中断交叉处理流程和供应商识别规则,实现了电力对话文本主题归纳;然后考虑对话文本语义情感的复杂性,提出了对话情感分析规则,建立了供应商评价模型.最后通过算例验证了所提方法的准确性,结果表明基于对话文本智能挖掘的电力设备供应商评价,具有可行性和有效性,可以作为目前评价方法的有益补充.  相似文献   

Learning emotions from texts has been an active research topic in affective computing. However, the lack of reliable connection between emotions and language features has caused severely biased emotion predictions. Moreover, the author‐specific patterns in emotion expression could potentially affect emotion predictions, which has never been studied. In this paper, we propose a semisupervised learning algorithm to learn emotional features from large‐scaled micro‐blog documents with a Bayesian network, and introduce an emotion transition factor to generate the author‐specific emotion predictions. We infer the author‐specific emotions in micro‐blog streams through belief propagation, and learn the emotional features through an expectation maximization estimation procedure. We report results of single‐label and multilabel emotion predictions on a micro‐blog stream corpus, and analyze the improvements achieved by the semisupervised feature learning strategy and the incorporation of emotion transition patterns. Finally, we perform personality analysis based on the authors' emotion distribution and examine emotion distributions in the learned features. © 2016 Institute of Electrical Engineers of Japan. Published by John Wiley & Sons, Inc.  相似文献   

针对魏格纳维利分布(WVD)方法直接对轴承振动信号进行分析时存在交叉干扰项的问题,提出一种基于改进匹配追 踪(matching pursuit,MP)算法与 WVD 的滚动轴承信号时频分析方法。 首先,根据对轴承振动信号的分析,确定 MP 算法中字典 原子的基函数,并通过相关滤波法确定原子参数,完成字典构造。 然后,利用快速傅里叶变换(fast Fourier Transform,FFT)计算 信号与字典中原子的互相关谱,替代 MP 算法中的内积运算,对信号进行稀疏表示,迭代过程中根据残差信号的频谱更新字典 中的频率参数。 最后,对稀疏表示结果中的原子进行 WVD 计算,并以原子对应系数为权重将各原子的时频表示线性叠加,完 成信号的时频分析。 实验结果表明,有效提高了 MP 算法的计算速度,并且与 3 种 WVD 改进算法相比,本文方法时频分析结果 的时频聚集程度更高,可以更好地克服 WVD 方法中的交叉干扰项,为滚动轴承信号的时频分析提供新的解决方法。  相似文献   

ZY(J)7电液道岔转换设备已在高速铁路大量投入使用,对其进行精确的故障诊断有助于高速铁路道岔的日常维护作业。以ZY(J)7道岔故障文本数据作为研究对象,提出一种基于LDA(latent dirichlet allocation)主题模型与关联规则分类技术相结合的高速铁路道岔故障诊断模型。该模型首先采用LDA主题模型实现ZY(J)7道岔故障文本数据的特征提取;其次,由于道岔各故障类别数据的不均衡性,将原有的关联规则分类算法引入类支持度相关概念进行不平衡数据的处理,最终实现ZY(J)7道岔的故障诊断。通过对某铁路局2017~2019年的ZY(J)7道岔故障文本数据进行实验分析,实验结果表明提出的故障诊断方法分类精确率和召回率分别达到95.08%和90.24%,既保证了整体分类的准确率又有较好的小类别分类性能。  相似文献   

