首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
为提高天气图像识别的准确率,达到良好的天气图像分类效果,提出一种基于迁移学习的天气图像识别算法.该算法使用Xception图像分类算法实现网络架构,再基于迁移学习理论将模型和参数应用到天气图像识别中,并在同一数据集上与其他模型进行性能对比.实验结果表明,基于迁移学习的改进Xception模型有效解决了训练样本不足、准确...  相似文献   

2.
结合安全生产事故案例文本特点,利用自然语言处理(NLP)技术对安全生产事故分类,基于转换器的双向编码表征(BERT)模型利用“抽取+生成”相结合的方式获得文本摘要,再通过迁移学习训练提升模型性能,并利用分组分类算法对文本的52个标签进行多标签分类,获得较好的分类效果,为安全生产监管、事故隐患的排查和分析奠定基础。  相似文献   

3.
面向舆情分析的短文本频繁模式聚类算法   总被引:1,自引:0,他引:1  
基于短文本的舆情分析是当前信息挖掘与情感分析领域的研究重点,针对网络环境中大量的短文本信息的鲜明特点,本文突破了传统基于词的分类方法,提出一种基于后缀数组频繁模式发现的聚类算法,利用后缀数组频繁模式精确去重算法得到关键词库,结合局部性原理对位置点聚类之后作有意义字串挖掘,进而进行文本舆情分析,以便及时动态了解网络群体的情感方向以及社会舆情热点。  相似文献   

4.
针对分类短文本时卷积神经网络(CNN)只提取局部特征和长短时记忆网络(LSTM)学习计算量大、处理时间长且随着短文本文字量增加与上下文的联系会减弱的问题,给出了基于CNN-LSTM混合模型算法.该算法融合CNN对短文本的特征提取能力,降低了文本数据量;利用LSTM的记忆能力,充分学习短文本的全局特征,进而对短文本进行更加有效地分类.实验结果表明,CNN-LSTM混合模型对短文本的分类效果远远好于CNN模型和LSTM模型.  相似文献   

5.
一种基于动态词典和三支决策的情感分析方法   总被引:1,自引:1,他引:0  
提出了一种新的特征提取方式,与三支决策思想相结合,运用在文本情感分析中,以提高分类器的效率。根据训练集合创建动态情感词典,然后根据情感词典提取文本的抽象特征,形成特征矩阵。在分类过程中,如果分类器对于目标文本的所属分类确信程度不够高,那么分类器会利用三支决策的思想,将文本置于边界域中,等待别的处理方法。实验结果表明,在英文影评数据集上,基于动态词典的特征提取方法可以取得更好的分类准确率,而且三支决策规则可将一些样例放入边界域,提高了分类准确率。  相似文献   

6.
基于知识语义权重特征的朴素贝叶斯情感分类算法   总被引:1,自引:0,他引:1  
针对文档级情感分类的准确率低于普通文本分类的问题,提出一种基于知识语义权重特征的朴素贝叶斯情感分类算法.首先,通过特征选择的方法,对情感词典中的词进行重要度评分并赋予不同权重.然后,基于词典极性的分布信息与文档情感分类的相关性,将情感词的语义权重特征融合到朴素贝叶斯分类中,实现了新算法.在标准中文数据集上的实验结果表明,提出的算法在准确率、召回率和F1测度值上都优于已有的一些算法.  相似文献   

7.
大量涌现的电商产品评论对企业制定商业决策十分有利, BERT 应用在英语文本情感分析中取得了不错的效果。针对中文电商产品文本评论提出了一个新的融合Stacking 集成思想和深度学习算法模型。首先在文本信息特征提取层使用Chinese-BERT-wwm 生成含有丰富语义信息的动态句子表征向量, Chinese-BERT-wwm 是专门针对中文特点改进后的预训练模型, 具有稳健的中文文本特征信息提取能力, 其次该层同时设计了TextCNN 和BiLSTM捕获文本中局部关键信息特征与语序信息特征, 并将这些特征拼接在一起以获得更全面丰富的句子信息, 最后基于Stacking 集成学习思想使用SVM 对该特征进行分类。为了评估模型效果, 人工标注3 万条具有三类情感极性的中文电商产品文本数据进行实验, 该数据集可广泛用于中文情感分析领域。实验结果表明, 与基线模型相比, 提出的模型可以有效提高中文文本情感极性分类任务的准确率。  相似文献   

8.
针对用户评论文本情感分类过程中缺乏特征词语义分析和数据维度过高的问题,提出了一种基于语义分析的在线评论情感分类方法。利用Word2Vec工具获得词向量,通过词向量运算获取评论文本中的词与情感词典中的词之间的语义相似度,然后根据此相似度的大小选择反映正面或负面情感的词作为评论文本的关键特征。通过非负矩阵分解算法,将原始评论文本映射到一个低维的语义空间,降低评论数据维度,增强评论文本之间的语义相关度。实验表明,提出的算法具有更好的文本情感分类能力。  相似文献   

9.
基于改进的kNN算法的中文网页自动分类方法研究   总被引:6,自引:0,他引:6  
概述了中文网页分类的一般过程,重点论述了在分类过程中特征词提取、训练库建立和文本分类算法等关键问题,针对向量空间模型的文本特征表示方法中特征词数量的多少与分类算法的效率有着密切关系的特点,提出了基于词性的特征词提取方法,并且在文本相似度计算时,融入传统的特征向量的比较方法来对kNN算法进行改进,提出了基于特征词减少的改进kNN算法,提高了分类算法的效率和性能.  相似文献   

10.
针对在大量高维样本集下KNN算法的分类计算开销大、效率低的问题,提出了一种基于TextRank和TF-IDF的文本分类算法。首先通过TextRank算法获得文本的候选关键特征,并选择权值较大的特征作为最后的文本关键分类特征,实现所有文本文档的维度缩减,最后采用基于TFIDF特征权值计算方法实现KNN分类。实验结果表明,此方法能够有效地减少文本特征,降低文本向量维度,提高分类效率和分类性能。  相似文献   

11.
基于本体语义的简单向量距离分类方法   总被引:1,自引:0,他引:1  
针对传统简单距离分类方法的特征选择未考虑到不同抽象层次上的词汇语义差异,提出了一种基于本体语义的简单向量距离分类方法,在本体库的支持下有效地将语言学知识融合到文本向量空间的表示中,进一步挖掘出特征项概念间的深层语义联系,用得到的语义特征向量作为最终的文本特征向量.同时定义了基于领域本体计算不同抽象层上的语义相似度,并将其应用到简单向量距离分类算法中.在数据集CWT20G上的实验表明:基于本体语义的简单距离分类算法对同义词、多义词、上下位词区分能力更强;并且分类准确率随着语义分析的深入逐步提高.  相似文献   

12.
针对受字数限定影响的文本特征表达能力弱成为短文本分类中制约效果的主要问题,提出基于word2vec维基百科词模型的中文短文本分类方法(chinese short text classification method based on embedding trained by word2vec from wikipedia, CSTC-EWW),并针对新浪爱问4个主题的短文本集进行相关试验。首先训练维基百科语料库并获取word2vec词模型,然后建立基于此模型的短文本特征,通过SVM、贝叶斯等经典分类器对短文本进行分类。试验结果表明:本研究提出的方法可以有效进行短文本分类,最好情况下的F-度量值可达到81.8%;和词袋(bag-of-words, BOW)模型结合词频-逆文件频率(term frequency-inverse document frequency, TF-IDF)加权表达特征的短文本分类方法以及同样引入外来维基百科语料扩充特征的短文本分类方法相比,本研究分类效果更好,最好情况下的F-度量提高45.2%。  相似文献   

13.
针对短文本分类问题,提出基于伪相关反馈(PFR)的短文本扩展与分类方法.在保持语义不变的情况下,利用互联网中的相似语料对短文本的内容进行了扩展.对现有的仅使用局部特征的扩展语料特征抽取方法进行改进,引入全局特征抽取,将全局特征与局部特征相结合得到了更好的特征向量,有效地解决了分类过程中由短文本长度有限导致的特征矩阵高度稀疏的问题.通过在开放数据集上的测试和与其他文献的结果比对,验证了该方法在短文本分类的问题上可以取得较好的效果.  相似文献   

14.
基于特征选择技术的情感词权重计算   总被引:2,自引:0,他引:2  
在文本情感分析中,情感词典的构建至关重要,然而目前这方面的研究大多集中在简单的词语极性判别上,有关情感词的权重赋值研究较少,且已有的权重赋值方法基本上都需要人工辅助来选取基准词,这给实际应用带来很大的困难. 针对此问题,提出了一种自动的基于特征选择技术的情感词权重计算方法. 首先提出了词语情感权重与文本情感倾向的相关假设;然后针对情感分类,结合二元分类的特性改进了信息增益( information gain, IG)和卡方统计量( chi-square,CHI) ,将特征选择技术应用于情感词权重计算. 实验结果表明:将计算所得的带情感权重的情感词库用于文本情感分类能够提升分类精度.  相似文献   

15.
当前维吾尔语情感语音合成采用韵律边界预测方法来实现情感语音转换。通过该方法合成出来的语音,虽然可表现出相应的情感,然而其情感表现力不够理想。针对此问题,该文提出一种基于BiRNN的维吾尔语情感韵律短语注意力模型。在情感韵律转换前使用该模型进行情感分类,并将其分类结果作为韵律边界预测的输入,改进了情感韵律转换方法。使用改进的词性特征向量和韵律短语向量作为词向量的补充,从而有效提升维吾尔文文本情感分类的准确率。实验结果表明,该模型由两个单词构成的韵律短语作为特征时,准确率在维吾尔五分类情感数据集上达到了很好的分类效果。  相似文献   

16.
针对短文本在情感极性判断上准确率不高的缺点,在隐含狄利克雷分配(latent Dirichlet allocation, LDA)的基础上提出一种适用于短文本的情感分析模型。该模型在短文本中按词性寻找情感词汇,并对其进行有约束的词语扩充形成扩充集合,增强情感词汇之间的共现频率。将扩充集合加入文本中已发现的情感词汇,使得短文本长度增加并且模型可以提取到情感信息,模型通过这种方法将主题聚类变成情感主题聚类。该模型使用4 000条带有正负情感极性的短文本进行验证,结果表明该模型准确率比情感主题联合模型提高约11%,比隐含情感模型提高约9.5%,同时可以发现更多的情感词汇,证明该模型对于短文本能够提取更丰富的情感特征并在情感极性分类上准确率较高。  相似文献   

17.
服务聚类能够极大的提升服务发现的能力。但是,现有服务聚类方法缺乏针对服务描述文件语义稀疏情境下的研究。针对该问题,本文首次将迁移学习技术应用到服务聚类领域以尝试解决服务聚类过程中语义稀疏的问题。通过使用一种对偶PLSA模型来融合目标领域和辅助领域语料知识,利用无监督的方式迁移知识以促进语义稀疏领域的服务聚类过程。实验结果表明,该方法能够提高针对语义稀疏情景下服务的聚类效果。与K-Means等方法相比,该方法在聚类纯度、熵指标上均具有更好的效果。  相似文献   

18.
为解决电力信息通信客服系统在故障研判时存在故障分类准确率低甚至误分的问题,提出基于层次化类别嵌入的文本分类方法,进行电力信息通信系统故障识别.首先,基于电力信息通信系统故障的用户保修工单文本数据构建电力信息通信系统层次化电力故障标签;其次,提出了基于层次化深层金字塔卷积神经网络和基于层次化中断循环神经网络2种层次化文本分类方法,采用层次化类别嵌入方法逐层进行故障类型分类.实验结果表明,基于层次化深层金字塔卷积神经网络的方法效果最优,可以提供高效、准确的故障识别服务.  相似文献   

19.
Many text classifications depend on statistical term measures to implement document representation. Such document representations ignore the lexical semantic contents of terms and the distilled mutual information, leading to text classification errors.This work proposed a document representation method, Word Net-based lexical semantic VSM, to solve the problem. Using Word Net,this method constructed a data structure of semantic-element information to characterize lexical semantic contents, and adjusted EM modeling to disambiguate word stems. Then, in the lexical-semantic space of corpus, lexical-semantic eigenvector of document representation was built by calculating the weight of each synset, and applied to a widely-recognized algorithm NWKNN. On text corpus Reuter-21578 and its adjusted version of lexical replacement, the experimental results show that the lexical-semantic eigenvector performs F1 measure and scales of dimension better than term-statistic eigenvector based on TF-IDF. Formation of document representation eigenvectors ensures the method a wide prospect of classification applications in text corpus analysis.  相似文献   

20.
用于评价的改进熵权TOPSIS法   总被引:8,自引:1,他引:7  
分析了传统统计分析方法用于评价问题的不足,并且运用熵值法对传统的 TOPSIS 计算公式进行了改进,针对电力营销服务工作首次提出了一种改进的熵权 TOPSIS 法。通过对内蒙古电力公司营销服务工作实例的分析评价,综合考虑了定性和定量因素,给出了分析结果,从理论和实例上说明了该方法的优点。该方法为电力企业的营销人员提供了一种实用性强、易于掌握的评价方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号