首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
为了解决现有电力造价异常数据检测算法无法识别清单详情及清单与施工细节不符的问题,提出了一种基于规则匹配的电力造价异常数据辨识算法.利用K-means聚类算法实现了清单的初步分类和特征清单的提取,将特征清单的特征词作为清单类别特征.采用规则库对清单详情进行分词,并提取清单特征词,采用多项式贝叶斯算法计算出清单位于当前类别的概率.实验结果表明,所提出算法较传统异常数据检测算法的准确率提高了约10%.  相似文献   

2.
针对网络环境不稳定导致Web服务质量(QoS)数据中存在噪声数据,进而降低Web服务质量预测精度的问题,提出一种基于贝叶斯分类的混合协同过滤Web服务质量值预测方法.该方法使用贝叶斯算法对Web服务质量数据进行分类并得到每个分类的概率,利用分类结果确定缺失值可能的取值范围,并对用户和服务的相似邻居进行过滤.通过引入分类概率,改进传统的协同过滤方法得到最终的缺失值预测结果,在一定程度上消除了噪声数据对Web服务质量预测的影响.实验结果表明:较之现有方法,该方法具有更好的预测精度.  相似文献   

3.
针对短信分类问题,提出了分类能量空间的概念,将特征词转换为分类能量空间上的一个能量元,以此为基础计算短信的能量特征向量.通过计算短信能量特征向量的领域密度,结合贝叶斯公式输出了短信在不同分类的分类概率.在分类过程中,还对分类概率差别较小的短信采用支持向量机进行了二次分类以提高分类效果.实验结果表明,该分类器模型具有良好的分类效果.  相似文献   

4.
针对文本分类中传统的T FIDF特征提取算法的缺陷,引入信息熵与词长信息改进T FIDF算法.传统的T FIDF算法中忽略了词长信息,词长不同能够表达的信息也不同,同时还忽略了文本中特征词的分布特征.改进的T FIDF算法中加入了表达词长信息的因子并且引入词条信息熵来反映特征词在文本中的分布特征,实验比较了其与T FI...  相似文献   

5.
为了解决传统串行朴素贝叶斯算法分类性能低下的问题,提出一种基于朴素贝叶斯算法的并行化分类方法。选取多项式朴素贝叶斯,搭建Hadoop集群,通过卡方检验选取特征词,利用词频-逆文本频率指数方法计算出每个特征项的权值,并求出每类的权重总和,将权值应用到朴素贝叶斯公式中得到分类结果。实验结果表明:在该集群上设计的并行化朴素贝叶斯分类方法较比传统朴素贝叶斯方法,其精确率,召回率,F1值分别至少提高了7.66%,7.56%,11.98%,且用时更短,说明本文的方法能够提高处理文本的时间效率。  相似文献   

6.
基于知识语义权重特征的朴素贝叶斯情感分类算法   总被引:1,自引:0,他引:1  
针对文档级情感分类的准确率低于普通文本分类的问题,提出一种基于知识语义权重特征的朴素贝叶斯情感分类算法.首先,通过特征选择的方法,对情感词典中的词进行重要度评分并赋予不同权重.然后,基于词典极性的分布信息与文档情感分类的相关性,将情感词的语义权重特征融合到朴素贝叶斯分类中,实现了新算法.在标准中文数据集上的实验结果表明,提出的算法在准确率、召回率和F1测度值上都优于已有的一些算法.  相似文献   

7.
贝叶斯网络是一种描述变量间不确定性因果关系的概率图模型,广泛应用于预测、推理、诊断、决策风险及可靠性分析等领域.结构学习作为构建贝叶斯网络的基础,被证实为非确定多项式难题.文中将贝叶斯网络结构学习按照数据量大小分为完备数据和缺失数据,将完备数据下的贝叶斯网络结构学习分为近似学习算法和精确学习算法.根据上述分类方法,对现...  相似文献   

8.
针对文本训练集中各个类别的样本分布不均衡时,少数类别的特征会被多数类别的特征淹没的问题,提出一种属性加权补集的朴素贝叶斯文本分类算法,该算法使用属性加权改进补集朴素贝叶斯算法,使用TF-IDF算法计算特征词在当前文档中的权重;利用当前类别补集的特征表示当前类别的特征并结合特征词在文档中的权重,解决分类器容易倾向大类别而忽略小类别的问题。与传统的朴素贝叶斯及补集朴素贝叶斯算法进行对比实验,结果表明:在样本集分布不均衡时,改进算法的性能表现最优,分类准确率、召回率及G-mean性能分别可达82.92%、84.6%、88.76%。  相似文献   

9.
以传统朴素贝叶斯算法为基础,研究并提出一种高效、准确的量子模糊贝叶斯分类算法。首先将“模糊集合理论+朴素贝叶斯理论”交叉融合,定义模糊先验概率、模糊条件概率,将朴素贝叶斯推广至模糊朴素贝叶斯,构建模糊贝叶斯模型;其次,将“模糊贝叶斯模型+量子计算”交叉融合,将模糊数据集量子化(编码到量子态上)并设计量子线路,提出一种量子模糊朴素贝叶斯分类算法;最后,将该算法应用到鸢尾花数据集。仿真实验表明,与传统朴素贝叶斯分类算法相比,该算法具有较高的分类效率和准确率。  相似文献   

10.
对于极化合成孔径雷达(SAR)图像,由于雷达角度和地物形状导致属于同一类的数据可能存在较大的差异性.针对此问题提出了一种基于贝叶斯集成框架的极化SAR图像分类方法.该算法采用贝叶斯集成,通过学习不同个体而获得的分类面来改善极化SAR图像分类性能.首先,输入极化SAR图像,并获得其对应的极化SAR数据及特征.从图像的每一类中任意选择像素点作为图像分类的原始训练样本,并对其进行随机划分获得不同的样本子集.然后,基于获得的样本子集构造对应极化SAR图像的贝叶斯集成框架.最后,通过构造的贝叶斯集成框架对极化SAR图像进行分类.特别在构造贝叶斯集成框架中采用支撑矢量机作为基本的分类器算法.实验结果表明,所提出的算法相比经典的极化SAR分类方法和单个SVM的极化SAR分类方法获得更好的分类性能.  相似文献   

11.
针对受字数限定影响的文本特征表达能力弱成为短文本分类中制约效果的主要问题,提出基于word2vec维基百科词模型的中文短文本分类方法(chinese short text classification method based on embedding trained by word2vec from wikipedia, CSTC-EWW),并针对新浪爱问4个主题的短文本集进行相关试验。首先训练维基百科语料库并获取word2vec词模型,然后建立基于此模型的短文本特征,通过SVM、贝叶斯等经典分类器对短文本进行分类。试验结果表明:本研究提出的方法可以有效进行短文本分类,最好情况下的F-度量值可达到81.8%;和词袋(bag-of-words, BOW)模型结合词频-逆文件频率(term frequency-inverse document frequency, TF-IDF)加权表达特征的短文本分类方法以及同样引入外来维基百科语料扩充特征的短文本分类方法相比,本研究分类效果更好,最好情况下的F-度量提高45.2%。  相似文献   

12.
在已有上机实验数据的基础上,使用综合的权值计算方法,将加权朴素贝叶斯分类算法应用到学生成绩分析与预测中.实验结果显示,对于学生的成绩分类,使用综合权值的结果优于传统权值的分类结果,表明使用文中的加权贝叶斯方法分析学生成绩是切实可行的.  相似文献   

13.
针对不确定性数据的分类问题,提出一种基于直方图估计的不确定性朴素贝叶斯分类器(HU-NBC).基于直方图估计的思想,建立估计不确定性数据概率密度函数的数学模型,并利用该模型估计不确定性朴素贝叶斯分类器的类条件概率密度函数.实验结果表明,与同类型算法相比,基于直方图估计的HU-NBC算法拥有较优的分类精度、较小的时间代价和空间需求,适合解决数据量较大的不确定性数据分类问题.  相似文献   

14.
摘要:为提高处理文本相似度的效果,提出了一种基于相对熵度量文本差异的KNN算法.该算法首先对文本进行预处理(分字与删去停用字)和构建特征字字典; 然后计算训练集中所有文本特征字的概率,并组成训练集(特征字概率矩阵); 最后计算预测文本的特征字概率向量,并通过计算和统计K个预测文本与训练集文本间相对熵最小的文本类别个数后将数目最多的类别作为测试样本的类别.实验结果表明,该算法的分类效果不仅显著优于传统KNN、SVM、Decision Tree、朴素Bayes算法的分类效果,且在小样本数据情况下  相似文献   

15.
自动分类是数据挖掘和机器学习中非常重要的研究领域.针对难以获得大量有类标签的训练集问题,提出了基于小规模训练集的增量式贝叶斯分类,给出增量式贝叶斯分类机理参数计算及其算法.对算法分两种情况处理:第一种情况是新增样本有类别标签,则利用现有分类器检验其类标签,如果匹配则保留当前分类器,否则利用新样本修正分类器;第二种情况是新增样本无类别标签,则利用现有分类器为其训练类标签,然后利用新样本来修正分类器.实验结果表明,该算法是可行有效的,比简单贝叶斯分类算法有更高的精度.增量式贝叶斯分类算法的提出为分类器的更新提供了一条新途径.  相似文献   

16.
针对传统的向量空间模型及一元语法模型表示话题的文本特征时忽略词语之间语序关系的问题,提出一种基于N-Gram语言模型的并行自适应新闻话题追踪算法。使用N-Gram语言模型,利用新闻报道中词语间的语序关系进行文本表示,根据贝叶斯分类算法进行话题追踪,利用最小特征平均可信度阈值更新策略,采用测试新闻报道更新训练集,完善话题模型,并在MapReduce分布式计算模型上予以实现。试验表明,该算法不仅有效地提高了话题追踪效果,而且具有良好的并行加速比和可扩展性。  相似文献   

17.
针对自然语言在语句结构上有着较强的前后依赖关系,提出一种基于BERT的复合网络模型进行中文新闻分类。首先利用BERT的基于注意力机制的多层双向transformer特征提取器获得字词以及句子之间更加全局的特征关系表达。然后将所得数据输入门结构更加简单的双向门控循环神经网络层将特征增强的同时减少时间代价,加强数据特征的选取精确度。最后将不同权重的文本特征信息输入softmax函数层进行新闻分类。通过在cnews新浪新闻数据集上进行实验,获得97.21%的F1值,结果表明所提特征融合模型较其他模型分类效果更好。  相似文献   

18.
基于CNN特征空间的微博多标签情感分类   总被引:1,自引:0,他引:1  
面对微博情感评测任务中的多标签分类问题时,基于向量空间模型的传统文本特征表示方法难以提供有效的语义特征。词向量表示能体现词语的语法和语义关系,并依据语义合成原理构建句子的特征表示。本文提出一个针对微博句子的多标签情感分类系统,采用经过有监督情感分类学习后的卷积神经网络(Convolution Neural Network, CNN)模型,将词向量合成为微博句子的向量表示,使得此CNN特征空间中的句子向量具有很好的情感语义区分度。在2013年NLPCC(Natural Language Processing and Chinese Computing)会议的微博情感评测公开数据集上,相比最优评测结果的宽松指标和严格指标,本系统的最佳分类性能分别提升了19.16%和17.75%;相比目前已知文献中的最佳分类性能,则分别提升了3.66%和2.89%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号