首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
传统串行贝叶斯算法在对大规模数据进行分类时,性能较低下.为此,在TFIDF(词频-逆向文件频率)特征加权基础上,提出ICF(逆类别因子)类别加权因子,对传统贝叶斯分类模型进行改进.利用MapReduce并行计算框架在处理海量数据方面的优势,设计并实现了一种对TFIDF改进的分布式朴素贝叶斯文本分类算法.实验结果表明,与传统分布式朴素贝叶斯算法和TFIDF加权的分布式朴素贝叶斯算法相比,改进后的分类算法在查准率、查全率、F-measure等方面都有了较大提高.  相似文献   

2.
文本分类是处理与组织文本数据的一项重要技术,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文建立的朴素贝叶斯分类器,是在已知类别的训练集的基础上,通过分析训练数据样本,产生关于类别的精确描述,用于对其它数据进行分类和预测。  相似文献   

3.
文本分类是处理与组织文本数据的一项重要技术,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文建立的朴素贝叶斯分类器,是在已知类别的训练集的基础上,通过分析训练数据样本,产生关于类别的精确描述,用于对其它数据进行分类和预测。  相似文献   

4.
针对传统贝叶斯分类算法无法满足复杂网络文本过滤需求,提出一种多词 贝叶斯分类算法(Multi Word-Bayes,MWB)。该算法一方面引入了特征权重(Term Frequency-Inverse Document Frequency,TF-IDF)的计算思想,优化了传统贝叶斯分类算法只考虑词频不考虑文本间关系的问题;另一方面将词与词间的关系作为文本分类的重要参考项,克服了传统贝叶斯分类算法在分类器训练上对语义分析的忽视。实验结果表明,MWB在垃圾文本过滤上具有更好的分类性能。  相似文献   

5.
互联网法律咨询平台为公众提供了便捷的咨询服务,公众在平台进行法律咨询后,平台精准地将咨询问题推送给相关律师进行解答.然而平台在推送前,需要先对咨询问题文本进行自动分类.针对法律咨询文本分类这一问题,从互联网法律咨询平台采集数据建立语料库,通过TF-IDF算法对经过预处理的文本进行特征提取,通过朴素贝叶斯分类算法进行分类.实验结果表明,在一定程度上能实现法律咨询文本的自动分类.  相似文献   

6.
该文主要探讨如何通过朴素贝叶斯算法对中文论坛中的文本信息进行自动分类,文中首先介绍了朴素贝叶斯算法的基本原理,并分析了该算法在文本分类中存在的不足之处,然后针对中文论坛的文本信息进行研究,结合中文论坛文本的特点对朴素贝叶斯算法提出了两点修正,给出了修正后的分类算法公式,最后介绍了如何借助Lucene开源框架、Berkeley DB数据库及IKAnalyzer分词器等工具对修正朴素贝叶斯算法进行技术实现。  相似文献   

7.
8.
朴素贝叶斯是一种用于不确定性推理的方法,其原理简单,但是适用性却很强。将朴素贝叶斯用在文本分类中。在传统的文本分类方法的基础上,对文本特征的选择做了改进,通过实验,达到了比较满意的效果。  相似文献   

9.
徐大伟  董渊  张素琴 《计算机科学》2008,35(11):144-146
文本分类是数据挖掘和机器学习中非常重要的研究领域,将文本分类技术应用于海洋信息处理已经成为海洋领域研究的一个重要问题。主要研究文本分类技术在海洋信息处理领域的应用,给出了文本分类系统的关键技术设计方案,详细介绍了一种改进的χ^2特征提取算法以及朴素贝叶斯分类算法,实验结果具有较好的准确率和查全率,满足我国“数字海洋”信息基础建设对信息处理应用的需求。  相似文献   

10.
如何对文本分类的结果进行可视化研究一直是模式识别中研究的重点。在假设文本类别在低维嵌入空间服从高斯分布的前提下,通过朴素贝叶斯分类算法得到数据类别属性的后验概率矩阵,然后运用参数嵌入算法在低维空间可视化文本分类结果。参数嵌入算法是使嵌入空间数据的类后验概率与高维空间的条件概率Kullback Leibler散度和最小化的算法,属于同一类的数据在低维空间中分布较为集中,性质相似的数据之间的距离较近,而不同性质的数据之间距离则较大。其优点在于计算复杂度是数据的类别和相应个数的乘积,非常适合于数据量大,类别数较少的数据分类可视化。20新闻组数据集和微型新闻组数据集的实验结果证明了该算法的有效性。  相似文献   

11.
一种新型朴素贝叶斯文本分类算法   总被引:1,自引:0,他引:1  
针对在文本分类中先验概率的计算比较费时而且对分类效果影响不大、后验概率的精度损失影响分类准确率的现象,对经典朴素贝叶斯分类算法进行了改进,提出了一种“先抑后扬”(抑制先验概率的作用,扩大后验概率的影响)的文本分类算法。算法中去掉了对先验概率的计算,并在后验概率的计算中引入了一个放大系数。实验结果表明,分类时不计算先验概率对分类精度影响甚微但可以明显加快分类的速度,在后验概率的计算中引入放大系数减少了误差传播的影响,提高了分类精度。  相似文献   

12.
Web文本挖掘系统及聚类分析算法   总被引:2,自引:0,他引:2  
朱克斌  唐菁  杨炳儒 《计算机工程》2004,30(13):138-139,183
给出了Web文本挖掘系统WTMS的系统总体结构图,开发并实现了基于SOM的Web文档层次聚类算法。同时结合现代远程教育背景实现了Web文本挖掘的原型系统。该系统可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘,从而帮助人们快速进行文本信息导航,获取重要的知识。  相似文献   

13.
文本分类是信息检索和文本挖掘的重要基础,朴素贝叶斯是一种简单而高效的分类算法,可以应用于文本分类.但是其属性独立性和属性重要性相等的假设并不符合客观实际,这也影响了它的分类效果.如何克服这种假设,进一步提高其分类效果是朴素贝叶斯文本分类算法的一个难题.根据文本分类的特点,基于文本互信息的相关理论,提出了基于互信息的特征项加权朴素贝叶斯文本分类方法,该方法使用互信息对不同类别中的特征项进行分别赋权,部分消除了假设对分类效果的影响.通过在UCIKDD数据集上的仿真实验,验证了该方法的有效性.  相似文献   

14.
基于树桩网络的贝叶斯文本分类算法   总被引:2,自引:0,他引:2  
杨延娇  王治和 《计算机工程》2009,35(16):201-202
分析贝叶斯文本分类算法的不足,提出相应的改进算法。放宽朴素贝叶斯文本分类模型中的属性独立性假设,采用一种改进的基于贝叶斯定理的文本分类模型“树桩网络”,改进朴素贝叶斯文本分类模型。实验证明,改进后的文本分类模型适合于文本分类的需要,改善了原有分类器的性能。  相似文献   

15.
在文本分类预处理过程中,运用贝叶斯方法构造计算文本关键词的条件概率模型,通过计算文本关键词的出现概率将文本映射为关键词的概率向量。在这个过程中贝叶斯方法用于计算条件概率而非分类。  相似文献   

16.
Web文本聚类算法的分析比较   总被引:2,自引:0,他引:2  
随着计算机网络的发展,各种文本资源以惊人的速度增长,导致信息搜寻困难和信息利用率低下。而快速高质量的Web文本聚类技术可以满足用户方便快捷地从互联网获得所需要的信息资源。文章对Web文本聚类如网页采集、去噪、分词、特征表示等关键技术进行研究,对常用的Web文本聚类算法进行了分析比较,所给出的分析比较结果对文本聚类算法的应用有现实意义。  相似文献   

17.
Web文本挖掘系统及其分类算法的研究与实现   总被引:9,自引:0,他引:9  
介绍了Web文本挖掘系统WTMS的系统总体结构图,实现了其核心算法——基于距离测度函数的分类算法。同时结合现代远程教育背景实现了Web文本挖掘的原型系统。该系统可以对各类远程教育站点上收集的文本资料信息自动进行分类挖掘,从而帮助人们快速进行文本信息导航,获取重要的知识。  相似文献   

18.
朴素贝叶斯(NB)算法应用于文本分类时具有简单性和高效性,但算法中属性独立性与重要性一致的假设,使其在精确度方面存在瓶颈.针对该问题,提出一种基于泊松分布的特征加权NB文本分类算法.结合泊松分布模型和NB算法,将泊松随机变量引入特征词权重,在此基础上定义信息增益率对文本特征词加权,削弱传统算法属性独立性假设造成的影响.在20-newsgroups数据集上的实验结果表明,与传统NB算法及其改进算法RwC-MNB和CFSNB相比,该算法可使文本分类的准确率、召回率和F1值得到提升,并且执行效率高于K-最近邻算法和支持向量机算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号