首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
互联网法律咨询平台为公众提供了便捷的咨询服务,公众在平台进行法律咨询后,平台精准地将咨询问题推送给相关律师进行解答.然而平台在推送前,需要先对咨询问题文本进行自动分类.针对法律咨询文本分类这一问题,从互联网法律咨询平台采集数据建立语料库,通过TF-IDF算法对经过预处理的文本进行特征提取,通过朴素贝叶斯分类算法进行分类.实验结果表明,在一定程度上能实现法律咨询文本的自动分类.  相似文献   

2.
设计一个有效地基于朴素贝叶斯的中文海事文本多分类器。在文本分类的预处理步骤中,在中文分词上选取领域词典和停用词典有效地降低特征维数、选取IG特征提取方法、改进的TF-IDF公式中特征词权重的计算方法,以建立词频矩阵等,最后用选取的海事样本数据进行训练建立分类库。实验数据表明,本文的基于朴素贝叶斯的中文海事文本多分类器具有很好的高效性和准确性。  相似文献   

3.
云计算的诞生,有效地解决了海量数据集的存储和分析处理。在云计算实现的开源Hadoop分布式系统集群上,使用MapReduce并行编程模型,设计并实现了一种对TFIDF改进的分布式朴素贝叶斯文本分类算法。实验结果表明,基于Hadoop框架的分布式朴素贝叶斯文本自动分类器不仅能处理节点失效,同时具有高效性和易扩展性的优势。  相似文献   

4.
面对海量的文本信息,有效的存储与管理、快速和准确的分类从而提取有用信息成为了当前的一个研究方向.文本挖掘和信息检索的重要基础是自动化文本分类技术,朴素贝叶斯分类器是机器学习在文本自动化分类领域重要的一种分类器.朴素贝叶斯分类快速而精确,只需扫描一次数据集,具有较强的抗干扰能力.介绍了自动化文本分类的相关背景,论述了自动...  相似文献   

5.
基于朴素贝叶斯分类器邮件分类系统的改进   总被引:1,自引:0,他引:1  
目前朴素贝叶斯分类方法在电子邮件分类起到了良好的效果,但是并不能100%区分垃圾邮件与非垃圾邮件,然而在商业应用中,我们不能遗漏任何一封重要邮件。本文先简单介绍Bayes方法,然后提出一种对目前的Bayes分类方法的改进思想和方法。  相似文献   

6.
朴素贝叶斯分类器具有很高的学习和分类效率,但不能充分利用属性变量之间的依赖信息.贝叶斯网络分类器具有很强的分类能力,但分类器学习比较复杂.本文建立广义朴素贝叶斯分类器,它具有灵活的分类能力选择方式、效率选择方式及学习方式,能够弥补朴素贝叶斯分类器和贝叶斯网络分类器的不足,并继承它们的优点.  相似文献   

7.
文本分类是处理与组织文本数据的一项重要技术,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文建立的朴素贝叶斯分类器,是在已知类别的训练集的基础上,通过分析训练数据样本,产生关于类别的精确描述,用于对其它数据进行分类和预测。  相似文献   

8.
朴素贝叶斯是一种用于不确定性推理的方法,其原理简单,但是适用性却很强。将朴素贝叶斯用在文本分类中。在传统的文本分类方法的基础上,对文本特征的选择做了改进,通过实验,达到了比较满意的效果。  相似文献   

9.
文本分类技术作为信息检索和文本挖掘的重要基础,近年来得到广泛的关注和快速发展。而互联网上文本数据呈指数级的增长为文本分类带来了新的挑战。针对海量文本分类问题进行了研究,基于分布式计算框架MapReduce平台,实现了一种简单、有效的文本分类算法——平均多项朴素贝叶斯分类方法。实验中该方法分类准确率高于一般朴素贝叶斯方法,且具有较好的加速比。实验结果表明:由于减小了文本冗余特征信息的影响与并行计算良好的扩展性,该方法更适于海量文本数据分类。  相似文献   

10.
文本分类是处理与组织文本数据的一项重要技术,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文建立的朴素贝叶斯分类器,是在已知类别的训练集的基础上,通过分析训练数据样本,产生关于类别的精确描述,用于对其它数据进行分类和预测。  相似文献   

11.
刘佳  贾彩燕 《计算机工程》2010,36(16):36-38
介绍一种树状朴素贝叶斯(TAN)文本分类模型,对该模型存在的阈值选取问题进行实验分析,提出不需要进行阈值选取的TAN文本自动分类框架(ATAN)。在中英文非均匀类分布测试集上对基于ATAN的2种算法与手动选取阈值达到最优性能的BL-TAN进行对比,结果表明基于ATAN的算法具有更高性能。  相似文献   

12.
Naive Bayesian分类器是一种有效的文本分类方法,但由于具有较强的稳定性,很难通过Boosting机制提高其性能。因此用Naive Bayesian分类器作为Boosting的基分类器需要解决的最大问题,就是如何破坏Naive Bayesian分类器的稳定性。提出了3种破坏Naive Bayesian学习器稳定性的方法。第一种方法改变训练集样本,第二种方法采用随机属性选择社团,第三种方法是在Boosting的每次迭代中利用不同的文本特征提取方法建立不同的特征词集。实验表明,这几种方法各有其优缺点,但都比原有方法准确、高效。  相似文献   

13.
支持向量机在文本分类中的应用   总被引:1,自引:0,他引:1  
文中提出了基于朴素贝叶斯的支持向量机的分类方法,首先采用文本预处理,再根据文本的特征进行特征降维,然后用基于朴素贝叶斯的算法对支持向量机进行训练后,再对新的文本进行分类。实验表明,该方法比传统的SVM算法具有较高的准确率。  相似文献   

14.
Bayes文本分类器的改进方法研究   总被引:4,自引:2,他引:4  
鲁明羽 《计算机工程》2006,32(17):63-65
在文本分类领域,Bayes分类器是一种常用且效果较好的、基于概率的分类器,具有较严密的理论基础。该文对朴素Bayes文本分类器进行了分析,提出了利用权值调整机制改善其分类性能的方法,以及在缺乏大量训练文本的情况下,利用EM算法进行非监督Bayes分类的方法,并讨论了如何运用启发式方法确定Bayes网络结构,在更贴近真实环境的情况下进行文本分类。  相似文献   

15.
在文本分类研究中,集成学习是一种提高分类器性能的有效方法.Bagging算法是目前流行的一种集成学习算法.针对Bagging算法弱分类器具有相同权重问题,提出一种改进的Bagging算法.该方法通过对弱分类器分类结果进行可信度计算得到投票权重,应用于Attribute Bagging算法设计了一个中文文本自动分类器.采用kNN作为弱分类器基本模型对Sogou实验室提供的新闻集进行分类.实验表明该算法比Attribute Bagging有更好的分类精度.  相似文献   

16.
朴素贝叶斯分类器是一种简单且有效实现的文本自动类方法,但其独立性假设在实际中是不存在的。在TAN结构贝叶斯分类算法中,考虑了两两属性间的关联性,对属性间的独立性假设有了一定程度的降低。  相似文献   

17.
本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数的选取,讨论了分类系统的若干重要问题,研究了训练集的规模和质量对分类系统的影响。根据863计划文本分类测评组所提供的测试标准、训练集以及测试集对本文所设计的分类系统进行测试,实验结果表明该分类系统有良好的分类效果。  相似文献   

18.
在侧信道分析的基础上,针对芯片中存在的硬件木马,提出一种基于朴素贝叶斯分类器的硬件木马检测,该方法能够利用训练样本集构建分类器,分类器形成后便可将采集到的待测芯片功耗信息准确分类,从而实现硬件木马检测。实验结果表明,对于占电路资源1.49%和2.39%的两种木马,贝叶斯分类器的误判率仅为2.17%,验证了该方法的有效性和适用性。此外,在与欧氏距离判别法比较时,基于朴素贝叶斯分类器的方法表现出了更高的判别准确率,同时也具有从混杂芯片中识别出木马芯片与标准芯片的能力,这又是马氏距离判别法所不具备的。  相似文献   

19.
为了进一步提高文本分类的准确率,文中介绍了一种新的用于文本分类的概率分类器。该分类器首先通过自然语言处理技术对文本进行预处理,然后从训练集中读取文本信息从而产生正、负规则,并计算正负权重系数,最后计算正、负概率。文中给出了计算正负权重系数的算法,并根据计算出来的权重系数及正、负概率值对文本进行分类。将文中提出的概率分类器与SVM分类器进行对比实验,实验结果表明,文中设计的概率分类器对于文本分类效果较好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号