共查询到20条相似文献,搜索用时 0 毫秒
1.
2.
根据RoughSet属性重要度理论,构建了基于互信息的属性子集重要度,提出属性相关性的加权朴素贝叶斯分类算法,该算法同时放宽了朴素贝叶斯算法属性独立性、属性重要性相同的假设。通过在UCI部分数据集上进行仿真实验,与基于属性相关性分析的贝叶斯(CB)和加权朴素贝叶斯(WNB)两种算法做比较,证明了该算法的有效性。 相似文献
3.
基于朴素贝叶斯分类器邮件分类系统的改进 总被引:1,自引:0,他引:1
目前朴素贝叶斯分类方法在电子邮件分类起到了良好的效果,但是并不能100%区分垃圾邮件与非垃圾邮件,然而在商业应用中,我们不能遗漏任何一封重要邮件。本文先简单介绍Bayes方法,然后提出一种对目前的Bayes分类方法的改进思想和方法。 相似文献
4.
针对KNN算法在中文文本分类时的两个不足:训练样本分布不均,分类时计算开销大的问题,在已有改进算法的基础上进行了更深入的研究,提出多级分类KNN算法。算法首先引入基于密度的思想对训练样本进行调整,通过样本裁减技术使样本分布更趋于理想的均匀状态,同时计算各类别的类中心向量。在保证类中心向量准确性的前提条件下,使分类阶段的复杂计算提前到分类器的训练过程中。最后一级选用合适的m值(预选类别个数),根据最近邻思想对待分类文本进行所属类别判定。实验结果表明,该算法在不损失分类精度的情况下,不仅降低了计算复杂度,而且显著提高了分类速度。 相似文献
5.
在自治网络中对其所拥有的服务资源,依靠改进朴素贝叶斯分类算法,并且结合中国图书馆分类法进行分类,从而有效地提高基于不同用户兴趣的分类准确率。实验结果表明,与传统的朴素贝叶斯算法相比,该方法具有更好的性能。 相似文献
6.
Due to being fast, easy to implement and relatively effective, some state-of-the-art naive Bayes text classifiers with the strong assumption of conditional independence among attributes, such as multinomial naive Bayes, complement naive Bayes and the one-versus-all-but-one model, have received a great deal of attention from researchers in the domain of text classification. In this article, we revisit these naive Bayes text classifiers and empirically compare their classification performance on a large number of widely used text classification benchmark datasets. Then, we propose a locally weighted learning approach to these naive Bayes text classifiers. We call our new approach locally weighted naive Bayes text classifiers (LWNBTC). LWNBTC weakens the attribute conditional independence assumption made by these naive Bayes text classifiers by applying the locally weighted learning approach. The experimental results show that our locally weighted versions significantly outperform these state-of-the-art naive Bayes text classifiers in terms of classification accuracy. 相似文献
7.
基于频谱能量的指纹分类 总被引:1,自引:0,他引:1
指纹分类是自动指纹识别系统中的关键技术,但目前的算法对低质量的指纹图像的分类还存在较大的误差.为了能够对低质量的指纹图像进行准确分类,提出了一种基于频谱能量的指纹分类,首先对分块的指纹图像进行傅立叶变换,然后根据频谱图中能量的分布特点得到指纹图像的方向图,提取core点周围的指纹图像的方向向量作为该指纹图像的特征向量.最后使用K近邻分类器和最小距离分类器对输入指纹进行分类.在NIST-4指纹数据库上的实验结果表明了算法的有效性,分类正确率达到94.1%,且算法速度比同类算法有较大的提高. 相似文献
8.
针对现有大数据分类方法难以满足大数据应用中时间和储存空间的限制,提出了一种基于Apache Spark框架的大数据并行多标签K最近邻分类器设计方法。为了通过使用其他内存操作来减轻现有MapReduce方案的成本消耗,首先,结合Apache Spark框架的并行机制将训练集划分成若干分区;然后在Map阶段找到待预测样本每个分区的K近邻,进一步在reduce阶段根据map阶段的结果确定最终的K近邻;最后并行地对近邻的标签集合进行聚合,通过最大化后验概率输出待预测样本的目标标签集合。在PokerHand等四个大数据分类数据集上进行实验,提出方法取得了较低的汉明损失,证明了其有效性。 相似文献
9.
传统朴素贝叶分类算法没有根据特征项的不同对其重要程度进行划分,使得分类结果不准确。针对这一问题,引入Jensen-Shannon(JS)散度,用JS散度来表示特征项所能提供的信息量,并针对JS散度存在的不足,从类别内与类别间的词频、文本频以及用变异系数修正过的逆类别频率这三个方面考虑,对JS散度进行调整修正,最后计算出每一特征项的权值,将权值带入到朴素贝叶斯的公式中。通过与其他算法的对比实验证明,基于JS散度并从词、文本、类别三方面改进后的朴素贝叶斯算法的分类效果最好。因此基于JS散度特征加权的朴素贝叶斯分类算法与其他分类算法相比,其分类性能有很大提高。 相似文献
10.
基于小样本集弱学习规则的KNN分类算法* 总被引:2,自引:0,他引:2
KNN及其改进算法使用类标号已知的数据集 对类标号未知的数据集 进行类别标识,如果 中的数据数量过少,将会影响最后的分类精度。基于小样本弱学习规则的KNN分类算法旨在提高基于小样本集的KNN算法的分类精度,它首先对 中的数据对象进行学习,从中选取一些数据,利用学到的标签知识对其进行类别标号,然后将其加入到 中,最后利用扩展后的 对 中的数据对象进行类别标识。通过使用标准数据集的测试发现该算法能够提高KNN的分类精度,取得了较满意的结果。 相似文献
11.
Email spam has become a major problem for Internet users and providers. One major obstacle to its eradication is that the potential solutions need to ensure a very low false‐positive rate, which tends to be difficult in practice. We address the problem of low‐FPR classification in the context of naive Bayes, which represents one of the most popular machine learning models applied in the spam filtering domain. Drawing from the recent extensions, we propose a new term weight aggregation function, which leads to markedly better results than the standard alternatives. We identify short instances as ones with disproportionally poor performance and counter this behavior with a collaborative filtering‐based feature augmentation. Finally, we propose a tree‐based classifier cascade for which decision thresholds of the leaf nodes are jointly optimized for the best overall performance. These improvements, both individually and in aggregate, lead to substantially better detection rate of precision when compared with some of the best variants of naive Bayes proposed to date. Copyright © 2009 John Wiley & Sons, Ltd. 相似文献
12.
为了获得高效的超文本分类算法,提出了一种新的协调分类超文本算法,并将k-NN,Bayes和文档相似性引入了超文本分类领域,且这对3种分类器的超的分类效果进行了实验比较,最终得出一个高效的超文本分类器,目前,该方法已应用于新开发的两个实验系统;智能搜索引擎系统WebSearch和智能软件助理WebSoft。 相似文献
13.
For classifying multispectral satellite images, a multilayer perceptron (MLP) is trained using either (i) ground truth data or (ii) the output of a K-means clustering program or (iii) both, as applied to certain representative parts of the given data set. In the second case, different sets of clustered image outputs, which have been checked against actual ground truth data wherever available, are used for testing the MLP. The cover classes are, typically, different types of (a) vegetation (including forests and agriculture); (b) soil (including mountains, highways and rocky terrain); and (c) water bodies (including lakes). Since the extent of ground truth may not be sufficient for training neural networks, the proposed procedure (of using clustered output images) is believed to be novel and advantageous. Moreover, it is found that the MLP offers an accuracy of more than 99% when applied to the multispectral satellite images in our library. As importantly, comparison with some recent results shows that the proposed application of the MLP leads to a more accurate and faster classification of multispectral image data. 相似文献
14.
针对众包数据处理中的质量控制问题,提出了一种加权K近邻投票分类方法。该方法不单单只是考虑了某个样例的标记来返回一个答案,而是通过综合考虑样例的近邻来得到更加准确的答案。同时对样例的近邻加以适当的权重来进一步提高算法的性能,并保持了传统多数投票分类的简单性。K近邻投票分类算法可以有效地解决缺乏标记的情况,通过对近邻加以权重可以解决不平衡标记造成的影响,从而使算法的泛化性更强。通过各种场景下的实验,结果表明加权K近邻投票分类方法取得了很好的效果。 相似文献
15.
针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有面向大数据的计算框架。首先,基于朴素贝叶斯文本分类模型将训练样本数据集分为◢m◣类;进一步在训练阶段中,将前一个MapReduce的输出作为后一个MapReduce的输入,采用四个MapReduce作业得出模型。该设计过程充分利用了MapReduce的并行优势,最后在分类器测试时取出最大值所属的类标签值。在Newgroups数据集进行实验,在所有五类新闻数据组上的分类都取得了99%以上的结果,并且均高于对比算法,证明了提出方法的准确性。 相似文献
16.
网上购物已被越来越多的消费者接受,C2C网站作为主流购物平台提供数以万计的商品条目供消费者选择,其中有一定数量商品条目的商品描述具有误导性.误导性是指条目的商品描述与其实际价格不符合,通常的表现是描述商品的价格低于其应有的价格,以此吸引消费者,误导消费者到其购物页面.这既影响消费者的判断,又损坏购物网站的信誉度.为了找出这部分具有误导性的商品描述,提出了一种结合概率模型HMM和基于统计的异常值识别方法,能够有效地识别出误导性商品描述.HMM模型从概率的角度有效地确定商品描述所指代的商品,为C2C网站上商品描述的不规范导致的商品指代信息模糊提供了一种行之有效的解决方法.基于统计的异常值识别方法在处理C2C网站上商品信息比较单一时较为有效.用该方法在实际的电商网站数据集上进行了实验.实验结果证明了该方法的有效性. 相似文献
17.
18.
19.
针对传统度量相似性方法中忽略项目多属性类别差异的问题,提出一种改进项目多属性类别划分的推荐算法,首先构建项目—用户隶属矩阵挖掘用户间的隶属关系,并创建相似邻居FP-Tree以提取最近邻居集;然后分析用户间共同项目相似性和项目多属性类别划分的差异性,通过权重因子将共同项目和多属性类别融合,构建CNB度量模型度量邻居相似程度;最后对所得相似用户进行降序排列,获取更加精准的相似用户,完成推荐工作。结合医药数据集验证该算法的有效性,结果表明其时间复杂度、推荐准确性和平均精度均值均有较好的提升。 相似文献
20.
朴素贝叶斯分类器是一种简单而高效的分类器,但需要属性独立性假设,无法表示现实世界中属性之间的依赖关系,影响了其分类性能.利用独立分量分析提升朴素贝叶斯分类性能,把样本投影到由独立分量所确定的特征空间,提高了朴素贝叶斯分类器的分类性能.实验结果表明,这种基于独立分量分析的朴素贝叶斯分类器具有良好的性能. 相似文献