首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
K-近邻(K-Nearest Neighbors,K-NN)是一种懒惰学习算法,用K-NN对数据分类时,不需要训练分类模型。K-NN算法的优点是思想简单、易于实现;缺点是计算量大,原因是在对测试样例进行分类时,其需要计算测试样例与训练集中每一个训练样例之间的距离。压缩近邻算法(Condensed Nearest Neighbors,CNN)可以克服K-NN算法的不足。但是,在面对大数据集时,由于自身的迭代计算特性,CNN的运算效率会变得非常低。针对这一问题,提出一种名为Spark CNN的压缩近邻算法。在大数据环境下,与基于MapReduce的CNN算法相比,Spark CNN的效率大幅提高,在5个大数据集上的实验证明了这一结论。  相似文献   

2.
基于关联规则的面向对象高分辨率影像分类   总被引:1,自引:0,他引:1  
以北京市昌平区Geoeye-1高分辨率遥感影像为试验数据,研究了关联规则挖掘和面向对象相结合的地物分类方法。首先探讨了关联分类法的原理,再通过图像分割、特征提取、关联规则挖掘、分类器构建一系列过程实现了基于关联规则的面向对象高分辨率影像分类,最终评估分类精度并与K-近邻法进行了对比。结果表明,该方法具有较好精度,能够在一定程度上摆脱地物分类对于专家知识的依赖。  相似文献   

3.
基于哈希技术和MapReduce的大数据集K-近邻算法   总被引:1,自引:1,他引:0  
K-近邻是一种著名的分类算法。由于简单且易于实现,因此其被广泛应用于许多领域,如人脸识别、基因分类、决策支持等。然而,在大数据环境中,K-近邻算法变得非常低效,甚至不可行。针对这一问题,提出了一种基于哈希技术和MapReduce的大数据集K-近邻分类算法。为了验证算法的有效性,在4个大数据集上进行了实验,结果显示,在保持分类能力的前提下,所提算法可以大幅度地提高K-近邻算法的效率。  相似文献   

4.
医学图像的关联规则挖掘方法研究   总被引:8,自引:0,他引:8  
提出了一个基于关联规则挖掘算法的医学图像分析器。介绍了数量型属性离散化的CA算法、关联规则挖掘算法及其在医学图像数据挖掘中的应用方法,并利用介绍的算法对乳腺癌图像数据进行挖掘。实验结果表明,该模型系统达到了较高的分类准确率。  相似文献   

5.
KNN算法在数据挖掘的分支-文本分类中有重要的应用。在分析了传统KNN方法不足的基础上,提出了一种基于关联分析的KNN改进算法。该方法首先针对不同类别的训练文本提取每个类别的频繁特征集及其关联的文本,然后基于对各个类别文本的关联分析结果,为未知类别文本确定适当的近邻数k,并在已知类别的训练文本中快速选取k个近邻,进而根据近邻的类别确定未知文本的类别。相比于基于传统KNN的文本分类方法,改进方法能够较好地确定k值,并能降低时间复杂度。实验结果表明,文中提出的基于改进KNN的文本分类方法提高了文本分类的效率和准确率。  相似文献   

6.
分布式lazy关联分类算法(DLAC算法)指应用分布式关联规则挖掘算法的lazy关联分类算法。现有的DLAC算法存在2个主要问题:一是对多个待分类样本进行分类时效率低下;二是投影操作未分布式实现。针对上述2个问题,提出一种改进型的分布式lazy关联分类(PDLAC)算法。首先,对待分类样本进行KMeans聚类;其次,判断类内的待分类样本是否满足聚合条件,满足进行聚合,不满足则类内的每个待分类样本单独成为一类;然后,进行分布式投影并使用C-DMA算法挖掘关联规则;最后,构建分类器对类内的一个或多个待分类样本进行分类。设置并行度为15进行实验:PDLAC算法所用的时间远小于DLAC算法,并且随着待分类样本数目的增加,性能提升越大。实验结果表明,PDLAC算法是解决上述2个问题的一个好方法。   相似文献   

7.
作为当前数据流挖掘研究的热点之一,多数据流聚类要求在跟踪多个数据流随时间演化的同时按其相似程度进行划分。文中提出一种基于灰关联分析并结合近邻传播聚类的多数据流聚类方法。该方法基于一种灰关联度,将多个数据流的原始数据压缩成可增量更新的灰关联概要信息,并根据该信息计算多个数据流之间的灰关联度作为其相似性测度,最后应用近邻传播聚类算法生成聚类结果。在真实数据集上的对比实验证明该方法的有效性。  相似文献   

8.
给定数据库,在不考虑支持度和可信度情况下,事先能否预知最终会挖掘出多少条关联规则,这是个值得研究的问题。为此文中提出预期关联规则的概念,使上述问题转化成为如何计算预期关联规则集基数的问题。分别给出布尔型和数量型两种情况下的计算公式。对于数量型数据集,讨论当转换为布尔型数据后各个项集元素呈现的互斥性质。利用此性质导出一个膨胀矩阵和膨胀算法。该方法相对简洁地解决数量型数据集预期关联规则集基数的计算问题。计算和测试结果都表明,预期关联规则总量随着互斥元素的增加呈现下降趋势。这些结果对于深刻理解关联规则挖掘的实质,进而研发更加高效的挖掘算法十分有益。  相似文献   

9.
《微型机与应用》2018,(4):41-44
针对网络软件缺陷预测中缺陷之间的显性关联关系和隐性关联关系,为提高网络软件缺陷预测的精确度和效率,基于现有的软件缺陷数据集,提出一种基于关联规则的网络软件缺陷预测方法。首先采用随机方法从美国国家航空航天局NASA的软件缺陷数据库中提取用于分类和测试的数据集,利用关联规则方法中Apriori算法对数据集进行关联规则生成和关联分类器的构建,并与BP神经网络方法的预测结果进行对比。结果表明,基于关联规则方法能够在小样本数据集中提高网络软件缺陷预测的精确度和有效性。  相似文献   

10.
在大数据环境下,K近邻多标签算法(ML-KNN)高时间复杂度的问题显得尤为突出;此外,ML-KNN也没有考虑◢k◣个近邻对最终分类结果的影响。针对上述问题进行研究,首先将训练集进行聚类,再为测试集找到一个距离其最近的训练数据簇作为新的训练数据集;然后计算最近邻样本的距离权重,并用该权重描述最近邻和其他近邻对预测结果的影响;最后使用新的目标函数为待测样本分类。通过在图片、Web页面文本数据等数据集上的实验表明,所提算法得到了更好的分类结果,并且大大降低了时间复杂度。  相似文献   

11.
关联分类通常产生大量的分类规则,导致在分类新实例时经常产生规则冲突问题。针对这种规则冲突问题,提出了一种基于改进关联分类的两次学习框架。利用频繁且互关联的项集产生分类规则改进关联分类算法,有效减少了规则数。应用改进的关联分类算法产生的一级规则一次性分离出训练集中规则冲突的所有实例。然后,在冲突实例上应用改进的关联分类算法进行第二次学习得到二级规则。分类新实例时,首先利用第一级规则进行分类。如果出现规则冲突,则利用第二级规则分类该实例。实验结果表明,基于改进关联分类的两次学习方法降低了规则冲突比率,并且显著提高了分类准确率。  相似文献   

12.
针对医学图像数据的特殊性,提出了一种适合挖掘大量医学图像数据的关联分类算法.该算法以频繁模式树为基础,通过引入双支持度,排除一部分对分类无意义且存在干扰的项,以提高分类正确率.实验结果表明,当用于医学图像分类时,该算法可以取得同样的基于关联规则的分类算法CMAR更高的执行效率及更好的分类效果.  相似文献   

13.
挖掘Web日志中的分类关联规则   总被引:1,自引:0,他引:1       下载免费PDF全文
用户分类是Web访问模式挖掘研究的一个重要任务。提出一种应用关联分类技术对Web用户进行分类的方法:首先通过对Web日志文件预处理得到训练事务数据集,然后从该事务集中挖掘分类关联规则,并利用所挖掘的规则集构建了一个分类器,从而实现了根据用户访问历史对用户进行分类。  相似文献   

14.
关联分类具有较高的分类精度和较强的适应性,然而由于分类器是由一组高置信度的规则构成,有时会存在过度拟合问题。提出了基于规则兴趣度的关联分类(ACIR)。它扩展了TD-FP-growth算法,使之有效地挖掘训练集,产生满足最小支持度和最小置信度的有趣的规则。通过剪枝选择一个小规则集构造分类器。在规则剪枝过程中,采用规则兴趣度来评价规则的质量,综合考虑规则的预测精度和规则中项的兴趣度。实验结果表明该方法在分类精度上优于See5、CBA和CMAR,并且具有较好的可理解性和扩展性。  相似文献   

15.
In this paper, a new feature selection method based on Association Rules (AR) and Neural Network (NN) is presented for the diagnosis of erythemato-squamous diseases. AR is used for reducing the dimension of erythemato-squamous diseases dataset and NN is used for efficient classification. The proposed AR+NN system performance is compared with that of other feature selection algorithms+NN. The dimension of input feature space is reduced from thirty four to twenty four by using AR. In test stage, 3-fold cross validation method is applied to the erythemato-squamous diseases dataset to evaluate the proposed system performances. The correct classification rate of proposed system is 98.61%. This research demonstrated that the AR can be used for reducing the dimension of feature space and proposed AR+NN model can be used to obtain fast automatic diagnostic systems for other diseases.  相似文献   

16.
《Applied Soft Computing》2007,7(3):1102-1111
Classification and association rule discovery are important data mining tasks. Using association rule discovery to construct classification systems, also known as associative classification, is a promising approach. In this paper, a new associative classification technique, Ranked Multilabel Rule (RMR) algorithm is introduced, which generates rules with multiple labels. Rules derived by current associative classification algorithms overlap in their training objects, resulting in many redundant and useless rules. However, the proposed algorithm resolves the overlapping between rules in the classifier by generating rules that does not share training objects during the training phase, resulting in a more accurate classifier. Results obtained from experimenting on 20 binary, multi-class and multi-label data sets show that the proposed technique is able to produce classifiers that contain rules associated with multiple classes. Furthermore, the results reveal that removing overlapping of training objects between the derived rules produces highly competitive classifiers if compared with those extracted by decision trees and other associative classification techniques, with respect to error rate.  相似文献   

17.
Classification is a method of accurately predicting the target class for an unlabelled sample by learning from instances described by a set of attributes and a class label. Instance based classifiers are attractive due to their simplicity and performance. However, many of these are susceptible to noise and become unsuitable for real world problems. This paper proposes a novel instance based classification algorithm called Pattern Matching based Classification (PMC). The underlying principle of PMC is that it classifies unlabelled samples by matching for patterns in the training dataset. The advantage of PMC in comparison with other instance based methods is its simple classification procedure together with high performance. To improve the classification accuracy of PMC, an Ant Colony Optimization based Feature Selection algorithm based on the idea of PMC has been proposed. The classifier is evaluated on 35 datasets. Experimental results demonstrate that PMC is competent with many instance based classifiers. The results are also validated using nonparametric statistical tests. Also, the evaluation time of PMC is less when compared to the gravitation based methods used for classification.  相似文献   

18.
高济  何志均 《自动化学报》1989,15(4):318-323
本文提出一种用于人工智能专家系统的知识表达方式--基于规则的联想网络(ANBR), ANBR把智能系统获取的知识表达分为内外两种形式.外部形式是基于规则的知识结构,用 于知识的获取和知识库管理;内部形式是分块联想网络,用于驱动推理控制.由于把产生式规 则的可理解性和模块性与网络的知识索引和联想推理功能结合于同一系统,使ANBR成为专 家系统知识表达的有效方式.  相似文献   

19.
霍纬纲  屈峰  程震 《计算机应用》2017,37(11):3075-3079
为了提高动态数据集上模糊关联分类器(FAC)的建模效率,提出了一种基于演进向量量化(eVQ)聚类的增量模糊关联分类方法。首先,采用eVQ聚类算法增量更新数量属性上的高斯隶属度函数参数;然后,扩展早剪枝更新(UWEP)算法,使之适用于增量挖掘模糊频繁项;最后,以模糊相关度(FCORR)和分类规则前件长度为度量方式裁剪并更新模糊关联分类规则库。在4个UCI标准数据集上的实验结果表明,与批量模糊关联分类建模方法相比,所提方法能够在保证分类精度和解释性的前提下,减少模糊关联分类器的训练时间;基于eVQ的高斯隶属度函数的增量更新有助于提高动态数据集上模糊关联分类器的分类精度。  相似文献   

20.
关联分类中现有的显式学习方法无法解决small disjunction问题,而Lazy方法分类效率低。针对这两类方法存在的问题,提出了一种基于混合策略的关联分类方法。具体算法为:先判断待分类样本是否满足显式学习模式的分类器特征;然后把满足分类器特征的待分类样本用显式模式进行分类,把不满足分类器特征的待分类样本用Lazy模式来预测;最后结合两类方法的分类结果得到最终的分类结果。实验比较了该方法与传统的关联分类方法,结果表明,该方法在分类准确率和执行效率方面均达到了更好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号