排序方式: 共有73条查询结果,搜索用时 0 毫秒
1.
符号序列由有限个符号按一定顺序排列而成,广泛存在于数据挖掘的许多应用领域,如基因序列、蛋白质序列和语音序列等.作为序列挖掘的一种主要方法,序列聚类分析在识别序列数据内在结构等方面具有重要的应用价值;同时,由于符号序列间相似性度量较为困难,序列聚类也是当前的一项开放性难题.首先提出一种新的符号序列相似度度量,引入长度规范因子解决现有度量对序列长度敏感的问题,从而提高了符号序列相似度度量的有效性.在此基础上,提出一种新的聚类方法,根据样本相似度构建无回路连通图,通过图划分进行符号序列的层次聚类.在多个实际数据集上的实验结果表明,采用规范化度量的新方法可以有效提高符号序列的聚类精度. 相似文献
2.
RSKNN算法是K近邻算法的一种改进算法,该算法基于变精度粗糙集理论,能在保证一定分类精度的前提下,有效地降低分类样本的计算量,并且提高计算效率和分类精度.由于RSKNN算法对属性的依赖度较高,在分类时容易受到伪近邻的影响,导致RSKNN算法的分类精度受到一定程度的影响.针对存在问题,本文提出一种新颖的基于RSKNN算法的改进算法SMwRSKNN,该算法在RSKNN算法的基础上引入类别子空间的思想,以降低冗余属性和伪近邻对分类的影响.在UCI公共数据集上的实验结果表明,SMwRSKNN算法比RSKNN算法具有更高的分类精度. 相似文献
3.
时间序列数据分析与预处理 总被引:4,自引:0,他引:4
时间序列分析中常常遇到的一个问题是如何有效地过滤噪音和约简数据。本文通过修改传统的离散的傅立叶变换来过滤噪音和进行数据的约简,并尽可能保留原始时间序列的全局变化趋势。为检验该方法的有效性,本文同时提出一个新颖的数据分类算法MCC,并用该算法对股票回报率的变化进行预测,实验结果显示,用MCC算法在预处理后的数据上进行预测,其预测的命中率达到63.68%,而在原始数据上进行预测,其预测的命中率只有48.98%。显然,通过对原始数据进行噪音过滤有效地改善了预测的精度。另外,数据的约简也提高了预测算法的效率。 相似文献
4.
隐马尔可夫模型是对DNA序列建模的一种简单且有效的模型, 实际应用中通常采用一阶隐马尔可夫模型. 然而, 由于其一阶无后效性的特点, 一阶隐马尔科夫模型无法表示非相邻碱基间的依赖关系, 从而导致序列中一些有用统计特征的丢失. 本文在分析DNA序列特有的生物学构造的基础上, 提出一种用于DNA序列分类的二阶隐马尔可夫模型, 该模型继承了一阶隐马尔可夫模型的优点, 充分表达了蕴涵在DNA序列中的生物学统计特征, 使得新模型具有明确的生物学意义. 基于新模型, 提出一种DNA序列的贝叶斯分类新方法, 并在实际DNA序列上进行了实验验证. 实验结果表明, 由于二阶隐马尔可夫模型充分反映了DNA序列碱基间的结构信息, 新方法有效地提高了序列的分类精度. 相似文献
5.
不平衡数据集问题从20年前就已经引起人们的重视, 提出的相关解决方法层出不穷. Mixup是这几年比较流行的数据合成方法, 其相关变体比比皆是, 但是针对不平衡数据集提出的Mixup变体寥寥无几. 本文针对不平衡数据集分类问题, 提出了Mixup的变体——Borderline-mixup, 其使用支持向量机选择边界样本, 增加边界样本在采样器中被采样的概率, 构建两个边界采样器, 替代了原有的随机采样器. 在14个UCI数据集以及CIFAR10长尾数据集上的实验结果表明, Borderline-mixup相比于Mixup在UCI数据集中都有提升, 最高能达到49.3%的提升, 在CIFAR10长尾数据集中, 也能达到3%–3.6%左右的提升. 显然, 我们提出的Mixup变体在不平衡数据集分类中是有效的. 相似文献
6.
提出二阶段分类方法,第一阶段利用多分类器进行各波段分类,第二阶段使用复合分裂准则构建复合决策树进行综合分类。实验表明,该方法分类精度优于最大似然分类法。 相似文献
7.
IKnnM-DHecoc:一种解决概念漂移问题的方法 总被引:2,自引:0,他引:2
随着数据流挖掘的应用日趋广泛,带概念漂移的数据流分类问题已成为一项重要且充满挑战的工作.根据带概念漂移的数据流的特点,一个有效的学习器必须能跟踪并快速适应这种变化.一种基于增量KnnModel的动态层次编码算法被提出用于解决数据流的概念漂移问题.在将数据流划分为数据块后,根据增量KnnModel算法对每块的预学习结果构建并更新类别层次树、层次编码,用可增量学习的分类算法对照编码划分进行学习,并生成备选分类器集.最后依据活跃度对结点进行剪枝处理以减少计算代价.在预测阶段,利用增量KnnModel算法和动态层次纠错输出编码算法的各自优势进行联合预测.实验结果表明:基于增量KnnModel算法的动态层次纠错输出编码算法不但能够提高模型学习的动态性和分类的正确性,而且还能够快速适应概念漂移的情况. 相似文献
8.
地震特别是大震前会产生一些异常,但这些异常信息难以识别,导致无法充分利用这些异常信息预测地震的发生时间,减少地震带来的灾害影响.针对这个问题,提出一种基于量子漫步算法的震前异常挖掘方法,提取汶川地震和芦山地震的震前射出长波辐射(Outgoing Long-wave Radiation,OLR)异常,进而计算地震前后的P值,异常值CD等数据,通过统计分析方法,探索OLR异常与地震的关系.并且通过实验将该算法扩展到最近十年左右全球发生的8.0级及以上地震,验证该算法的有效性.实验结果表明,该算法能够有效的反映在地震前后会出现OLR异常,而且越大的地震异常越明显.因此,该算法适用于震前异常挖掘. 相似文献
9.
日常生活中人们分拣辨别不同种类的苹果需要消耗大量的人力物力,为解决这一问题,提出了一种基于多角度多区域特征融合的苹果图像分类方法。首先,收集五类总共329个苹果,使用手机摄像头从上面、下面和3个不同侧面共五个角度采集每个苹果的图像,每个图像裁剪若干个(1~9)区域块;其次,每个区域块用颜色直方图向量来表示,多个区域块的直方图向量通过首尾相连进行融合,以此生成一个图像的表示;最后,将得到的329个样本数据用12种分类器进行分类比较。实验结果表明,当多角度多区域图像特征融合时,分类效果总是好于单角度单区域,而且越多越好;当使用5个角度的图像,每个图像裁剪9个区域时,偏最小二乘(PLS)分类器的分类精度达到97.87%,好于深度学习。所提方法操作简单、精度较高,算法复杂度为4n,n为图像裁剪区域块总数,可以推广成手机应用,并应用到更多水果和植物图像分类上。 相似文献
10.
针对蚁群优化(ACO)算法在复杂环境下规划能力较弱的问题,提出了一种基于滑动窗口和蚁群优化算法的二次路径规划(QACO)算法.对回退蚁群优化(ACOFS)算法的回退策略进行改进,通过降低回退路径上的信息素量,减少回退次数.第一次规划中,使用改进后的ACO算法对栅格环境进行全局路径规划;第二次规划中,滑动窗口沿着全局路径滑动,通过ACO算法规划出滑动窗口中的局部路径,并使用局部路径对全局路径进行优化,直至滑动窗口中包含目标位置.仿真实验表明:相比ACO、ACOFS算法,QACO算法的平均规划时间分别下降了26.21%、52.03%,平均路径长度下降了47.82%、42.28%,因此在复杂环境下QACO算法具有将强的路径规划能力. 相似文献