排序方式: 共有73条查询结果,搜索用时 15 毫秒
1.
基于隐马尔科夫模型的DNA序列分类方法 总被引:1,自引:0,他引:1
DNA序列分类是生物信息学的一项基础任务,目的是根据结构或功能的相似性预测DNA序列所属的类别。为进行有效分类,如何将序列映射到特征向量空间并最大程度地保留序列中蕴含的碱基间顺序关系是一项困难的任务。为克服现有方法容易导致因DNA序列碱基残缺而影响分类精度等问题,提出一种新的DNA序列特征表示方法。新方法首先为每条序列训练一个隐马尔科夫模型(HMM),然后将DNA序列投影到由HMM状态转移概率矩阵的特征向量构成的向量空间中。基于这种新的特征表示法,构造了一种 K-NN分类器对DNA序列进行分类。实验结果表明,新型特征表示方法可以较为完整地保留 DNA 序列中不同碱基间的关系,充分反映序列的结构信息,从而有效提高了序列的分类精度。 相似文献
2.
RSKNN 算法是一种基于变精度粗糙集理论的 k-近邻改进算法,该算法能够保证在一定分类精度的前提下,有效地降低分类的计算量,提高分类效率。但由于 RSKNN 算法只是简单地将每个类中的样本划分成一个核心和边界区域,并没有根据数据集本身的特点进行划分,因而存在极大的局限性。针对存在的问题,提出一种多代表点学习算法,运用结构风险最小化理论对影响分类模型期望风险的因素进行分析,并使用无监督的局部聚类算法学习优化代表点集合。在UCI公共数据集上的实验表明,该算法比RSKNN算法具有更高的分类精度。 相似文献
3.
符号序列由有限个符号按一定顺序排列而成,广泛存在于数据挖掘的许多应用领域,如基因序列、蛋白质序列和语音序列等.作为序列挖掘的一种主要方法,序列聚类分析在识别序列数据内在结构等方面具有重要的应用价值;同时,由于符号序列间相似性度量较为困难,序列聚类也是当前的一项开放性难题.首先提出一种新的符号序列相似度度量,引入长度规范因子解决现有度量对序列长度敏感的问题,从而提高了符号序列相似度度量的有效性.在此基础上,提出一种新的聚类方法,根据样本相似度构建无回路连通图,通过图划分进行符号序列的层次聚类.在多个实际数据集上的实验结果表明,采用规范化度量的新方法可以有效提高符号序列的聚类精度. 相似文献
4.
运动序列是一种与运动信号相关的多维时间序列,各个维度序列之间具有高耦合性的特点。现有的多维序列表征方法大多基于维度间相互独立的假设或缺乏可解释性,为此,提出一种适用于运动序列的时空结构特征表示模型及其两阶段构造方法。首先,基于空间变化事件的转换方法,将多维时间序列变换成一维事件序列,以保存序列中的空间结构特性。接着,定义了一种时空结构特征的无监督挖掘算法。基于新定义的表示度度量,该算法从事件序列中提取一组具有代表性的低冗余变长事件元组为时空结构特征。在多个人类行为识别数据集上的实验结果表明,与现有多维时间序列表示方法相比,新模型的特征集更具代表性,在运动序列模式识别领域可以有效提升分类精度。 相似文献
5.
IKnnM-DHecoc:一种解决概念漂移问题的方法 总被引:2,自引:0,他引:2
随着数据流挖掘的应用日趋广泛,带概念漂移的数据流分类问题已成为一项重要且充满挑战的工作.根据带概念漂移的数据流的特点,一个有效的学习器必须能跟踪并快速适应这种变化.一种基于增量KnnModel的动态层次编码算法被提出用于解决数据流的概念漂移问题.在将数据流划分为数据块后,根据增量KnnModel算法对每块的预学习结果构建并更新类别层次树、层次编码,用可增量学习的分类算法对照编码划分进行学习,并生成备选分类器集.最后依据活跃度对结点进行剪枝处理以减少计算代价.在预测阶段,利用增量KnnModel算法和动态层次纠错输出编码算法的各自优势进行联合预测.实验结果表明:基于增量KnnModel算法的动态层次纠错输出编码算法不但能够提高模型学习的动态性和分类的正确性,而且还能够快速适应概念漂移的情况. 相似文献
6.
RSKNN算法是K近邻算法的一种改进算法,该算法基于变精度粗糙集理论,能在保证一定分类精度的前提下,有效地降低分类样本的计算量,并且提高计算效率和分类精度.由于RSKNN算法对属性的依赖度较高,在分类时容易受到伪近邻的影响,导致RSKNN算法的分类精度受到一定程度的影响.针对存在问题,本文提出一种新颖的基于RSKNN算法的改进算法SMwRSKNN,该算法在RSKNN算法的基础上引入类别子空间的思想,以降低冗余属性和伪近邻对分类的影响.在UCI公共数据集上的实验结果表明,SMwRSKNN算法比RSKNN算法具有更高的分类精度. 相似文献
7.
基于子空间集成的概念漂移数据流分类算法 总被引:4,自引:2,他引:2
具有概念漂移的复杂结构数据流分类问题已成为数据挖掘领域研究的热点之一。提出了一种新颖的子空间分类算法,并采用层次结构将其构成集成分类器用于解决带概念漂移的数据流的分类问题。在将数据流划分为数据块后,在每个数据块上利用子空间分类算法建立若干个底层分类器,然后由这几个底层分类器组成集成分类模型的基分类器。同时,引入数理统计中的参数估计方法检测概念漂移,动态调整模型。实验结果表明:该子空间集成算法不但能够提高分类模型对复杂类别结构数据流的分类精度,而且还能够快速适应概念漂移的情况。 相似文献
8.
射出长波辐射(Outgoing Long-wave Radiation,OLR)是研究前兆异常的一个重要参数,OLR数据中含有重要的前兆信息.因此本文提出一种基于OLR数据的震前异常分析方法-时空分析法,并通过2008年5月12日的汶川地震,2011年3月11日的日本地震,以及2013年4月20日的芦山地震3个震例详细阐述该算法的分析方法及实验结果,探索OLR数据中隐藏的前兆信息.实验结果表明,OLR数据中存在着重要的前兆信息.在3个震例发生前3个月左右,震中区域及其周边区域异常值都出现明显增大趋势,并且周边区域的异常现象可能比震中区域更明显.此外,还发现3个震例发生前,研究区域的正北方向异常值曲线都出现了明显的波峰,这一发现对于后续研究具有启发性意义.这一规律是否具有普遍性,仍需进一步验证. 相似文献
9.
地震特别是大震前会产生一些异常,但这些异常信息难以识别,导致无法充分利用这些异常信息预测地震的发生时间,减少地震带来的灾害影响.针对这个问题,提出一种基于量子漫步算法的震前异常挖掘方法,提取汶川地震和芦山地震的震前射出长波辐射(Outgoing Long-wave Radiation,OLR)异常,进而计算地震前后的P值,异常值CD等数据,通过统计分析方法,探索OLR异常与地震的关系.并且通过实验将该算法扩展到最近十年左右全球发生的8.0级及以上地震,验证该算法的有效性.实验结果表明,该算法能够有效的反映在地震前后会出现OLR异常,而且越大的地震异常越明显.因此,该算法适用于震前异常挖掘. 相似文献
10.
日常生活中人们分拣辨别不同种类的苹果需要消耗大量的人力物力,为解决这一问题,提出了一种基于多角度多区域特征融合的苹果图像分类方法。首先,收集五类总共329个苹果,使用手机摄像头从上面、下面和3个不同侧面共五个角度采集每个苹果的图像,每个图像裁剪若干个(1~9)区域块;其次,每个区域块用颜色直方图向量来表示,多个区域块的直方图向量通过首尾相连进行融合,以此生成一个图像的表示;最后,将得到的329个样本数据用12种分类器进行分类比较。实验结果表明,当多角度多区域图像特征融合时,分类效果总是好于单角度单区域,而且越多越好;当使用5个角度的图像,每个图像裁剪9个区域时,偏最小二乘(PLS)分类器的分类精度达到97.87%,好于深度学习。所提方法操作简单、精度较高,算法复杂度为4n,n为图像裁剪区域块总数,可以推广成手机应用,并应用到更多水果和植物图像分类上。 相似文献