排序方式: 共有73条查询结果,搜索用时 281 毫秒
1.
基于隐马尔科夫模型的DNA序列分类方法 总被引:1,自引:0,他引:1
DNA序列分类是生物信息学的一项基础任务,目的是根据结构或功能的相似性预测DNA序列所属的类别。为进行有效分类,如何将序列映射到特征向量空间并最大程度地保留序列中蕴含的碱基间顺序关系是一项困难的任务。为克服现有方法容易导致因DNA序列碱基残缺而影响分类精度等问题,提出一种新的DNA序列特征表示方法。新方法首先为每条序列训练一个隐马尔科夫模型(HMM),然后将DNA序列投影到由HMM状态转移概率矩阵的特征向量构成的向量空间中。基于这种新的特征表示法,构造了一种 K-NN分类器对DNA序列进行分类。实验结果表明,新型特征表示方法可以较为完整地保留 DNA 序列中不同碱基间的关系,充分反映序列的结构信息,从而有效提高了序列的分类精度。 相似文献
2.
RSKNN 算法是一种基于变精度粗糙集理论的 k-近邻改进算法,该算法能够保证在一定分类精度的前提下,有效地降低分类的计算量,提高分类效率。但由于 RSKNN 算法只是简单地将每个类中的样本划分成一个核心和边界区域,并没有根据数据集本身的特点进行划分,因而存在极大的局限性。针对存在的问题,提出一种多代表点学习算法,运用结构风险最小化理论对影响分类模型期望风险的因素进行分析,并使用无监督的局部聚类算法学习优化代表点集合。在UCI公共数据集上的实验表明,该算法比RSKNN算法具有更高的分类精度。 相似文献
3.
符号序列由有限个符号按一定顺序排列而成,广泛存在于数据挖掘的许多应用领域,如基因序列、蛋白质序列和语音序列等.作为序列挖掘的一种主要方法,序列聚类分析在识别序列数据内在结构等方面具有重要的应用价值;同时,由于符号序列间相似性度量较为困难,序列聚类也是当前的一项开放性难题.首先提出一种新的符号序列相似度度量,引入长度规范因子解决现有度量对序列长度敏感的问题,从而提高了符号序列相似度度量的有效性.在此基础上,提出一种新的聚类方法,根据样本相似度构建无回路连通图,通过图划分进行符号序列的层次聚类.在多个实际数据集上的实验结果表明,采用规范化度量的新方法可以有效提高符号序列的聚类精度. 相似文献
4.
隐马尔可夫模型是对DNA序列建模的一种简单且有效的模型, 实际应用中通常采用一阶隐马尔可夫模型. 然而, 由于其一阶无后效性的特点, 一阶隐马尔科夫模型无法表示非相邻碱基间的依赖关系, 从而导致序列中一些有用统计特征的丢失. 本文在分析DNA序列特有的生物学构造的基础上, 提出一种用于DNA序列分类的二阶隐马尔可夫模型, 该模型继承了一阶隐马尔可夫模型的优点, 充分表达了蕴涵在DNA序列中的生物学统计特征, 使得新模型具有明确的生物学意义. 基于新模型, 提出一种DNA序列的贝叶斯分类新方法, 并在实际DNA序列上进行了实验验证. 实验结果表明, 由于二阶隐马尔可夫模型充分反映了DNA序列碱基间的结构信息, 新方法有效地提高了序列的分类精度. 相似文献
5.
运动序列是一种与运动信号相关的多维时间序列,各个维度序列之间具有高耦合性的特点。现有的多维序列表征方法大多基于维度间相互独立的假设或缺乏可解释性,为此,提出一种适用于运动序列的时空结构特征表示模型及其两阶段构造方法。首先,基于空间变化事件的转换方法,将多维时间序列变换成一维事件序列,以保存序列中的空间结构特性。接着,定义了一种时空结构特征的无监督挖掘算法。基于新定义的表示度度量,该算法从事件序列中提取一组具有代表性的低冗余变长事件元组为时空结构特征。在多个人类行为识别数据集上的实验结果表明,与现有多维时间序列表示方法相比,新模型的特征集更具代表性,在运动序列模式识别领域可以有效提升分类精度。 相似文献
6.
IKnnM-DHecoc:一种解决概念漂移问题的方法 总被引:2,自引:0,他引:2
随着数据流挖掘的应用日趋广泛,带概念漂移的数据流分类问题已成为一项重要且充满挑战的工作.根据带概念漂移的数据流的特点,一个有效的学习器必须能跟踪并快速适应这种变化.一种基于增量KnnModel的动态层次编码算法被提出用于解决数据流的概念漂移问题.在将数据流划分为数据块后,根据增量KnnModel算法对每块的预学习结果构建并更新类别层次树、层次编码,用可增量学习的分类算法对照编码划分进行学习,并生成备选分类器集.最后依据活跃度对结点进行剪枝处理以减少计算代价.在预测阶段,利用增量KnnModel算法和动态层次纠错输出编码算法的各自优势进行联合预测.实验结果表明:基于增量KnnModel算法的动态层次纠错输出编码算法不但能够提高模型学习的动态性和分类的正确性,而且还能够快速适应概念漂移的情况. 相似文献
7.
RSKNN算法是K近邻算法的一种改进算法,该算法基于变精度粗糙集理论,能在保证一定分类精度的前提下,有效地降低分类样本的计算量,并且提高计算效率和分类精度.由于RSKNN算法对属性的依赖度较高,在分类时容易受到伪近邻的影响,导致RSKNN算法的分类精度受到一定程度的影响.针对存在问题,本文提出一种新颖的基于RSKNN算法的改进算法SMwRSKNN,该算法在RSKNN算法的基础上引入类别子空间的思想,以降低冗余属性和伪近邻对分类的影响.在UCI公共数据集上的实验结果表明,SMwRSKNN算法比RSKNN算法具有更高的分类精度. 相似文献
8.
时间序列数据分析与预处理 总被引:4,自引:0,他引:4
时间序列分析中常常遇到的一个问题是如何有效地过滤噪音和约简数据。本文通过修改传统的离散的傅立叶变换来过滤噪音和进行数据的约简,并尽可能保留原始时间序列的全局变化趋势。为检验该方法的有效性,本文同时提出一个新颖的数据分类算法MCC,并用该算法对股票回报率的变化进行预测,实验结果显示,用MCC算法在预处理后的数据上进行预测,其预测的命中率达到63.68%,而在原始数据上进行预测,其预测的命中率只有48.98%。显然,通过对原始数据进行噪音过滤有效地改善了预测的精度。另外,数据的约简也提高了预测算法的效率。 相似文献
9.
提出二阶段分类方法,第一阶段利用多分类器进行各波段分类,第二阶段使用复合分裂准则构建复合决策树进行综合分类。实验表明,该方法分类精度优于最大似然分类法。 相似文献
10.
基于子空间集成的概念漂移数据流分类算法 总被引:4,自引:2,他引:2
具有概念漂移的复杂结构数据流分类问题已成为数据挖掘领域研究的热点之一。提出了一种新颖的子空间分类算法,并采用层次结构将其构成集成分类器用于解决带概念漂移的数据流的分类问题。在将数据流划分为数据块后,在每个数据块上利用子空间分类算法建立若干个底层分类器,然后由这几个底层分类器组成集成分类模型的基分类器。同时,引入数理统计中的参数估计方法检测概念漂移,动态调整模型。实验结果表明:该子空间集成算法不但能够提高分类模型对复杂类别结构数据流的分类精度,而且还能够快速适应概念漂移的情况。 相似文献