共查询到19条相似文献,搜索用时 187 毫秒
1.
基于隐马尔科夫模型的DNA序列分类方法 总被引:1,自引:0,他引:1
DNA序列分类是生物信息学的一项基础任务,目的是根据结构或功能的相似性预测DNA序列所属的类别。为进行有效分类,如何将序列映射到特征向量空间并最大程度地保留序列中蕴含的碱基间顺序关系是一项困难的任务。为克服现有方法容易导致因DNA序列碱基残缺而影响分类精度等问题,提出一种新的DNA序列特征表示方法。新方法首先为每条序列训练一个隐马尔科夫模型(HMM),然后将DNA序列投影到由HMM状态转移概率矩阵的特征向量构成的向量空间中。基于这种新的特征表示法,构造了一种 K-NN分类器对DNA序列进行分类。实验结果表明,新型特征表示方法可以较为完整地保留 DNA 序列中不同碱基间的关系,充分反映序列的结构信息,从而有效提高了序列的分类精度。 相似文献
2.
3.
4.
5.
6.
针对基于固定阶Markov链模型的方法不能充分利用不同阶次子序列结构特征的问题,提出一种基于多阶Markov模型的符号序列贝叶斯分类新方法。首先,建立了基于多阶次Markov模型的条件概率分布模型;其次,提出一种附后缀表的n-阶子序列后缀树结构和高效的树构造算法,该算法能够在扫描一遍序列集过程中建立多阶条件概率模型;最后,提出符号序列的贝叶斯分类器,其训练算法基于最大似然法学习不同阶次模型的权重,分类算法使用各阶次的加权条件概率进行贝叶斯分类预测。在三个应用领域实际序列集上进行了系列实验,结果表明:新分类器对模型阶数变化不敏感;与使用固定阶模型的支持向量机等现有方法相比,所提方法在基因序列与语音序列上可以取得40%以上的分类精度提升,且可输出符号序列Markov模型最优阶数参考值。 相似文献
7.
张慧丽 《数字社区&智能家居》2007,3(14):537-539
在基因预测时,待研究的生物序列中的残基(氨基酸或核甘酸)具有高度的相关性,因此,观测噪声和马尔可夫链不相互独立的条件下的混合隐马尔可夫模型比普通隐马尔可夫模型更适用于基因预测功能.介绍了一种基于混合二阶隐马尔可夫模型(HMM2)的基因识别系统,该系统的预测精度在在核苷酸和外显子水平上均与国外同类研究水平相当. 相似文献
8.
研究一种关于隐马尔可夫模型的多序列比对,利用值和特征序列的保守性,通过增加频率因子,改进传统隐马尔可夫模型算法的不足。实验表明,新算法不但提高了模型的稳定性,而且应用于蛋白质家族识别,平均识别率比传统隐马尔可夫算法提高了3.3个百分点。 相似文献
9.
基于完全二阶隐马尔可夫模型的汉语词性标注 总被引:12,自引:0,他引:12
该文基于隐马尔可夫理论,提出了一种三元词汇概率和词性概率相结合的汉语词性标注模型,并对传统的Viterbi算法进行了扩展。对统计模型中出现的数据稀疏问题,给出了基于线性插值法的平滑算法,实验表明,完全二阶隐马尔可夫模型比标准的二元,三元模型有更高的词性标注正确率和消歧率。 相似文献
10.
苏锦旗 《计算机与数字工程》2014,(7):1119-1122
为弥补传统的基于隐M arkov模型在前提假设上的不足,提出了二阶隐马尔可夫模型。在研究二阶隐马尔可夫模型和凝聚算法在时空序列分析的基础上,提出了一种新的基于 HMM2的时间序列凝聚算法。该算法应用 HMM2对时间序列进行建模,合理考虑了概率和模型历史状态的关联性,按照相异度原则将序列聚成几个类,每个类用模型代表,进而对这些模型训练、合并及迭代得到聚类结果。实验比较了该算法与基于HMM算法的聚类质量,研究了聚类正确率与聚类数、距离正确率与模型距离的关系。结果表明,该算法比传统的基于HMM的聚类算法具有更好的性能。 相似文献
11.
音乐类型(Genre)是应用最普遍的管理数字音乐数据库的方式,提出一种基于隐马尔可夫模型(Hidden Markov Models,HMMs)的音乐自动分类方案。在考虑传统的音色特征(Timbre)的同时,将另一重要特征节奏(Tempo)也加以考虑,并通过bagging训练两组HMM进行分类,达到了良好的效果。从结构、状态数和混合高斯模型数三个方面进行了参数优化,找到了最佳的HMM参数。在音乐数据集GTZAN上对传统模型和新模型分类效果进行了测试,结果表明考虑了节奏特征的HMM分类效果更佳。 相似文献
12.
Hidden Markov models (HMM) are a widely used tool for sequence modelling. In the sequence classification case, the standard approach consists of training one HMM for each class and then using a standard Bayesian classification rule. In this paper, we introduce a novel classification scheme for sequences based on HMMs, which is obtained by extending the recently proposed similarity-based classification paradigm to HMM-based classification. In this approach, each object is described by the vector of its similarities with respect to a predetermined set of other objects, where these similarities are supported by HMMs. A central problem is the high dimensionality of resulting space, and, to deal with it, three alternatives are investigated. Synthetic and real experiments show that the similarity-based approach outperforms standard HMM classification schemes. 相似文献
13.
基于隐马尔可夫模型的文本分类算法 总被引:2,自引:0,他引:2
自动文本分类领域近年来已经产生了若干成熟的分类算法,但这些算法主要基于概率统计模型,没有与文本自身的语法和语义建立起联系。提出了将隐马尔可夫序列分析模型(HMM)用于自动文本分类的算法,首先构造表示文档类别的特征词集合,并以文档类别的特征词序列作为不同HMM分类器的观察序列,而HMM的状态转换序列则隐含地表示了不同类别文档内容的形成演化过程。分类时,具有最大生成概率的HMM分类器类标即为测试文档的分类结果。该算法构造的分类器模型一定程度上体现了不同类别文档的语法和语义特征,并可以实现多类别的自动文本分类,分类效率较高。 相似文献
14.
15.
针对隐马尔科夫模型在运动想象脑电信号分类应用中,其独立性假设与脑电信号间相关性的不一致问题,提出一种基于Choquet 模糊积分隐马尔科夫模型的脑电信号分类方法。该模型应用模糊积分的单调性取代了概率测度的可加性,放宽了隐马尔科夫模型的独立性假设。利用重叠滑动窗对脑电信号分段,然后对每段数据提取绝对均值、波长和小波包相对能量特征,构成特征序列用于CI-HMM的训练和分类。选取2008年BCI竞赛Datasets 1的两类运动想象数据进行分类,实验结果表明,该方法有效提高了隐马尔科夫模型方法对运动想象脑电信号分类的性能。 相似文献
16.
针对传统隐马尔可夫模型(HMM)在识别对象时没有有效利用所识别对象的结构信息,提出了一种基于原图像分块的HMM。这种模型利用原图像的各个分块作为状态,因此具有相应的拓扑结构,可以为所识别对象的结构信息建模。为了增强模型的描述能力与精确性,采用二阶HMM,引入了终止状态,将其应用在手写数字识别中。考虑到手写数字的结构特点与模型的拓扑结构,提出了一种提取手写数字笔画特征的方法,即根据叉点提取各个笔段的特征向量。对MNIST字库进行测试,平均识别率为95.7%。 相似文献
17.
提出了一种基于拉普拉斯脸和隐马尔可夫模型的视频人脸识别方法。在训练过程中,采用拉普拉斯脸方法将每一视频序列中的人脸图像映射到拉普拉斯空间,将降维后的特征作为观测值,通过隐马尔可夫模型得到每一训练视频的统计特性和时间动态特性。在识别过程中,用每一个训练视频的隐马尔可夫模型来分析测试视频的时间动态特性,计算出每一训练模型产生该序列的概率,概率最大值所对应的模型就是待识别序列所属的类别。实验结果表明,该方法能够很好地进行视频人脸识别。 相似文献
18.
This paper presents a novel over-sampling method based on document content to handle the class imbalance problem in text classification. The new technique, COS-HMM (Content-based Over-Sampling HMM), includes an HMM that is trained with a corpus in order to create new samples according to current documents. The HMM is treated as a document generator which can produce synthetical instances formed on what it was trained with.To demonstrate its achievement, COS-HMM is tested with a Support Vector Machine (SVM) in two medical documental corpora (OHSUMED and TREC Genomics), and is then compared with the Random Over-Sampling (ROS) and SMOTE techniques. Results suggest that the application of over-sampling strategies increases the global performance of the SVM to classify documents. Based on the empirical and statistical studies, the new method clearly outperforms the baseline method (ROS), and offers a greater performance than SMOTE in the majority of tested cases. 相似文献
19.
为提高常规自动语音识别(ASR)系统的精度,提出基于隐式马尔可夫模型混合连接时间分类/注意力机制的端到端ASR系统设计方法。首先,针对可观测时变序列语音识别过程中存在的连续性强、词汇量大的语音识别难点,基于隐式马尔可夫模型对语音识别过程进行模拟,实现了语音识别模型参数化;其次,使用连接时间分类目标函数作为辅助任务,在多目标学习框架中训练语音识别过程的关注模型编码器,可降低序列级连接时间分类目标近似度,实现语音识别过程精度提升;最后,通过在自建语音识别库上的仿真实验,验证所提算法在识别效率和精度上的性能优势。 相似文献