首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
以70种蛋白质折叠为研究对象,对每种折叠,选择序列同一性小于25%、样本量大于3的代表性蛋白质为训练集,采用机器和人工结合的办法进行结构比对,产生序列排比,经过训练得到了适合每种折叠的概形隐马尔科夫模型(profile HMM)用于该折叠类型的识别.对Astral1.65中的9 505个蛋白质结构域样本进行单模型识别,平均敏感性和特异性分别为91.93%和99.95%,Matthew相关系数为0.87.在折叠类型水平上,与Pfam和SUPERFAMILY单纯使用序列比对构建的HMM相比,所用模型数量显著减少,仍然保持很高的识别效果.结果表明:对序列相似度很低但具有相同折叠类型的蛋白质,可以通过引入结构比对的方法建立统一的HMM模型,实现高准确率的折叠类型识别.  相似文献   

2.
针对三维模型的分类问题,提出了一种适应性加权非对称AdaBoost隐马尔克夫模型(HMM)分类算法.算法中提出了由三维模型表面的绝对法向量表示的两种新特征,将经过归一化和姿态调整的三维模型划分为若干部分,各部分对应HMM的一个状态,对各部分提取特征并用主成分分析(PCA)降维,对模型的4种特征对应的弱分类器使用非对称AdaBoost算法进行boosting. HMM的结构及参数初始值由模型姿势调整的可能形式及观测顺序确定,训练过程中参数用期望最大化方法计算,最后使用加权相似度计算对三维模型分类.分析及试验结果表明,与基于分布函数的分类算法相比,该算法明显提高了正确率.适应性加权后,分类正确率可进一步提高.  相似文献   

3.
为实现Android应用程序恶意行为的有效分析,提出了基于HMMs-SVM的程序行为分类模型,将隐马尔可夫模型(HMM)和支持向量机(SVM)相结合,以动态行为序列作为关键特征,对移动应用软件运行中的网络收发、文件访问等行为建模. 该模型融合了HMM和SVM的优势,并克服了二者的不足,适合于在获取连续动态行为特征序列后进行行为分类. 实验结果表明,该方法分析召回率较高,可以有效对应用中的异常行为进行捕捉,并可以将其按类型分类.  相似文献   

4.
对经典隐马尔可夫模型(HMM)的状态转移和输出观测值的假设条件进行改进,提出了一个基于二阶隐马尔科夫模型(second-order HMM:HMM2)的基因识别系统的模型,论述了用该模型和扩展的Viterbi算法发现基因的方法.  相似文献   

5.
安全隐患描述文本是通过自然语言描述进行记录的,具有主观随意性问题,现有的序列标注相关模型无法从中提取关键知识信息.根据安全隐患描述文本的特点,首先设计了一种适用于安全隐患描述文本的序列标注方法,提出了基于知识集成的增强表示(ERNIE)模型的进行词向量特征提取,在其基础上通过融合条件随机场(CRF)模块和信息提取(ESL)模块,构建了一种安全生产隐患描述文本结构化解析方法.在某超大城市的安全隐患描述文本上进行了实验,实验结果表明,所提模型在文本结构化解析任务的精确率达到了65.1%,可以从城市安全隐患非结构化数据中获取更多的知识信息,进而规范化安全隐患排查记录工作.  相似文献   

6.
HMM在电机轴承上的故障诊断   总被引:1,自引:1,他引:0  
为了提高其机械系统故障诊断能力及其准确性,以历史的经验数据为基础对滚动轴承进行健康管理,提出一种新的基于多个隐马尔可夫模型与蚁群聚类算法(ACC)和神经网络相结合的方法来用于轴承故障的诊断与检测,该方法采用HMM与模式识别相结合的方法通过对轴承振动信号进行特征提取,在时频域内进行分析其老化的现象,分别将历史数据和新数据进行故障诊断和检测,并通过HMM和ANFIS来估计其剩余使用寿命和年限.实验结果表明:HMM与模式识别相结合的方法可以准确地对故障进行诊断及预测,通过对结果分析可以得到该方法降低了计算的复杂度,提高了诊断的精度,通过对不同故障诊断实例详细阐述了基于HMM故障诊断方法的有效性和可行性.  相似文献   

7.
为更有效地在中文短文本信息流中进行话题提取,给出了一种基于CRF模型的话题提取方法。根据短文本信息流的特点,定义了短文本信息流中关键词语相似度。充分利用上下文信息对特征信息进行全局归一化的处理,进一步得到全局的最优值。在真实的短信文本信息集上将此方法与决策树方法进行比较,取得了较明显的优势。  相似文献   

8.
隐马尔可夫模型(Hidden Markov model)用于多序列比对研究是生物信息学研究的新领域,其可以通过训练识别同一特征的蛋白质序列.然而,目前的HMM参数估计算法Viterbi算法和Baum-Welch算法,都只能找到局部最优比对,无法找到全局最优比对.针对此算法全局最优问题提出了基于遗传算法的HMM参数估计,与已有的训练算法相比,遗传算法在搜索全局最优时具有突出的优势.  相似文献   

9.
为提高中文语音合成的自然度,对文本的韵律结构体系进行研究,并提出一种基于条件随机场(CRF)的韵律结构预测方法. 从一个大规模人工标注的语料库中,选取由机器生成的分词标注特征和分级的韵律边界信息,利用CRF算法进行机器学习产生韵律词和韵律短语的CRF模型,并用于韵律结构的预测中. 实验结果表明,韵律词和韵律短语的F-score分别达到90.67%和80.05%,相比于基于最大熵(ME)模型的韵律结构预测方法分别提高了3.62%和5.65%,同时准确率和召回率也有较大提高.  相似文献   

10.
提出了一种改进的基于特征提取的二级文本分类方法.通过提取出文本的特征项并计算其权重值,将文本表示成由特征项和权重值组成的向量,利用向量的夹角余弦计算二级分类模型下文本之间的相似度,可以更准确快速地定位海量信息.实验结果表明本文提出的分类方法的准确率优于传统的类中心分类法,提高了系统的适应性和分类能力.  相似文献   

11.
基于部件HMM级联的联机手写体汉字识别方法   总被引:4,自引:0,他引:4  
为了对自由手写汉字进行有效地表征和识别,提出了一种识别自由手写体汉字的级联HMM方法,在部件HMM模型基础上将各模型按照统计概率连接,它扩展了HMM的模式描述方式,允许在级联模型上表征状态的跳跃、转移和驻留等。通过共享手写汉字部件模型来描述级联状态转移概率,可以更可靠地刻画自由手写体的行为特点。采用面向级联的Viterbi算法,无需做部件的分割和标注。通过一定条件下的对比实验训练与识别表明,该方法的第一候选识别率为87.89%,而基于分段HMM识别方法的第一候选识别率为86.17%,降低错误识别率12.4%。  相似文献   

12.
基于BI-LSTM-CRF模型的中文分词法   总被引:1,自引:0,他引:1  
递归神经网络能够很好地处理序列标记问题,已被广泛应用到自然语言处理(NLP)任务中。提出了一种基于长短期记忆(LSTM)神经网络改进的双向长短期记忆条件随机场(BI-LSTM-CRF)模型,不仅保留了LSTM能够利用上下文信息的特性,同时能够通过CRF层考虑输出标签之间前后的依赖关系。利用该分词模型,通过加入预训练的字嵌入向量,以及使用不同词位标注集在Bakeoff2005数据集上进行的分词实验,结果表明:BI-LSTM-CRF模型比LSTM和双向LSTM模型具有更好的分词性能,同时具有很好地泛化能力;相比四词位,采用六词位标注集的神经网络模型能够取得更好的分词性能。  相似文献   

13.
英文文本识别系统中单词切分效果直接影响系统识别准确率.提出一种有效利用单词中的连通域以实现单词切分的方法,该方法首先对给定的图像文件进行扫描,搜索图像中所存在的所有连通域,然后根据连通域的坐标、尺寸等影响因素,对有效的连通域进行合并,并过滤掉噪声等因素所产生的连通域碎片,以实现有效的英文单词区域的正确分割,从而实现英文单词的正确切分.实验结果表明,针对相同的英文文本图像,该方法对英文单词切分的准确率达95%以上,与垂直投影切分法最高准确率27%相比有较大幅度的提高,证明该方法可以很好解决垂直投影法无法解决的字母之间相互交迭的单词切分问题.  相似文献   

14.
为了提高文本观点挖掘的效率,通过扩展标准话题模型,提出了一种新颖的多粒度话题情感联合模型(MG-TSJ).模型将文本话题区分为全局和局部两类,同时挖掘文本中涉及的多层次话题信息和情感倾向信息.该模型采用非监督的学习方法,解决了现有方法存在的领域依赖问题.通过在测试语料库上进行实验,该模型在文本情感倾向性分类任务中的准确率达到82.6%,具有和监督分类系统相当的性能;挖掘话题集合呈现层次化、语义相关的特点,证明了MG-TSJ模型对观点挖掘是可行的和有效的.  相似文献   

15.
汉语分词作为中文信息处理的首要环节,其精确度对后续步骤的准确度和处理速度成逐级放大性影响.如何提高分词的准确度和处理速度成为近年研究的重点.采用条件随机场模型进行汉语分词,通过定量分析CRF工具包训练参数f,研究减少特征对分词准确度以及模型大小的影响程度,实验分别在国际汉语分词评测Bakeoff2005提供的北京大学和微软亚洲研究院两个语料上进行封闭测试,并对比采用不同模板时增加f参数值对分词性能的影响,最终得出实验结果:随着f参数值的增加,分词的准确度和生成的模型大小成正比,且F值减小的程度相对训练生成模型大小的减小程度要小得多.  相似文献   

16.
使用全连接神经网络结合Softmax分类器对汉语的408个音节建立音节分类器,利用等长处理后的特征向量训练Softmax分类器,将Softmax分类器输出概率作为后验概率图,与隐马尔科夫补白模型(HMM/Filler)进行第一次融合,得到子后验概率图隐马尔科夫模型(Posteriorgram-HMM). 针对关键词训练样本较少的问题,将标注样本进行强制切分,得到HMM每个状态上的训练数据. 将隐马尔科夫最大后验概率基线模型(HMM-MAP)与Posteriorgram-HMM进行第二次融合,提出最大后验概率图隐马尔科夫模型(Posteriorgram-HMM-MAP). 在数据集上训练模型后,使用测试数据对其进行测试. 结果表明:Posteriorgram-HMM-MAP的综合识别率相比Posteriorgram-HMM提升了3.55%,相比HMM/Filler提升了10.29%.  相似文献   

17.
医疗病历命名实体识别的主要任务是将临床电子病历中的非结构化文本转化为结构化数据,进而为面向医疗领域任务开展的数据挖掘提供基础支撑. 提出一种基于ALBERT模型融合学习的中文医疗病历命名实体识别模型. 首先,采用人工标注方式扩展样本数据集,结合ALBERT模型对数据集进行微调; 其次,采用双向长短记忆网络(BiLSTM)提取文本的全局特征; 最后,基于条件随机场模型(CRF)命名实体的序列标记. 在标准数据集上的实验结果表明,该方法进一步提高了医疗文本命名识别精度,减少了时间开销.  相似文献   

18.
Unlike named entity recognition (NER) for English, the absence of word boundaries reduces the final accuracy for Chinese NER. To avoid accumulated error introduced by word segmentation, a deep model extracting character-level features is carefully built and becomes a basis for a new Chinese NER method, which is proposed in this paper. This method converts the raw text to a character vector sequence, extracts global text features with a bidirectional long short-term memory and extracts local text features with a soft attention model. A linear chain conditional random field is also used to label all the characters with the help of the global and local text features. Experiments based on the Microsoft Research Asia (MSRA) dataset are designed and implemented. Results show that the proposed method has good performance compared to other methods, which proves that the global and local text features extracted have a positive influence on Chinese NER. For more variety in the test domains, a resume dataset from Sina Finance is also used to prove the effectiveness of the proposed method.  相似文献   

19.
A noise estimator was presented in this paper by modeling the log-power sequence with hidden Markov model (HMM). The smoothing factor of this estimator was motivated by the speech presence probability at each frequency band. This HMM had a speech state and a nonspeech state, and each state consisted of a unique Gaussian function. The mean of the nonspeech state was the estimation of the noise logarithmic power. To make this estimator run in an on-line manner, an HMM parameter updated method was used based on a first-order recursive process. The noise signal was tracked together with the HMM to be sequentially updated. For the sake of reliability, some constraints were introduced to the HMM. The proposed algorithm was compared with the conventional ones such as minimum statistics (MS) and improved minima controlled recursive averaging (IM- CRA). The experimental results confirms its promising performance.  相似文献   

20.
Aho-Corasick自动机算法是著名的多模式串匹配算法,它在模式串失配时,通过fail指针转移至有效的后续状态,存在一个或多个有效的后续状态可能。据此特性,该文提出了一种适应于中文分词的自动机算法。该算法使用动态规划的方法,计算上下文匹配概率,转移至最佳的有效后续状态,即实现了基于字符串匹配的机械分词方法与基于统计概率模型的方法结合。实验结果表明,该算法分词准确率高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号