首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
SVM+BiHMM:基于统计方法的元数据抽取混合模型   总被引:3,自引:0,他引:3  
张铭  银平  邓志鸿  杨冬青 《软件学报》2008,19(2):358-368
提出了一种SVM BiHMM的混合元数据自动抽取方法.该方法基于SVM(support vector machine)和二元HMM(bigram HMM(hidden Markov model),简称BiHMM)理论.二元HMM模型BiHMM在保持模型结构不变的前提下,通过区分首发概率和状态内部发射概率,修改了HMM发射概率计算模型.在SVM BiHMM复合模型中,首先根据规则把论文粗分为论文头、正文以及引文部分,然后建立SVM模型把文本块划分为元数据子类,接着采用Sigmoid双弯曲函数把SVM分类结果用于拟合调整BiHMM模型的单词发射概率,最后用复合模型进行元数据抽取.SVM方法有效考虑了块间联系,BiHMM模型充分考虑了单词在状态内部的位置信息,二者的元数据抽取结果得到了很好的互补和修正,实验评测结果表明,SVM BiHMM算法的抽取效果优于其他方法.  相似文献   

2.
哈萨克语的词性标注在自然语言信息处理领域中扮演着重要角色,是句法分析、信息抽取、机器翻译等自然语言处理的基础。在传统的HMM的基础上改进了HMM模型参数的计算、数据平滑以及未登录词的处理方法,使之更好地体现词语的上下文依赖关系。利用基于统计的方法对哈萨克语熟语料进行训练,然后用Viterbi算法实现词性标注。实验结果表明利用改进的HMM进行词性标注的效果比传统的HMM好。  相似文献   

3.
基于GEP和Baum-Welch算法训练HMM模型的研究   总被引:1,自引:0,他引:1  
传统的向前-向后算法或Baum-Welch算法训练HMM的转移概率aij和发射概率ai(Ot),使观察序列的O概率恰好达到最大值往往很难,虽然在理论上训练HMM的这两个网络结构是可能的,但仅能保证局部的最大值,而基于全局搜索的基因表达式编程(GEP)的一个主要的特点就是可以高效快速的发现全局最优解.把GEP引入到HMM的训练中去,提出一种改进的训练方法GBHA.实验结果表明,该算法比传统算法的系统效率更高、更稳定.  相似文献   

4.
为实现网络流量的有效管控,提出一种基于安全套接层(SSL)协议交互字段与多输入最大化单输出隐马尔可夫模型(HMM)的加密应用并行识别方法.将来自客户端或者服务器的单向数据流SSL协议交互阶段的字段作为HMM模型的观测序列,并对所有待识别的加密应用建立HMM模型形成指纹库.在此基础上,利用前向算法计算未知观测序列被识别为HMM模型的概率,选取概率最大HMM模型所对应的加密应用作为识别结果.实验结果表明,与传统应用识别方法相比,该方法对典型加密应用具有更好的识别效果及鲁棒性.  相似文献   

5.
由于唇动序列和语言序列是一对多的映射,计算机自动唇读识别仅使用HMM是远远不够的.以HMM为基础,结合语言先验知识,建立了新的唇动识别模型--HLM (HMM and Bigram Language Model).HLM突破了单纯采用HMM计算声学后验概率进行识别的传统框架,将HMM和语言背景知识紧密联系起来,依据语言模型对语言背景知识进行统计,在识别阶段融合声学后验概率和语言学先验概率进行判决.实验结果表明,HLM可使单音识别率提高7.3%,句子识别率提高19.5%.另外,采用语言模型对文字流进行解析,而不再是盲目文字匹配,单一视觉流的解析精确率达70.5%.  相似文献   

6.
基于完全二阶隐马尔可夫模型的汉语词性标注   总被引:12,自引:0,他引:12  
梁以敏  黄德根 《计算机工程》2005,31(10):177-179
该文基于隐马尔可夫理论,提出了一种三元词汇概率和词性概率相结合的汉语词性标注模型,并对传统的Viterbi算法进行了扩展。对统计模型中出现的数据稀疏问题,给出了基于线性插值法的平滑算法,实验表明,完全二阶隐马尔可夫模型比标准的二元,三元模型有更高的词性标注正确率和消歧率。  相似文献   

7.
信息抽取是从大量的数据中准确、快速地获取目标信息,提高信息的利用率。考虑网页数据的特点,提出一种适用于网页信息抽取改进的隐马尔科夫模型(HMM),即结合最大熵模型(ME)在特征知识表示方面的优势,在HMM模型中加入后向依赖,利用发射单元特征来调整模型参数。改进后的HMM状态转移概率和观察输出概率不仅依赖于模型的当前状态值,而且可以以模型的前向状态值和后向特征值加以修正。实验结果表明,使用改进后的HMM模型应用到网页信息抽取中,可以有效地提高网页信息抽取的质量。  相似文献   

8.
HMM在自然语言处理领域占有很重要的地位.通常可以解决三大问题,主要针对第一个问题:给定HMM,计算观察序列的概率.提出了一种HMM的扩展模型,利用该扩展模型,计算观察序列概率的时间复杂度为T,大大节约了开支.但该模型也存在一定的不足之处,也是以后的研究方向.  相似文献   

9.
针对模拟电路运行过程中存在的不确定性,对传统的隐马尔可夫模型(HMM)进行了改进,将模型中满足不变性的状态转移概率矩阵改为时变状态转移概率矩阵,使之更符合实际情况。在状态初期为了防止状态转移概率发生过度更新,设置了更新概率控制因子。采用线性辨别分析(LDA)方法对测量信号进行特征提取,用于HMM的训练和测试,从而实现模拟电路早期故障的识别和诊断。仿真结果表明,改进后的HMM具有更强的故障识别和诊断能力。  相似文献   

10.
语音识别关键技术研究   总被引:11,自引:0,他引:11  
采用隐马尔可夫模型(HMM)进行语音声学建模是大词汇连续语音识别取得突破性进展最主要的原因之一,HMM本身依赖的某些不合理建模假设和不具有区分性的训练算法正在成为制约语音识别系统未来发展的瓶颈。神经网络依靠权能够进行长时间记忆和知识存储,但对于输入模式的瞬时响应的记忆能力比较差。采用混合HMM/ANN模型对HMM的一些不尽合理的建模假设和训练算法进行了革新。混合模型用神经网络非参数概率模型代替高斯混合器(GM)计算HMM的状态所需要的观测概率。另外对神经网络的结构进行了优化,取得了很好的效果。  相似文献   

11.
黄光球  汪晓海 《计算机工程》2007,33(10):131-133,163
提出了基于BP-HMM模型的网络入侵检测方法,给出了该模型的训练和识别方法.由于纯粹的HMM建立的分类器不能兼顾每个模型对其对应目标有很强的识别能力和模型之间差异性的最大化,因此将BP神经网络集成到HMM框架中,用BP网络为HMM提供状态概率输出.通过BP网络的粗分类,克服了HMM的缺陷,提高了系统的分类识别能力.  相似文献   

12.
提出一种基于改进的HMM-SVM混合模型手写汉字签名认证方法.利用HMM对两类训练签名数据进行有区分性的特征变换及数据压缩.HMM的多雏概率输出作为SVM模型的输入矢量.SVM的输出通过Sigmoid函数转化为后验概率以进一步提高认证效果.使用SVC2004数据库中的签名数据对该方法进行验证和分析,结果表明,相对于HMM模型和SVM方法以及HMM-SUM混合模型,该方法可以有效降低等错误率EER,获得了比较好的效果.  相似文献   

13.
为使得隐马尔可夫模型(HMM)能够处理非相邻可见符号之间的依赖关系,将延时机制引入标准的HMM中。该技术仅仅改变了高阶状态发射概率的计算。所有适用于HMM的算法基本保持不变。该文设计了一个一阶延时隐马尔可夫模型和一个一阶标准隐马尔可夫模型,将两者分别应用于水稻基因剪接供体位点的识别。识别结果显示,延时模型的判别能力在一定程度上优于标准模型。对那些特征很不符合的位点,延时模型给出了相对低得多的得分。  相似文献   

14.
基于HMM的卡尔曼蛇跟踪   总被引:1,自引:0,他引:1  
隐马尔科夫模型(HMM)提供了一种概率框架融合多量测信息,并能够通过转移概率来表达曲线的平滑性,以得到更准确的量测结果.利用HMM所得到的结果作为量测信息输入到卡尔曼蛇滤波系统中,可明显地增强抗干扰能力和跟踪的鲁棒性.从样条向量空间新的内积与范数定义出发,对于形状矩阵的正交化处理可以进一步增强滤波系统的稳定性,增加模型与参数的可控性。  相似文献   

15.
柯尔克孜语的语言信息处理研究,对新疆柯尔克孜族是否能跨入信息时代,传承民族文化起着至关重要的作用。采用两级标注法,基于传统的HMM理论,改进了HMM模型参数的计算、数据平滑和未登入词的处理方法,更好地体现了上下文依赖关系。同时,把基于自动分词词典的词干提取算法与规则和统计相结合的方法用于柯尔克孜语的词性标注系统上。相对于传统的HMM,改进后的方法有效提高了准确性。  相似文献   

16.
针对传统隐马尔可夫模型(HMM)状态转移概率仅与前一状态有关的不足,提出了一种改进的隐马尔可夫模型(Im-proved-HMM),该模型考虑到状态转移概率与前两时刻状态相关,旨在提高异常检测准确率。用基于Improved-HMM的Baum-Welch(BW)算法对正常进程行为进行建模,并采用滑动窗口的方法,检测进程行为是否处于异常状态。实验结果表明,该模型的检测准确率高于传统的HMM模型,能及时、准确检测到进程行为的异常。  相似文献   

17.
连续字符识别的级联HMM训练算法   总被引:2,自引:0,他引:2  
赵巍  刘家锋  唐降龙  吴锐 《计算机学报》2007,30(12):2142-2150
用较简洁的模型表达词典中成千上万的词条以及由这些词组成的类别无以计数的句子,是连续手写识别技术要解决的关键问题之一.利用HMM对时间序列的较强的建模能力这一特点,提出了可用于连续字符识别的HMM级联模型;给出了字符HMM模型连接概率和模型间状态转移概率的定义,并通过修正训练算法的重估公式,重估字符模型的连接参数,描述了用于手写体识别的字符HMM的设计方案;给出了级联训练算法重估公式和级联Baum-Welch训练算法描述.将级联方法应用于手写体英文单词的识别,结果表明,级联模型的描述能力与比较系统相比有明显的优势,获得了良好的识别性能.  相似文献   

18.
传统的网络入侵检测方法存在着检测率低和无法进行在线检测的问题,为此设计了一种基于节点生长马氏距离K均值和HMM的网络入侵检测方法;首先,给出了入侵检测系统框图,然后,以马氏距离为评价准则,提出了一种节点根据距离阈值进行自适应生长的K均值算法以实现样本的聚类,得到样本属于各攻击类型的后验概率,并采用此后验概率来初始化HMM中的初始矢量分布、状态转移概率和观察值概率等参数,通过前向评估准则和后向评估准则对HMM模型进行训练,从而获得了HMM检测模型,将样本输入到各检测模型中并将概率最大的检测模型作为其攻击类型;仿真试验表明所提方法能有效地实现网络入侵检测,不仅具有较高的检测率,而且具有较低的误检率和漏检率,是一种有效的网络入侵检测方法。  相似文献   

19.
基于NN/HMM混合模型的汉语短关键词识别系统   总被引:1,自引:0,他引:1  
本文介绍了针对汉语单音节验证的分类器.与以往的方法相比较本文作了两项改进:一是按照汉字的发音特点和声学特征来构造识别器中的填充模型;二是结合HMM的统计特性和神经元网络(NN)的分类能力来对假想命中进行验证,NN的输入不是传统的特征矢量,而是一系列HMM的输出概率和模型驻留时间.实验表明,新方法比两个基准模型分别有15.2%和19.2%的提高.  相似文献   

20.
词性标注中生词处理算法研究   总被引:6,自引:0,他引:6  
词性兼类是自然语言理解必须解决的一类非常重要的歧义现象,尤其是对生词的词性歧义处理有很大的难度。文章基于隐马尔科夫模型(HMM),通过将生词的词性标注问题转化为求词汇发射概率,在词性标注中提出了一种生词处理的新方法。该方法除了用到一个标注好的单语语料库外,没使用任何其他资源(比如语法词典、语法规则等),封闭测试正确率达97%左右,开放测试正确率也达95%左右,基本上达到了实用的程度。同时还给出了与其他同样基于HMM的词性标注方法的测试比较结果,结果表明本文方法的标注正确率有较大的提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号