首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 31 毫秒
1.
随着因特网技术的迅速发展,网上信息成几何级数增长,如何从这些海量联机非结构化文本中自动抽取出结构化信息成为目前重要的研究课题。研究了基于隐马尔可夫模型的Web信息抽取算法,着重探讨了隐马尔可夫模型在文本信息抽取中应该如何应用,数据应该如何标记,并对隐马尔可夫模型在文本信息抽取中的应用提出了几个改进的方法,建立了基于HMM的Web信息抽取模型,并对信息抽取后的数据进行了分析对比,验证了改进算法的有效性。  相似文献   

2.
隐马尔可夫模型(HMM)作为一种有效的概率工具,已成为信息抽取领域中一个新的研究方向.本文针对其在Web信息抽取中存在的网页结构特征利用不足的问题,给出了一种改进的模型.它通过扩展HMM中输出符号的定义,由一维扩展到多维,实现对网页结构特性的有效利用.试验表明,改进后的模型是稳定有效的,准确率平均提高了约10%.  相似文献   

3.
基于改进HMM的文本信息抽取模型   总被引:1,自引:0,他引:1       下载免费PDF全文
梁吉光  田俊华  姜杰 《计算机工程》2011,37(20):178-179
提出一种基于改进隐马尔可夫模型(HMM)的文本信息抽取模型。给出一个新假设,使用绝对平滑算法对模型参数进行平滑,利用Viterbi算法对观察值序列进行正序和逆序解码,基于N-Gram模型对2次解码结果进行对比消歧,得到较准确的状态序列。实验结果表 明,该信息抽取模型能提高信息抽取的准确率。  相似文献   

4.
传统的文本信息抽取算法通常基于词典、规则或其他模型实现,但由于词典建立困难、规则设定模糊或模型结构单一等原因,信息抽取的准确性通常较低。针对传统的文本信息抽取算法存在的多种不足,提出一种基于混合模型的文本信息抽取算法。该算法融合了多种信息抽取方法,引入支持向量机对信息进行分类,利用S型函数拟合调整模型参数,并采用数据平滑技术优化模型概率空间。实验结果表明,与传统的文本信息抽取算法相比,该算法信息抽取的精确度和召回率明显提高,具有较好的可行性。  相似文献   

5.
作为自然语言处理的一个分支,文本信息抽取成为了提取大量文本信息中有用信息的重要手段.介绍了目前在信息抽取领域中应用广泛的两种技术方法:HMM和BP网络模型,分析了各自的优缺点,并在此基础上提出了一种基于两者的混合模型,该混合模型通过BP网络优秀的分类甄别能力来弥补HMM在分类方面的不足,而通过HMM强大的时域建模能力来弥补BP网络建模能力弱的问题,因此该模型具有强大的建模能力、分类性以及适应性强等特点.实验证明,相比传统的HMM以及BP网络模型,该混和模型在精确度和召回率上有了10%~15%的提高.  相似文献   

6.
基于隐马尔可夫模型的Web信息抽取   总被引:1,自引:1,他引:0       下载免费PDF全文
刘亚清  陈荣 《计算机工程》2009,35(18):25-27
针对Web信息抽取领域中存在的“项缺失”和“项无序”问题,提出一种基于隐马尔可夫模型的Web信息抽取方法。将Web文档解析为一棵扩展的DOM树,映射待抽取的信息项为状态,映射待抽取的信息项在扩展DOM树中的路径为词汇,使用归纳算法构造隐马尔可夫模型。实验结果证明该方法可以获得更好的抽取性能。  相似文献   

7.
依存分析和HMM相结合的信息抽取方法   总被引:1,自引:0,他引:1  
信息抽取是文本信息处理的一个重要环节,当前的信息抽取研究工作大多针对半结构化的文本。针对自由文本,提出一种依存分析和HMM相结合的文本信息抽取算法,该算法在运用依存分析对句子进行浅层句法分析的基础上制定相应规则,形成输入序列,结合HMM易于建立、适应性好、抽取精度较高的优势,实现自由文本的信息抽取。实验结果表明,新的算法在召回率、准确率和正确率指标上均有良好的性能,说明了算法的有效性,为文本信息的抽取提供了新思路。  相似文献   

8.
基于HMM和小波神经网络混合模型的Web信息抽取   总被引:1,自引:0,他引:1  
提出一种将隐马尔科夫模型(HMM)和小波神经网络(WNN)相结合的混合模型应用于信息抽取。其首先将网页节点特征化,并依据网页内容建立不同的HMM,之后通过WNN调用相应的HMM用于信息抽取。HMM无法准确抽取的重要信息,利用WNN做辅助判别。实验证明,该混合模型可以提高Web信息抽取的精准度。  相似文献   

9.
信息抽取是从大量的数据中准确、快速地获取目标信息,提高信息的利用率。考虑网页数据的特点,提出一种适用于网页信息抽取改进的隐马尔科夫模型(HMM),即结合最大熵模型(ME)在特征知识表示方面的优势,在HMM模型中加入后向依赖,利用发射单元特征来调整模型参数。改进后的HMM状态转移概率和观察输出概率不仅依赖于模型的当前状态值,而且可以以模型的前向状态值和后向特征值加以修正。实验结果表明,使用改进后的HMM模型应用到网页信息抽取中,可以有效地提高网页信息抽取的质量。  相似文献   

10.
传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数。提出了一种使用遗传算法优化HMM模型参数的Web信息抽取混合算法。该算法使用实数矩阵编码表示染色体,似然概率值为适应度取值,将GA与Baum-Welch算法相结合对HMM模型参数进行全局优化,并且调整GA-HMM的Baum-Welch算法参数实现Web信息抽取。实验结果表明,新的算法在精确度和召回率指标上比传统HMM具有更好的性能。  相似文献   

11.
传统的关键字提取方法一般基于TFIDF,不仅消耗的时间过多,而且效果也不理想。提出用信息增益的思想来对文中的词进行权重的计算,并在此基础上结合改进的PageRank来提取文中的关键字。实验结果表明,该种方法得到的结果明显优于传统方法得到的结果。  相似文献   

12.
改进的互信息量相似度曲线关键帧提取研究   总被引:1,自引:0,他引:1  
关键帧提取是基于内容视频检索和比对等工作的关键步骤,它的准确性和效率是后续工作的基础。针对目前关键帧提取存在的阈值选择困难、算法复杂等问题提出改进的互信息量关键帧提取算法,构造基于非均匀分块加权HSV直方图的互信息量相似度曲线检测算法,取相邻两高曲率点的中间帧作为关键帧。实验结果表明,该算法无需阈值选择,能实现关键帧自动提取并且只需要一次扫描就能快速得到准确的关键帧。  相似文献   

13.
针对QoS多目标优化问题,提出一种改进的遗传算法,并将其应用到解决路由优化问题。该算法在路由器数学模型的基础上满足带宽、延迟、花费等要求,以资源消耗和负载均衡分布为目标,使得资源消耗最小同时负载均衡分布,从而降低网路拥塞的发生。仿真证明该算法具有一定的优越性。  相似文献   

14.
基于多知识的Web网页信息抽取方法   总被引:10,自引:1,他引:9  
从Web网页中自动抽取所需要的信息内容,是互联网信息智能搜取的一个重要研究课题,为有效解决网页信息抽取所需的信息描述知识获取问题,这里提出了一个种基于多知识的Web网页信息抽取方法(简称MKIE方法)。该方法将网页信息抽取所需的知识分为二类,一类是描绘网页内容本身表示特点,以及识别各网信息对象的确定模式知识,另一类则描述网页信息记录块,以及各网页信息对象的非确定模式知识,MKIE方法根据前一类知识,动态分析获得后一类知识;并利用这两类知识,最终完全从信息内容类似担其表现形式各异的网页中,抽取出所需要的信息,美大学教员论文网页信息抽取实验结果表明,MKIE方法具有较强的网而信息自动识别与抽取能力。  相似文献   

15.
基于改进遗传算法的智能组卷系统研究   总被引:1,自引:0,他引:1  
试题组卷是考试系统的重要组成部分.通过在编码策略、适应度函数、遗传算子、控制参数等方面的研究提出一种适应于试题智能组卷的改进遗传算法.对适应度函数的适当定标和建立自适应的交叉概率和变异概率,有利于克服未成熟收敛和遗传漂移现象,同时能在维持群体多样性的情况下,防止群体进入局部最优.实验证明改进遗传算法比传统的遗传算法能更有效地提高组卷的效率.  相似文献   

16.
为了解决经典的Goldstein枝切线法容易生成过长的枝切线和较多封闭区域的问题,提出一种基于改进模拟退火遗传算法的INSAR(Interferometric Synthetic Aperture Radar)相位解缠算法。该算法首先对部分残差点进行预处理,生成极性平衡的小段枝切线,然后使用改进模拟退火遗传算法求解剩余残差点的优化组合。经这两步处理后,所得到的枝切线的总长度和封闭区域的数量都明显减少。对真实INSAR数据的实验结果表明,该算法在运行时间和解缠精度上均有一定的优越性。  相似文献   

17.
组卷问题是一个多目标约束优化问题,采用集合论思想,将智能组卷的要求形式化,提出了一种基于改进遗传算法来进行智能组卷的方法.该算法针对传统智能算法组卷速度慢、成功率低的缺点,针对简单遗传算法的编码、遗传算子存在的问题进行了改进.实验结果表明,改进的算法在保证试题产生的质量前提下,提高了智能组卷的运行速度,具有较好的实用性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号