期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于多模板隐马尔可夫模型的文本信息抽取算法 总被引：4，自引：0，他引：4

钟敏娟郝谦刘云中《计算机工程》2006,32(2):203-205

针对训练数据来源的多样化，提出了基于多模板隐马尔可夫模型的广本信息抽取算法。该算法利用形式的聚类方法将训练数据聚成几个类，每个类代表一个模板，在聚类的基础上利用隐马尔可丈模型进行文本的信息抽取。实验结果表明，新算法具有较高的精确度和召回率。相似文献

2.

基于隐马尔可夫模型的Web信息抽取

刘亚清陈荣《计算机工程》2009,35(18):25-27

针对Web信息抽取领域中存在的“项缺失”和“项无序”问题,提出一种基于隐马尔可夫模型的Web信息抽取方法。将Web文档解析为一棵扩展的DOM树,映射待抽取的信息项为状态,映射待抽取的信息项在扩展DOM树中的路径为词汇,使用归纳算法构造隐马尔可夫模型。实验结果证明该方法可以获得更好的抽取性能。相似文献

3.

基于隐马尔可夫模型的中文科研论文信息抽取

下载免费PDF全文

于江德樊孝忠尹继豪顾益军《计算机工程》2007,33(19):190-192

随着大量的科研论文出现在互联网上,从中精确地抽取论文头部信息和引文信息显得十分重要。该文提出了一种基于隐马尔可夫模型的中文科研论文头部信息和引文信息抽取算法,分析了模型结构的学习和参数估计方法。在进行信息抽取时,利用分隔符、特定标识符等格式信息对文本进行分块,利用隐马尔可夫模型进行指定域的抽取。实验结果表明,该算法具有良好的准确率和召回率。相似文献

4.

混合遗传算法和隐马尔可夫模型的Web信息抽取

下载免费PDF全文

肖基毅邹腊梅李传琦《计算机工程与应用》2008,44(18):132-135

传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数。提出了一种使用遗传算法优化HMM模型参数的Web信息抽取混合算法。该算法使用实数矩阵编码表示染色体,似然概率值为适应度取值,将GA与Baum-Welch算法相结合对HMM模型参数进行全局优化,并且调整GA-HMM的Baum-Welch算法参数实现Web信息抽取。实验结果表明,新的算法在精确度和召回率指标上比传统HMM具有更好的性能。相似文献

5.

基于多模板隐马尔可夫模型的文本信息抽取算法 总被引：1，自引：0，他引：1

胡宇舟王雷顾学道《计算机应用》2008,28(3):699-702

由于训练数据来源的多样化,难以通过学习得到最优的模型参数,因此提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法。该算法首先利用文本排版格式和分隔符等信息,对文本进行分块;然后在分块的基础上,对训练数据进行聚类以形成多个形式的模板（多模板）,并对多模板数据训练得到隐马尔可夫初始概率及转移概率参数;最后,用被训练的数据统一训练释放概率参数,结合初始概率、转移概率以及释放概率参数对文本信息进行抽取。实验结果表明,该算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能。相似文献

6.

基于改进的隐马尔可夫模型在网页信息抽取中的研究与应用

《计算机应用与软件》2017,(2)

信息抽取是从大量的数据中准确、快速地获取目标信息,提高信息的利用率。考虑网页数据的特点,提出一种适用于网页信息抽取改进的隐马尔科夫模型(HMM),即结合最大熵模型(ME)在特征知识表示方面的优势,在HMM模型中加入后向依赖,利用发射单元特征来调整模型参数。改进后的HMM状态转移概率和观察输出概率不仅依赖于模型的当前状态值,而且可以以模型的前向状态值和后向特征值加以修正。实验结果表明,使用改进后的HMM模型应用到网页信息抽取中,可以有效地提高网页信息抽取的质量。相似文献

7.

隐马尔可夫模型解决信息抽取问题的仿真研究

史西兵王浩鸣《计算机仿真》2010,27(5):132-135

研究Web文档服务的准确性和快速性,网络信息抽取成为处理海量网络信息的重要手段,而大量异构信息的有效抽取是非常困难的,为了改进和提高系统对于海量异构网页信息的抽取查全率和查准率,提出了一种新的信息抽取的方法,算法利用了隐马尔可夫模型在处理规则知识上的优势对每个页面构建HTML树,并利用Shannon熵来定位数据域,再用Maxi-mum Likelihood方法实现隐马尔可夫模型的构建,实现对Web信息的抽取。仿真结果表明,通过对大量学术论文头部结构信息的抽取,应用算法可以使信息抽取在召回率和准确率方面有明显的提高。相似文献

8.

隐马尔可夫模型在环保档案信息抽取中的应用

潘鹏诸云强朱琦赵晓宏《计算机工程与应用》2012,48(26):243-248

面对突出的环境问题,亟需有效的方法从环境保护档案中抽取有用的信息用于支持环境保护等宏观决策。以建设项目环境影响报告书为例,研究如何利用隐马尔可夫模型来抽取建设项目的环境影响评价信息。阐明隐马尔可夫模型的原理与应用情况,分析报告书特点并明确应用模型进行报告书文本信息抽取的基本思想,并给出模型建立和应用的方法及具体步骤。通过实例验证得出,利用隐马尔可夫模型抽取环境保护信息能够获得较高的召回率和精确度,整体效果较好。相似文献

9.

基于最大熵马尔可夫模型的地址信息抽取 总被引：3，自引：0，他引：3

王胜朱明《计算机工程与应用》2005,41(21):192-194

互联网的迅速发展,以及人们对于信息需求的提高,使得网络信息的自动处理和挖掘成为了研究热点。在与网络文本相关的信息抽取任务中,观察值序列都是给定的,所以不需要考虑得到观察值的概率,而只需要关注观察值引起的状态转移的概率。最大熵马尔可夫通过改变概率转移函数,使得状态的转移与输入值以及前一状态相联系,很好地体现了序列的上下文信息。通过最大熵马尔科夫模型进行地址信息抽取,精确度和召回率都得到了很大的改进。相似文献

10.

一种改进的基于HMM的信息抽取模型

洪流张巍肖明军蔡庆生《模式识别与人工智能》2004,17(3)

隐马尔可夫模型(HMM)作为一种有效的概率工具,已成为信息抽取领域中一个新的研究方向.本文针对其在Web信息抽取中存在的网页结构特征利用不足的问题,给出了一种改进的模型.它通过扩展HMM中输出符号的定义,由一维扩展到多维,实现对网页结构特性的有效利用.试验表明,改进后的模型是稳定有效的,准确率平均提高了约10%. 相似文献

11.

基于改进HMM的文本信息抽取模型 总被引：1，自引：0，他引：1

下载免费PDF全文

梁吉光田俊华姜杰《计算机工程》2011,37(20):178-179

提出一种基于改进隐马尔可夫模型(HMM)的文本信息抽取模型。给出一个新假设,使用绝对平滑算法对模型参数进行平滑,利用Viterbi算法对观察值序列进行正序和逆序解码,基于N-Gram模型对2次解码结果进行对比消歧,得到较准确的状态序列。实验结果表明,该信息抽取模型能提高信息抽取的准确率。相似文献

12.

基于Deep Web的信息采集系统

王冉冉王刚黄青松《微机发展》2007,17(10):171-173

随着互联网技术的迅速发展,大量结构化的高质量信息被埋入网络,却无法被传统的搜索引擎检索到,进而难以被挖掘利用。针对这一现象,提出了基于Deep Web的信息采集系统,设计了基于Web的查询方式,并结合数据挖掘的相关技术,获取并挖掘深网信息资源,解决传统手工采集信息的弊端,提高系统的使用效率,避免人工搜集时间和费用上的开销,降低成本,便于维护。并且正在云南省大型仪器协作共用网络平台的建设中尝试实现这个子系统的设计。相似文献

13.

基于HTML模式代数的Web信息提取方法 总被引：3，自引：0，他引：3

李石君于俊清欧伟杰《计算机研究与发展》2006,43(9):1644-1650

高效地生成提取Web信息的包装器有着广阔的应用前景,同时也是至今没有得到有效解决的难题.为此,提出了基于HTML文档的模式代数,该代数包括一致模式集等重要概念以及模式的加法运算.在此基础上,提出了一种提取Web信息的新方法,该方法采用在整个训练例子中学习表示各属性提取规则的一致模式集,再由多个模式组成的一致模式集提取数据,适用于提取具有缺省属性、多值属性、属性具有多种不同顺序的表结构网页和层次结构网页,其有效性在原型系统中通过实验得到验证. 相似文献

14.

文法推断与HMM相结合的信息提取

下载免费PDF全文

卢正鼎董泽锋《计算机工程与科学》2005,27(8):1-3

本文提出了一种结合文法推断和HMM进行信息提取的方法。首先将待提取的原始文本转换为相应有意义的一个小的抽象符号集合,然后通过使用文法推断（GI）获取一个合适的HMM拓扑结构,最后利用所得的HMM拓扑结构,使用经典的Viterbi算法提取出用户感兴趣的信息。实验结果表明,针对半结构化文档,该方法在某些领域能够有效地提高提取的精确度。相似文献

15.

正则表达式的Web数据提取研究

LIU Songye 《电脑编程技巧与维护》2008,(16)

Internet正在日益成为一个重要的信息来源,如何对Web数据进行检索和加工,使得用户能够更好地利用Internet上的数据资源己经成为了新的研究热点。文中论述了半自动化数据提取算法,其中使用了基于扩展正则表达式的信息槽提取算法和基于网页特性的事件分割算法。同时描述了利用这些算法的信息提取系统,并详细介绍了系统的体系结构和实现细节。该系统可以被用于真实的Web环境中以提高存储、利用信息的效率,在一定程度上解决在Internet上获取信息及利用信息的困难。相似文献

16.

正则表达式的Web数据提取研究 总被引：1，自引：0，他引：1

刘松业《电脑编程技巧与维护》2008,(15):89-91

Internet正在日益成为一个重要的信息来源,如何对Web数据进行检索和加工,使得用户能够更好地利用Intemet上的数据资源己经成为了新的研究热点。文中论述了半自动化数据提取算法,其中使用了基于扩展正则表达式的信息槽提取算法和基于网页特性的事件分割算法。同时描述了利用这些算法的信息提取系统,并详细介绍了系统的体系结构和实现细节。该系统可以被用于真实的Web环境中以提高存储、利用信息的效率,在一定程度上解决在Internet上获取信息及利用信息的困难。相似文献

17.

基于Web的表格信息抽取研究

秦振海谭守标徐超《微机发展》2010,(2):217-220

如今,Web成为了网络信息的主要平台。根据研究发现,表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析。在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取。相似文献

18.

基于KPS的Web信息抽取MAS模型的研究

钱君段隆振熊必成张和江《计算机与现代化》2007,(9):79-82,85

在现有的相关研究的基础上,提出一个基于KPS的Web信息抽取的多Agent系统(MAS)模型.基于KPS的Web信息抽取方法集合了分别基于关键字、模式和样本的信息抽取技术的优点,有利于满足抽取高精度、高复杂度和高性能信息的要求.一个多Agent系统(MAS)可以把问题由大化小,由复杂变简单,每个Agent完成一个小目标,Agent间通过协调和合作,共同完成复杂的Web信息处理.而将基于KPS的Web信息抽取方法与多Agent系统进行有机的结合,可以大大降低Web信息抽取的难度,提高信息抽取的精度,从而更大地满足用户的需求. 相似文献

19.

基于模板流程配置的Web信息抽取 总被引：1，自引：0，他引：1

下载免费PDF全文

刘辉陈静玉徐学洲《计算机工程》2008,34(20):55-57

针对Web信息抽取中存在的包装器构造复杂及抽取精度等问题,提出并实现了一种基于模板流程配置的Web信息抽取框架。将用户请求、访问和获取Web页面的动作进行分解,抽取其中的动作模式,并映射到流程配置模板中的节点。通过流程解析器对用户创建的流程配置XML描述文档进行解析,抽取感兴趣的信息。试验结果表明,系统可快速、准确地实现抽取。相似文献