共查询到19条相似文献,搜索用时 78 毫秒
1.
2.
基于隐马尔可夫模型的Web信息抽取 总被引:1,自引:1,他引:0
针对Web信息抽取领域中存在的“项缺失”和“项无序”问题,提出一种基于隐马尔可夫模型的Web信息抽取方法。将Web文档解析为一棵扩展的DOM树,映射待抽取的信息项为状态,映射待抽取的信息项在扩展DOM树中的路径为词汇,使用归纳算法构造隐马尔可夫模型。实验结果证明该方法可以获得更好的抽取性能。 相似文献
3.
4.
传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数。提出了一种使用遗传算法优化HMM模型参数的Web信息抽取混合算法。该算法使用实数矩阵编码表示染色体,似然概率值为适应度取值,将GA与Baum-Welch算法相结合对HMM模型参数进行全局优化,并且调整GA-HMM的Baum-Welch算法参数实现Web信息抽取。实验结果表明,新的算法在精确度和召回率指标上比传统HMM具有更好的性能。 相似文献
5.
基于多模板隐马尔可夫模型的文本信息抽取算法 总被引:1,自引:0,他引:1
由于训练数据来源的多样化,难以通过学习得到最优的模型参数,因此提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法。该算法首先利用文本排版格式和分隔符等信息,对文本进行分块;然后在分块的基础上,对训练数据进行聚类以形成多个形式的模板(多模板),并对多模板数据训练得到隐马尔可夫初始概率及转移概率参数;最后,用被训练的数据统一训练释放概率参数,结合初始概率、转移概率以及释放概率参数对文本信息进行抽取。实验结果表明,该算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能。 相似文献
6.
《计算机应用与软件》2017,(2)
信息抽取是从大量的数据中准确、快速地获取目标信息,提高信息的利用率。考虑网页数据的特点,提出一种适用于网页信息抽取改进的隐马尔科夫模型(HMM),即结合最大熵模型(ME)在特征知识表示方面的优势,在HMM模型中加入后向依赖,利用发射单元特征来调整模型参数。改进后的HMM状态转移概率和观察输出概率不仅依赖于模型的当前状态值,而且可以以模型的前向状态值和后向特征值加以修正。实验结果表明,使用改进后的HMM模型应用到网页信息抽取中,可以有效地提高网页信息抽取的质量。 相似文献
7.
研究Web文档服务的准确性和快速性,网络信息抽取成为处理海量网络信息的重要手段,而大量异构信息的有效抽取是非常困难的,为了改进和提高系统对于海量异构网页信息的抽取查全率和查准率,提出了一种新的信息抽取的方法,算法利用了隐马尔可夫模型在处理规则知识上的优势对每个页面构建HTML树,并利用Shannon熵来定位数据域,再用Maxi-mum Likelihood方法实现隐马尔可夫模型的构建,实现对Web信息的抽取。仿真结果表明,通过对大量学术论文头部结构信息的抽取,应用算法可以使信息抽取在召回率和准确率方面有明显的提高。 相似文献
8.
面对突出的环境问题,亟需有效的方法从环境保护档案中抽取有用的信息用于支持环境保护等宏观决策。以建设项目环境影响报告书为例,研究如何利用隐马尔可夫模型来抽取建设项目的环境影响评价信息。阐明隐马尔可夫模型的原理与应用情况,分析报告书特点并明确应用模型进行报告书文本信息抽取的基本思想,并给出模型建立和应用的方法及具体步骤。通过实例验证得出,利用隐马尔可夫模型抽取环境保护信息能够获得较高的召回率和精确度,整体效果较好。 相似文献
9.
基于最大熵马尔可夫模型的地址信息抽取 总被引:3,自引:0,他引:3
互联网的迅速发展,以及人们对于信息需求的提高,使得网络信息的自动处理和挖掘成为了研究热点。在与网络文本相关的信息抽取任务中,观察值序列都是给定的,所以不需要考虑得到观察值的概率,而只需要关注观察值引起的状态转移的概率。最大熵马尔可夫通过改变概率转移函数,使得状态的转移与输入值以及前一状态相联系,很好地体现了序列的上下文信息。通过最大熵马尔科夫模型进行地址信息抽取,精确度和召回率都得到了很大的改进。 相似文献
10.
隐马尔可夫模型(HMM)作为一种有效的概率工具,已成为信息抽取领域中一个新的研究方向.本文针对其在Web信息抽取中存在的网页结构特征利用不足的问题,给出了一种改进的模型.它通过扩展HMM中输出符号的定义,由一维扩展到多维,实现对网页结构特性的有效利用.试验表明,改进后的模型是稳定有效的,准确率平均提高了约10%. 相似文献
11.
12.
随着互联网技术的迅速发展,大量结构化的高质量信息被埋入网络,却无法被传统的搜索引擎检索到,进而难以被挖掘利用。针对这一现象,提出了基于Deep Web的信息采集系统,设计了基于Web的查询方式,并结合数据挖掘的相关技术,获取并挖掘深网信息资源,解决传统手工采集信息的弊端,提高系统的使用效率,避免人工搜集时间和费用上的开销,降低成本,便于维护。并且正在云南省大型仪器协作共用网络平台的建设中尝试实现这个子系统的设计。 相似文献
13.
基于HTML模式代数的Web信息提取方法 总被引:3,自引:0,他引:3
高效地生成提取Web信息的包装器有着广阔的应用前景,同时也是至今没有得到有效解决的难题.为此,提出了基于HTML文档的模式代数,该代数包括一致模式集等重要概念以及模式的加法运算.在此基础上,提出了一种提取Web信息的新方法,该方法采用在整个训练例子中学习表示各属性提取规则的一致模式集,再由多个模式组成的一致模式集提取数据,适用于提取具有缺省属性、多值属性、属性具有多种不同顺序的表结构网页和层次结构网页,其有效性在原型系统中通过实验得到验证. 相似文献
14.
本文提出了一种结合文法推断和HMM进行信息提取的方法。首先将待提取的原始文本转换为相应有意义的一个小的抽象符号集合,然后通过使用文法推断(GI)获取一个合适的HMM拓扑结构,最后利用所得的HMM拓扑结构,使用经典的Viterbi算法提取出用户感兴趣的信息。实验结果表明,针对半结构化文档,该方法在某些领域能够有效地提高提取的精确度。 相似文献
15.
基于重复模式的Web信息抽取 总被引:1,自引:1,他引:1
网页中的大量数据记录往往以重复的HTML结构进行有规律的组织,从而形成一致的表现形式。根据这一特征,本文给出一种基于重复模式的Web内容抽取方法。通过使用一种叫做后缀树的数据结构,分析页面结构中所包含的重复模式,进而从模式的实例中抽取出对应的数据记录。 相似文献
16.
LIU Songye 《电脑编程技巧与维护》2008,(16)
Internet正在日益成为一个重要的信息来源,如何对Web数据进行检索和加工,使得用户能够更好地利用Internet上的数据资源己经成为了新的研究热点。文中论述了半自动化数据提取算法,其中使用了基于扩展正则表达式的信息槽提取算法和基于网页特性的事件分割算法。同时描述了利用这些算法的信息提取系统,并详细介绍了系统的体系结构和实现细节。该系统可以被用于真实的Web环境中以提高存储、利用信息的效率,在一定程度上解决在Internet上获取信息及利用信息的困难。 相似文献
17.
正则表达式的Web数据提取研究 总被引:1,自引:0,他引:1
刘松业 《电脑编程技巧与维护》2008,(15):89-91
Internet正在日益成为一个重要的信息来源,如何对Web数据进行检索和加工,使得用户能够更好地利用Intemet上的数据资源己经成为了新的研究热点。文中论述了半自动化数据提取算法,其中使用了基于扩展正则表达式的信息槽提取算法和基于网页特性的事件分割算法。同时描述了利用这些算法的信息提取系统,并详细介绍了系统的体系结构和实现细节。该系统可以被用于真实的Web环境中以提高存储、利用信息的效率,在一定程度上解决在Internet上获取信息及利用信息的困难。 相似文献
18.
如今,Web成为了网络信息的主要平台。根据研究发现,表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析。在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取。 相似文献