首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
随着因特网技术的迅速发展,网上信息成几何级数增长,如何从这些海量联机非结构化文本中自动抽取出结构化信息成为目前重要的研究课题。研究了基于隐马尔可夫模型的Web信息抽取算法,着重探讨了隐马尔可夫模型在文本信息抽取中应该如何应用,数据应该如何标记,并对隐马尔可夫模型在文本信息抽取中的应用提出了几个改进的方法,建立了基于HMM的Web信息抽取模型,并对信息抽取后的数据进行了分析对比,验证了改进算法的有效性。  相似文献   

2.
韩普  姜杰 《微机发展》2010,(2):245-248,252
隐马尔可夫模型(HMM)是一种强大的统计学机器学习技术,该模型已经成功地应用于连续语音识别、在线手写识别,在生物学信息中也得到了广泛的应用。由于该模型的强大的学习能力,在自然语言处理领域逐渐得到了应用。对隐马尔可夫模型在词性标注、命名实体识别、信息抽取应用中的关键问题进行了分析。着重分析了在信息抽取时使用隐马尔可夫模型的重点和难点问题,期望让更多的研究人员进一步认识和了解HMM。最后分析了隐马尔可夫模型在应用中的不足之处和改进研究。  相似文献   

3.
HMM在自然语言处理领域中的应用研究   总被引:2,自引:1,他引:1  
韩普  姜杰 《计算机技术与发展》2010,20(2):245-248,252
隐马尔可夫模型(HMM)是一种强大的统计学机器学习技术,该模型已经成功地应用于连续语音识别、在线手写识别,在生物学信息中也得到了广泛的应用。由于该模型的强大的学习能力,在自然语言处理领域逐渐得到了应用。对隐马尔可夫模型在词性标注、命名实体识别、信息抽取应用中的关键问题进行了分析。着重分析了在信息抽取时使用隐马尔可夫模型的重点和难点问题,期望让更多的研究人员进一步认识和了解HMM。最后分析了隐马尔可夫模型在应用中的不足之处和改进研究。  相似文献   

4.
传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数。提出了一种使用遗传算法优化HMM模型参数的Web信息抽取混合算法。该算法使用实数矩阵编码表示染色体,似然概率值为适应度取值,将GA与Baum-Welch算法相结合对HMM模型参数进行全局优化,并且调整GA-HMM的Baum-Welch算法参数实现Web信息抽取。实验结果表明,新的算法在精确度和召回率指标上比传统HMM具有更好的性能。  相似文献   

5.
一种改进的隐马尔可夫模型在语音识别中的应用   总被引:1,自引:0,他引:1  
提出了一种新的马尔可夫模型——异步隐马尔可夫模型.该模型针对噪音环境下语音识别过程中出现丢失帧的情况,通过增加新的隐藏时间标示变量Ck,估计出实际观察值对应的状态序列,实现对不规则或者不完整采样数据的建模.详细介绍了适合异步HMM的前后向算法以及用于训练的EM算法,并且对转移矩阵的计算进行了优化.最后通过实验仿真,分别使用经典HMM和异步HMM对相同的随机抽取帧的语音数据进行识别,识别结果显示在抽取帧相同情况下异步HMM比经典HMM的识别错误率低.  相似文献   

6.
基于连续隐马尔可夫模型的人脸识别方法   总被引:1,自引:0,他引:1  
提出了一种基于连续隐马尔可夫模型的人脸图像识别方法,主要内容包括以下方面:①由于奇异值向量具有稳定性.转置不变性等特点,对归一化的人脸图像,采用奇异值分解抽取人脸图像特征作为观察值序列;②在人脸识别中应用连续隐马尔可夫模型,采用双高斯概率密度函数训练,建立HMM模型,再利用建好的HMM模型进行识别.实验结果显示,所提出的方法减少了数据计算量,运行速度快,并提高了识别率,完全满足人脸识别系统实时性要求.  相似文献   

7.
基于改进HMM的文本信息抽取模型   总被引:1,自引:0,他引:1       下载免费PDF全文
梁吉光  田俊华  姜杰 《计算机工程》2011,37(20):178-179
提出一种基于改进隐马尔可夫模型(HMM)的文本信息抽取模型。给出一个新假设,使用绝对平滑算法对模型参数进行平滑,利用Viterbi算法对观察值序列进行正序和逆序解码,基于N-Gram模型对2次解码结果进行对比消歧,得到较准确的状态序列。实验结果表 明,该信息抽取模型能提高信息抽取的准确率。  相似文献   

8.
针对网络用户兴趣行为特征的抽取,提出了一种基于隐半马尔可夫模型的用户兴趣特征提取模型,通过用状态驻留时间的概率来控制用户浏览行为,使描述兴趣特征的隐状态和时间的相关性更紧密地结合起来,并且根据隐半马尔可夫模型可以产生多观察值序列的特性,把文本信息划分成多个文本块子区域,使每个子区域的特征和其中一个观察值序列对应起来。实验结果表明,利用隐半马尔可夫模型进行特征提取比HMM方法有更高的准确率和召回率。  相似文献   

9.
隐马尔可夫模型(HMM)作为一种有效的概率工具,已成为信息抽取领域中一个新的研究方向.本文针对其在Web信息抽取中存在的网页结构特征利用不足的问题,给出了一种改进的模型.它通过扩展HMM中输出符号的定义,由一维扩展到多维,实现对网页结构特性的有效利用.试验表明,改进后的模型是稳定有效的,准确率平均提高了约10%.  相似文献   

10.
基于隐马尔可夫模型(HMM)对汉语文本进行了词性标注,首先介绍隐马尔可夫模型的基本概念,然后着重介绍了隐马尔可夫模型的三个基本问题以及解决问题的基本算法,最后演示了隐马尔可夫模型在词性标注中的简单应用.  相似文献   

11.
This paper describes an intelligent forms processing system (IFPS) which provides capabilities for automatically indexing form documents for storage/retrieval to/from a document library and for capturing information from scanned form images using intelligent character recognition (ICR). The system also provides capabilities for efficiently storing form images. IFPS consists of five major processing components: (1) An interactive document analysis stage that analyzes a blank form in order to define a model of each type of form to be accepted by the system; the parameters of each model are stored in a form library. (2) A form recognition module that collects features of an input form in order to match it against one represented in the form library; the primary features used in this step are the pattern of lines defining data areas on the form. (3) A data extraction component that registers the selected model to the input form, locates data added to the form in fields of interest, and removes the data image to a separate image area. A simple mask defining the center of the data region suffices to initiate the extraction process; search routines are invoked to track data that extends beyond the masks. Other special processing is called on to detect lines that intersect the data image and to delete the lines with minimum distortion to the rest of the image. (4) An ICR unit that converts the extracted image data to symbol code for input to data base or other conventional processing systems. Three types of ICR logic have been implemented in order to accommodate monospace typing, proportionally spaced machine text, and handprinted alphanumerics. (5) A forms dropout module that removes the fixed part of a form and retains only the data filled in for storage. The stored data can be later combined with the fixed form to reconstruct the original form. This provides for extremely efficient storage of form images, thus making possible the storage of very large number of forms in the system. IFPS is implemented as part of a larger image management system called Image and Records Management system (IRM). It is being applied in forms data management in several state government applications.  相似文献   

12.
表单图像变形、倾斜、噪声干扰、打印错位等问题往往使表单的数据域定位不准确,从而导致表单数据域提取失败。针对现有表单处理技术中存在的定位不准的问题提出了通过检测表单的条码、格结构等几何特征组件实现表单数据域的定位,并分别设计滤波器实现了几何特征组件的检测。实验证明了该方法的有效性。  相似文献   

13.
VLSI technology has had tremendous success in revolutionizing computer design with processor arrays. Local communication and interconnection is a constraint that dictates the design of processor arrays. The shared bus and global access to memory are now no longer used, since they lower the speed. Consequently, parallel algorithms must be designed according to these constraints.

One of the problems that must be resolved for the above mentioned constraints is data broadcast elimination. Algorithms must be transformed into a form that uses data propagation instead of data broadcast.

Here systems of affine recurrence equations are analyzed and data broadcast is denned in context of the definition of data dependence and affine recurrence equations. A method for data broadcast elimination is introduced in [1] and expands the system of affine recurrence equations into new recurrence equations, that define data propagation and eliminates the data dependences where data broadcast occurs.

Parallel algorithms are usually given as a set of similar tasks repetitively performed on different data. The iteration form of presenting the algorithms is most common. Several techniques are introduced to transform the algorithm to a single assignment form of recurrence equations.

Some improvements of these techniques are presented to make the application of the data broadcast elimination method easier and more straight forward. The presented techniques are classified as the transformation of iterative algorithms to a recurrence form, the transformation of recurrence form to a single assignment form, and fulfilling the index forms of the algorithms.

A system of affine recurrence equations with the data broadcast property is always obtained by applying these procedures. The method of data broadcast elimination successfully transforms this system of affine recurrence equations into a system of uniform recurrence equations which can be used for parallel implementation on VLSI processor arrays.  相似文献   

14.
基于Web的工作流表单的柔性建模   总被引:1,自引:0,他引:1  
针对基于Web的工作流管理系统中表单建模存在的数据结构不合理、维护困难、效率低、缺乏数据柔性和结构柔性等问题,分析了表单数据特点及传统表单建模方法的缺陷,提出一种基于XML和关系数据库的表单柔性建模方法,给出基于表单的流程推动模型及实现方法,引入了数据集控件和自定义函数控件,增强了系统的可扩展性和柔性,满足了工作流管理系统中对表单定义处理灵活性的要求.  相似文献   

15.
类螺旋特征测点数据的闭曲面建模方法研究   总被引:1,自引:0,他引:1  
复杂曲面及海量点云测量数据的曲面建模已成为通用CAD/CAM软件的重要功能;然而,对于复杂的闭曲面建模方法,仍然存在许多技术上的难题,至今尚未能很好的解决,比如,基于海量的测量数据,如何进行闭曲面特征点识别,如何进行区域分割与处理,这一切都使得闭曲面建模过程中很难采用已经成熟的自由曲面建模技术和方法.通过研究异步仿形测量原理以及测量数据类型,针对鞋楦测量形成的空间螺旋线数据特征,提出一种闭曲面建模方法.该方法包括如下步骤:首先对测量点数据处理;并以特征螺旋线数据为基础对曲面进行三角分割;最后,以三角Bezier曲面为基础进行曲面构造,并将各曲面进行拼接、裁剪,形成完整的曲面.采用该方法对鞋楦测量数据的建模实例说明,能够有效地对具有空间螺旋线数据特征的闭曲面进行数据处理、曲面重构,提高了产品建模效率.  相似文献   

16.
一种用于工作流的结构化数据模型及应用研究   总被引:1,自引:0,他引:1  
为了实现工作流中数据信息的层次化表达和管理,本文提出了一种结构化数据模型(SDM)。该模型通过文档信息表(DIF)将工作流的数据信息组织成串行、并行、条件和循环四种可递归定义的数据类型,给出了这些数据类型的数学定义,用树组织和描述文档信息表。本文还研究了通过SDM直接生成复合表单的方法。这种复合表单不仅包含了需要处理的属性数据,还包含了各属性之间的层次关系,使终端用户使用起来直观易懂。  相似文献   

17.
随着信息社会办公自动化的飞速发展,越来越多的数据需要输出到Word表格文档中,本文首先讨论了数据输出到Word表格的基本方法,然后介绍了实现的一般步骤,最后给具体实现过程中关键步骤的代码以供参考。  相似文献   

18.
用垂直数据格式构建FP增长树的算法   总被引:1,自引:0,他引:1       下载免费PDF全文
目前FP增长树的建立采用的是事务-项目集数据格式,即水平数据格式,扫描数据库需要2次。采用垂直数据格式,即项目-事务集数据格式,按照最小事务项目表优先的原则投影事务-项目以建立FP增长树,扫描数据库仅需1次。设计了独特的垂直项目头表独特的存储结构,便于垂直数据的存储、事务的投影、FP树的建立和垂直数据的增量更新。  相似文献   

19.
科学数据出版是推动和深化数据共享的有效手段。本文提出一种科学数据出版模式——数据中心联合传统学术期刊的科学数据出版。该模式通过数据中心与传统学术期刊的合作以数据论文的形式实现数据的正式出版,其中通过数据中心实现数据的永久存储与管理,并开展数据挖掘与共享,数据论文则经过严格的同行评议发表在传统期刊上。该模式不但能够提升数据质量,而且有助于数据成果被现有的科研成果评价体系所接受,激发数据作者出版、共享数据的积极性,有效解决数据共享长期面临的数据质量控制和数据作者权益保护两个关键问题,进而达到整合优质数据资源、深化数据再利用的效果,实现科学数据共享可持续发展。这种出版模式结合了数据中心和学术期刊各自的优势,组织形式灵活,具有易操作可重复的特点,也可供地学以外其他学科借鉴。  相似文献   

20.
产品技术信息是实现产品数据集中管理的基础,在工程图中通常以表的形式存在.根据对表的内部约束和外部约束的分析,建立表的几何关联模型与逻辑关联模型;在此基础上,通过一系列算法实现了表信息的识别、重组,并依照表与数据库之间的映射关系,将表信息直接录入数据库,同时重建信息之间的关联,为产品设计制造提供了数据基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号