首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 328 毫秒
1.
隐马尔可夫模型是序列数据处理和统计学习的一种重要概率模型,最近几年已经被成功应用到许多关于自然语言处理的任务中.简要介绍了隐马尔可夫模型,对其在词性标注应用中的难点、模型的建立,Viterbi算法等问题进行了详细论述,给出了基于隐马尔可夫模型的中文科研论文头部信息抽取过程以及模型结构的学习和参数的训练等关键问题的解决办法.  相似文献   

2.
研究Web文档服务的准确性和快速性,网络信息抽取成为处理海量网络信息的重要手段,而大量异构信息的有效抽取是非常困难的,为了改进和提高系统对于海量异构网页信息的抽取查全率和查准率,提出了一种新的信息抽取的方法,算法利用了隐马尔可夫模型在处理规则知识上的优势对每个页面构建HTML树,并利用Shannon熵来定位数据域,再用Maxi-mum Likelihood方法实现隐马尔可夫模型的构建,实现对Web信息的抽取。仿真结果表明,通过对大量学术论文头部结构信息的抽取,应用算法可以使信息抽取在召回率和准确率方面有明显的提高。  相似文献   

3.
基于多模板隐马尔可夫模型的文本信息抽取算法   总被引:4,自引:0,他引:4       下载免费PDF全文
针对训练数据来源的多样化,提出了基于多模板隐马尔可夫模型的广本信息抽取算法。该算法利用形式的聚类方法将训练数据聚成几个类,每个类代表一个模板,在聚类的基础上利用隐马尔可丈模型进行文本的信息抽取。实验结果表明,新算法具有较高的精确度和召回率。  相似文献   

4.
随着因特网技术的迅速发展,网上信息成几何级数增长,如何从这些海量联机非结构化文本中自动抽取出结构化信息成为目前重要的研究课题。研究了基于隐马尔可夫模型的Web信息抽取算法,着重探讨了隐马尔可夫模型在文本信息抽取中应该如何应用,数据应该如何标记,并对隐马尔可夫模型在文本信息抽取中的应用提出了几个改进的方法,建立了基于HMM的Web信息抽取模型,并对信息抽取后的数据进行了分析对比,验证了改进算法的有效性。  相似文献   

5.
网络信息抽取是从半结构化的Web海量数据中,按用户要求抽取且形成相关的有效的结构数据处理过程。论文以隐马尔科夫模型(HMM)进行数据抽取中的若干关键问题进行研究,提出了基于数据挖掘聚类的模型合并方法生成隐马尔可夫模型,即可根据数据自动生成HMM,同时对一般的隐马尔可夫模型进行了扩展,为每个抽取域生成一个隐马尔可夫模型,用于获取更多的有用信息。  相似文献   

6.
基于多模板隐马尔可夫模型的文本信息抽取算法   总被引:1,自引:0,他引:1  
由于训练数据来源的多样化,难以通过学习得到最优的模型参数,因此提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法。该算法首先利用文本排版格式和分隔符等信息,对文本进行分块;然后在分块的基础上,对训练数据进行聚类以形成多个形式的模板(多模板),并对多模板数据训练得到隐马尔可夫初始概率及转移概率参数;最后,用被训练的数据统一训练释放概率参数,结合初始概率、转移概率以及释放概率参数对文本信息进行抽取。实验结果表明,该算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能。  相似文献   

7.
基于改进HMM的文本信息抽取模型   总被引:1,自引:0,他引:1       下载免费PDF全文
梁吉光  田俊华  姜杰 《计算机工程》2011,37(20):178-179
提出一种基于改进隐马尔可夫模型(HMM)的文本信息抽取模型。给出一个新假设,使用绝对平滑算法对模型参数进行平滑,利用Viterbi算法对观察值序列进行正序和逆序解码,基于N-Gram模型对2次解码结果进行对比消歧,得到较准确的状态序列。实验结果表 明,该信息抽取模型能提高信息抽取的准确率。  相似文献   

8.
面对突出的环境问题,亟需有效的方法从环境保护档案中抽取有用的信息用于支持环境保护等宏观决策。以建设项目环境影响报告书为例,研究如何利用隐马尔可夫模型来抽取建设项目的环境影响评价信息。阐明隐马尔可夫模型的原理与应用情况,分析报告书特点并明确应用模型进行报告书文本信息抽取的基本思想,并给出模型建立和应用的方法及具体步骤。通过实例验证得出,利用隐马尔可夫模型抽取环境保护信息能够获得较高的召回率和精确度,整体效果较好。  相似文献   

9.
徐慧  ;杨学兵 《微机发展》2008,(12):203-206
随着大量的科研论文出现在互联网上,从中精确地抽取论文头部信息和引文信息显得十分重要。提出了基于本体相似度的信息抽取方法,该方法的关键在于用本体相似度判定某个行本体是正例还是反例,然后通过主动学习选择最有可能包含抽取信息的行本体集,再充分利用本体的语义推理能力找到正确的片断。从论文中提取头部信息和引文信息为进一步的语义检索和语义存储奠定基础。测试数据集的实验结果显示该方法比其他方法具有较高的准确率。  相似文献   

10.
基于本体相似度的中文科研论文信息抽取   总被引:1,自引:0,他引:1  
随着大量的科研论文出现在互联网上,从中精确地抽取论文头部信息和引文信息显得十分重要.提出了基于本体相似度的信息抽取方法,该方法的关键在于用本体相似度判定某个行本体是正例还是反例,然后通过主动学习选择最有可能包含抽取信息的行本体集,再充分利用本体的语义推理能力找到正确的片断.从论文中提取头部信息和引文信息为进一步的语义检索和语义存储奠定基础.测试数据集的实验结果显示该方法比其他方法具有较高的准确率.  相似文献   

11.
在利用条件随机场进行信息抽取时,单纯基于词或基于块的方法,不能充分利用上下文信息在恰当粒度上进行切分和抽取,因此提出了一种基于条件随机场的科研论文信息分层抽取方法,利用分隔符、换行符、行首字符等格式信息,结合条件随机场的特征函数,将文本切分成文本行、块或单个的词等恰当的层次,再采用L-BFGS算法学习模型参数并进行特定文本域的抽取。实验结果表明,该方法的抽取性能优于基于词或块的条件随机场模型的信息抽取方法。  相似文献   

12.
引文网络体现了文献研究内容上的相关性及知识的传递,包含了大量的研究关联性信息,被广泛地用于对文章重要性进行鉴定.但当前缺少一种在引文网络基础上识别研究群体的方法.为寻找具有相关研究的作者群体,首先研究文献之间的引用关系,建立基于引文路径的引文分析模型,最后构造相关性指标并利用DBScan算法对引文网络进行聚类.通过对文章间关联强度的定义,运用聚类方法挖掘出学术研究群体,实现了一种新颖、且复杂度较低的研究群体识别方法.  相似文献   

13.
随着大量的科研论文以电子文档的形式出现, 为了高效地检索这些科研文献资料,从中精确地抽取这些论文头部的元数据信息显得十分有必要.在条件随机场模型的基础上,提出了一种启发式搜索算法来对论文头部的元数据信息进行提取.该算法首先利用文本分块技术和特征提取规则来对文本进行预处理,然后结合条件随机场概率模型利用启发式搜索来进行元数据的提取.实验结果表明,在相同概率模型的基础上,该算法有着较好的性能,在精确度和召回率方面都有了明显的提高.  相似文献   

14.
在H.264/AVC视频编码框架下,基于联合率失真模型,提出了一种新的帧级码率控制方法。利用分块数量和平均运动矢量信息,发展了一种精确的头信息估计模型;联合头信息与残差信息模型,并结合残差失真模型,提出新的联合头信息与残差率失真模型;利用精确的估计方法进一步提高率失真性能。相对于最新的JVT H.264/AVC参考软件JM10.2中采用的JVT-G012方法,该方法提高了实际码率与目标码率之间的匹配率达到了98.06%,重构视频的平均亮度PSNR值增加了0.27 dB。  相似文献   

15.

Heterogeneous information networks, which consist of multi-typed vertices representing objects and multi-typed edges representing relations between objects, are ubiquitous in the real world. In this paper, we study the problem of entity matching for heterogeneous information networks based on distributed network embedding and multi-layer perceptron with a highway network, and we propose a new method named DEM short for Deep Entity Matching. In contrast to the traditional entity matching methods, DEM utilizes the multi-layer perceptron with a highway network to explore the hidden relations to improve the performance of matching. Importantly, we incorporate DEM with the network embedding methodology, enabling highly efficient computing in a vectorized manner. DEM’s generic modeling of both the network structure and the entity attributes enables it to model various heterogeneous information networks flexibly. To illustrate its functionality, we apply the DEM algorithm to two real-world entity matching applications: user linkage under the social network analysis scenario that predicts the same or matched users in different social platforms and record linkage that predicts the same or matched records in different citation networks. Extensive experiments on real-world datasets demonstrate DEM’s effectiveness and rationality.

  相似文献   

16.
刘光明  任艳  李川  杨宁  唐常杰 《软件学报》2017,28(3):732-743
信息网络数据立方(InfoNetCube)的计算是进行信息网络在线分析处理的基础.然而,不同于传统的数据立方,信息网络数据立方由多个子方体格组成,每个方体格中的任意方体(cuboid)的任意单元格都包含一个主题图(或称图度量),因而空间开销较传统数据立方大2个数量级以上.如何快速、高效进行信息网络数据立方的部分物化是极具挑战的研究课题.本文提出基于“透析计算”思想的信息网络立方物化策略,通过主题图度量在信息维和拓扑维上反单调性运用,提出基于“透析计算”的空间剪枝算法,快速透析掉不可能命中的子图度量、方体单元、方体乃至方体格.实验结果表明,本文提出的基于“透析计算”的部分物化策略,可以对信息网络方体进行有效剪枝,算法较基于基本方体的部分物化策略运行时间平均降低75%.  相似文献   

17.
一种基于随机序列填充的信息隐藏方法   总被引:2,自引:0,他引:2  
由于计算机技术的飞速发展使得解密技术也得到很大发展,它已对传统加密方法构成威胁。因此,文章提出了一种基于随机序列填充的信息隐藏方法,该方法中使用黄金分割算法计算出被隐藏信息的大小,然后使用填充算法将秘密信息隐藏在随机序列中。该方法有效提高了信息的安全性、可靠性,有着广泛的应用前景。  相似文献   

18.
针对图像在加密过程中可能存在的信息丢失及安全性不高等问题进行研究,提出了一种基于AEGIS的彩色图像无损认证算法。该算法利用图像的文件头得到初始状态,通过AEGIS内部的状态更新对图像的加密,然后将状态更新后生成的认证标签隐藏到密文图像中,解密时从密文图像中提取标签并通过AEGIS恢复图像,实现了认证功能,保证了图像的真实性和完整性。与其他图像加密算法相对比,该算法运算效率高,密文图像含有信息量低。实验结果表明,该算法可以实现彩色图像的快速无损认证加密和解密。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号