首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
论文元数据信息的自由抽取   总被引:1,自引:1,他引:1  
为了实现在Web上电子版论文结构的查询,必须提取这些论文的标题、作者,摘要和关键宇等元数据信息,在北京大学数字图书馆科技文献检索系统中利用正则表达式规则对论文数据信息进行自动抽取。该文介绍的这种方法充分利用了论文所特有的结构,在不采用语法分析等复杂的自然语言处理手段的情况下取得了很好的效果,为面向特定领域的元信息抽取作了有益的研究和探索。  相似文献   

2.
基于特征相似度的论文元数据抽取算法与传统的DOM树方法相比,提高了论文元数据的抽取成功率.但论文元数据的抽取效率却不高,而论文元数据的抽取与蜘蛛的论文爬取是同时进行的,对元数据的抽取有实时性要求,因此影响了论文数据量的增加.经过比较研究,利用决策树中的C4.5算法对特征相似度算法进行改进,论文元数据的抽取成功率提高了2%,抽取效率提高了62%.  相似文献   

3.
SVM+BiHMM:基于统计方法的元数据抽取混合模型   总被引:3,自引:0,他引:3  
张铭  银平  邓志鸿  杨冬青 《软件学报》2008,19(2):358-368
提出了一种SVM BiHMM的混合元数据自动抽取方法.该方法基于SVM(support vector machine)和二元HMM(bigram HMM(hidden Markov model),简称BiHMM)理论.二元HMM模型BiHMM在保持模型结构不变的前提下,通过区分首发概率和状态内部发射概率,修改了HMM发射概率计算模型.在SVM BiHMM复合模型中,首先根据规则把论文粗分为论文头、正文以及引文部分,然后建立SVM模型把文本块划分为元数据子类,接着采用Sigmoid双弯曲函数把SVM分类结果用于拟合调整BiHMM模型的单词发射概率,最后用复合模型进行元数据抽取.SVM方法有效考虑了块间联系,BiHMM模型充分考虑了单词在状态内部的位置信息,二者的元数据抽取结果得到了很好的互补和修正,实验评测结果表明,SVM BiHMM算法的抽取效果优于其他方法.  相似文献   

4.
随着大量的科研论文以电子文档的形式出现, 为了高效地检索这些科研文献资料,从中精确地抽取这些论文头部的元数据信息显得十分有必要.在条件随机场模型的基础上,提出了一种启发式搜索算法来对论文头部的元数据信息进行提取.该算法首先利用文本分块技术和特征提取规则来对文本进行预处理,然后结合条件随机场概率模型利用启发式搜索来进行元数据的提取.实验结果表明,在相同概率模型的基础上,该算法有着较好的性能,在精确度和召回率方面都有了明显的提高.  相似文献   

5.
提出一种从科技文献等文档中自动抽取元数据的方法,将自动归纳法和相似特征度算法结合起来,基于特征相似的归纳学习算法自动生成抽取规则,并对文档进行元数据的自动抽取。这种方法利用文档自身某些特有属性,对文档的内容进行分块,利用归纳法自动生成抽取规则,并结合特征相似度对生成规则进行匹配,然后对文档元数据信息进行自动抽取,提高了自动生成规则的效率和抽取元数据信息的准确率。  相似文献   

6.
在海量学术文献的个性化推荐中,现存基于内容的方法以CNN作为特征提取工具,关注用户的显式阅读偏好,却忽略了全局语义特征,而基于图的方法通常忽略用户和论文之间的高阶关联结构信息。针对以上问题,提出一种混合推荐模型GNPR(Graph Neural Paper Recommendation),能够学习更完整的用户显式阅读偏好及用户和论文之间的高阶关联信息。该方法使用Word2vec和DCNN(Dual Convolutional Neural Network)处理文本,以双层自注意力的特征抽取模式学习文本全局特征,补充用户显式阅读偏好。针对概念、用户、论文和论文元数据等数据构建知识图谱,使用改进的图卷积网络学习用户和论文之间的高阶关联信息,从而挖掘用户隐式的阅读偏好。在CiteULike-a等数据集上验证了GNPR模型的有效性。  相似文献   

7.
随着大量的科研论文出现在互联网上,从中精确地抽取论文头部信息和引文信息显得十分重要。该文提出了一种基于隐马尔可夫模型的中文科研论文头部信息和引文信息抽取算法,分析了模型结构的学习和参数估计方法。在进行信息抽取时,利用分隔符、特定标识符等格式信息对文本进行分块,利用隐马尔可夫模型进行指定域的抽取。实验结果表明,该算法具有良好的准确率和召回率。  相似文献   

8.
基于异构数据抽取清洗模型的元数据的研究   总被引:2,自引:0,他引:2  
异构数据的抽取和清洗是企业内外异构信息统一的必由之路。基于此,该文以自行开发的ETL工具为背景,分析了异构数据抽取清洗模型的结构以及实现方式,并集中论述了其中元数据的结构。  相似文献   

9.
针对P2P网络中由于查询条件的弱语义和粗粒度、检索效率低下以及网络带宽消耗的问题提出了一个基于元数据的高效查询算法,通过在任意P2P数据管理层的基础上建立一个统一的元数据层,各个节点自动抽取共享数据的详细的元数据信息,每个节点不仅保存本地共享数据的元数据信息,而且存储访问过的最感兴趣的数据的元数据信息,并使用数据库对元数据信息进行高效管理,从而使所有节点都具有自我学习的能力,充分利用元数据信息提高检索效率。  相似文献   

10.
李艳  郝大鹏  徐行 《微机发展》2014,(2):234-236,241
文中研究了图书馆信息服务。信息服务呈现多元化、个性化的趋势,根据需求定制服务十分重要,图书馆信息可以重复利用是服务定制的保障。提出元数据信息发布平台设计方案,发布平台利用中国机读目录抽取信息,并结合互熵一信息检索方法提高抽取信息的正确性,抽取的信息以元数据形式存储,通过OAI协议发布。给出发布平台的应用实例,说明信息发布平台如何为毕业设计过程管理系统提供数据服务。  相似文献   

11.
WebGIS中的元数据研究   总被引:3,自引:0,他引:3  
论述了元数据的定义及其在WebGIS中的作用;同时,基于“辽宁省统计信息辅助决策支持系统”的开发实践,从数据存储、数据传输和数据展现三个角度探讨了元数据在WebGIS的表示与实现.  相似文献   

12.
中石油的上游生产系统(A2系统)是一个分布式复杂的集成系统,并具有跨多个学科领域的特点。项目实施完成了,那么如何发挥它的作用、怎样才能充分利用项目的成果?给企业带来更大效益?该文从技术层面上给出您一个设想。  相似文献   

13.
元数据管理策略的比较研究   总被引:22,自引:0,他引:22  
本文讨论了元数据及元数据管理的若干问题,并通过对几种元数据管理策略和元数据交换标准的比较,来分析元数据管理的发展方向,以及实现元数据管理的方式和具体步骤。  相似文献   

14.
一种基于.NET元数据的对象持久化框架   总被引:4,自引:0,他引:4  
姜边 《计算机应用》2005,25(4):833-836
对象持久化是一种存储对象的内部状态以备以后使用的机制。提出了一种基于.NET元数据的对象持久化框架,与其他对象持久化框架相比,此框架将对象持久化定义信息以元数据的形式绑定到程序代码中,不需要额外编写配置文件,从而方便了开发和部署。该框架提供了基于SQL和基于对象化条件的对象查询方式。  相似文献   

15.
中石油的上游生产系统(A2系统)是一个分布式复杂的集成系统,并具有跨多个学科领域的特点。项目实施完成了,那么如何发挥它的作用、怎样才能充分利用项目的成果?给企业带来更大效益?该文从技术层面上给出您一个设想。  相似文献   

16.
元数据(Meta Data)是用来描述应用中数据结构的数据或文档,即关于数据的数据,处在数据ETL系统的核心位置。分析了元数据在ETL中的作用,设计了元数据模型,提出了元数据管理系统的设计原则和步骤,使其具有广泛的适应性、很好的扩展性和可重用性。  相似文献   

17.
元数据在数据库互操作中的应用   总被引:1,自引:0,他引:1       下载免费PDF全文
数据库互操作技术是信息资源共享的关键技术,也是目前数据库技术领域关注的热点之一.对基于元数据的数据互操作技术的研究内容和现状进行总结,从元数据生命周期的角度给出数据库互操作技术分类体系,从元数据提取技术和元数据模型转换技术两方面进行归纳,给出主要的算法模型,对比分析各算法的优缺点,指出数据库互操作技术未来的研究趋势和挑...  相似文献   

18.
数据仓库中的元数据管理   总被引:9,自引:0,他引:9  
本文首先介绍了典型的元数据管理结构;然后讨论了元数据的互操作和集成问题;最后,提出了一种多级邦联的元数据管理结构,并探讨了数据仓库与信息门户之间的元数据共享与交换问题。  相似文献   

19.
数据仓库是数据库的发展方向之一,对企业管理和决策支持起着重要的辅助作用。简要介绍了数据仓库和元数据的基本概念,重点阐述了元数据在数据仓库系统中的作用、管理及维护,并就元数据库具体的实现方式进行了初步的研究和探讨。  相似文献   

20.
李政伟  聂茹 《微机发展》2004,14(4):125-126,F003
元数据是数据仓库项目取得成功的关键因素之一,而元数据标准又是成功管理元数据的关键。文中介绍了数据仓库中元数据的意义,以及MDC的开放信息模型OIM和OMG的元数据规范MOF,并结合实际总结了其它几种元数据标准,在此基础上指出了元数据标准的发展方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号