首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
基于Wikipedia的语义元数据生成   总被引:1,自引:0,他引:1  
语义元数据提供数据的语义信息,在数据的理解、管理、发现和交换中起着极为重要的作用。随着互联网上数据爆炸式的增长,对自动元数据生成技术的需求也就变得更加迫切。获得目标语义元数据及得到足够的训练语料是使用自动生成技术的两个基本问题。由于获得目标语义元数据需要专家知识,而获得足够的训练语料需要大量的手工工作,这也就使得这两个问题在构建一个成功的系统时至关重要。该文基于Wikipedia来解决这两个问题通过分析一个类别中条目的目录表(table-of-contents)来抽取目标语义元数据,通过对分析文档结构和赋予目标结构正确的语义元数据来构建训练语料库。实验结果表明,该文的方法能够有效地解决这两个问题,为进一步的大规模的语义元数据应用系统打下了坚实的基础。  相似文献   

2.
高珊  袁宛竹  卢卫  王兰  张静  杜小勇 《软件学报》2023,34(3):1010-1026
政务数据治理正在经历从“物理数据汇聚”到“逻辑语义汇通”的新阶段.逻辑语义汇通是指针对各孤岛政务系统因长期“自治”而形成的元数据缺失、元数据同名不同义以及同义不同名等问题,在不重建或修改原系统代码以及不物理汇聚各政务数据的前提下,通过技术手段,统一各孤岛信息系统元数据的语义表达,实现元数据的语义互联互通.该工作是将各孤岛信息系统的元数据语义对齐到已有的标准元数据上,具体地,将标准元数据名称看作语义标签,对孤岛关系数据的列投影进行语义识别,从而建立列名和标准元数据的语义对齐,实现孤岛元数据标准化治理.已有基于列投影的语义识别技术无法捕捉到关系数据的列顺序无关性特征以及属性语义标签之间的相关性特征,针对这一问题,提出了基于预测阶段和纠错阶段的两阶段模型:在预测阶段,提出了共现属性交互的CAI模型(co-occurrence-attribute-interactionmodel),利用并行化的自注意力机制保证列顺序无关的共现属性交互;在纠错阶段,结合语义标签之间的共现性,通过引入纠错机制(correction mechanism),优化CAI模型预测结果.在政务基准数据和Magellan等多...  相似文献   

3.
为解决现有数据集成方法的集成成本过高、缺乏语义信息等问题,对带有语义信息的轻量级数据集成方法开展研究.对本体、元数据等相关理论进行概述,给出了一种基于语义的轻量级数据集成方法,并详细分析了其中的两个主要过程:本体的识别和元数据的抽取、本体映射和基于本体映射的元数据集成,并进行了实例分析.分析结果表明,所给方法切实可行,用元数据集成替代数据集成能够避免大量数据的移动和存储,有效降低数据集成的成本,使数据集成过程轻量化,同时,语义信息的融入能够更好地为上层应用提供支持.  相似文献   

4.
面向海量遥感影像数据的管理,结合文件间的语义关系,构建面向空间数据检索应用的文件目录体系。该方法通过影像元数据概念语义关系集合运算及属性项的语义相似度计算构建部分与整体的语义映射关系,建立影像元数据概念层次关系,并构建目录体系,通过空间数据语义细化和空间对象融合、分割等过程完成影像数据集成。在此基础上,设计开发了影像元数据目录集成系统。结果表明:基于细分部分整体关系的数据集成方法能有效集成具有不同语义的影像数据集,实现了影像数据的高效共享和融合。  相似文献   

5.
为分离生物信息系统中分布式数据加载等大量非系统核心的边缘逻辑处理过程,提出了基于springAOP技术框架的生物通用数据加载边缘逻辑分离方法.介绍了spring面向切面编程和依赖注入的内在机制和AOP基于spring框架实现的一般方法及步骤,重点阐述了spring AOP在生物信息系统边缘逻辑处理问题的研究与实现.应用结果表明,spring AOP 技术有效地将数据加载等边缘逻辑与生物信息系统核心主逻辑分离,使生物信息系统更专注于自身核心业务逻辑.  相似文献   

6.
针对P2P网络中由于查询条件的弱语义和粗粒度、检索效率低下以及网络带宽消耗的问题提出了一个基于元数据的高效查询算法,通过在任意P2P数据管理层的基础上建立一个统一的元数据层,各个节点自动抽取共享数据的详细的元数据信息,每个节点不仅保存本地共享数据的元数据信息,而且存储访问过的最感兴趣的数据的元数据信息,并使用数据库对元数据信息进行高效管理,从而使所有节点都具有自我学习的能力,充分利用元数据信息提高检索效率。  相似文献   

7.
中文文本的信息自动抽取和相似检索机制   总被引:1,自引:0,他引:1  
目前信息抽取成为提供高质量信息服务的重要手段,提出面向中文文本信息的自动抽取和相似检索机制,其基本思想是将用户兴趣表示为语义模板,对关键字进行概念扩充,通过搜索引擎获得初步的候选文本集合,在概念触发机制和部分分析技术基础上,利用语义关系到模板槽的映射机制,填充文本语义模板,形成结构化文本数据库.基于文本数据表述的模糊性,给出用户查询与文本语义模板的相似关系,实现了相似检索,可以更加全面地满足用户的信息需求.  相似文献   

8.
论述元数据和本体的基本概念,分析两者的区别与联系。提出将本体的语义推理能力应用到现有使用元数据进行资源管理的信息系统中,实现基于语义的元数据检索。在电子政务信息资源领域开发了政务信息资源领域本体,阐述这种语义检索的方法,开发原型系统,证明该语义查询的可行性和有效性。  相似文献   

9.
随着系统生物学的兴起和迅速发展,为了探索不同生物层次信息之间的关联关系,对不同层次生物科学计算数据综合可视化的需求日益迫切。不同层次的生物数据的组织管理是实现综合可视化的基础和关键技术,因此文中面向生物信息可视化领域的需求,基于综合可视化集成框架,提出了一种分子结构与基因序列数据的元数据组织模型与关联数据自动生成方法。该方法通过定义包括分子结构、基因序列以及分子结构/基因序列关联信息三类数据的元数据模型,建立了该两个层次和领域数据的关联关系,确定了关联数据描述格式;利用先进的XML技术实现了分子领域和基因序列领域元数据的自动提取和转换。在此基础之上开发了一个分子结构数据与基因序列数据综合可视化原型系统,取得了良好的试用效果。  相似文献   

10.
基于元数据的数据整合平台   总被引:2,自引:0,他引:2  
针对数据资源整合的共性问题,提出了一种基于元数据、结合Web服务与本体技术的数据资源共享与整合平台的实现框架(MDDI).重点讨论了基于JavaCC设计与实现的元数据自动抽取与转换工具,该工具把与各平台相关的元数据自动提取并转换为与平台无关的元数据,实现了基于元模型的元数据集成,为最终实现数据的共享和整合奠定了基础.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号