首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
卓林  杨舟  赵朋朋  崔志明 《计算机工程》2011,37(5):59-61,64
提出一种基于混合二维条件随机场的Web记录抽取模型,以克服线性链条件随机场不能充分利用Web实体间二维依赖关系的缺点,且训练条件随机场模型时无需大量手工标注的样本数据。对当当网上的742个数据记录进行抽取,对比同等情况下的其他模型。实验结果表明,混合二维条件随机场模型在抽取TDS数据集时展现了更优越的性能。  相似文献   

2.
线性链条件随机场模型难以处理Web对象与各个标注属性之间的特征关系,为解决此问题,提出一种增强约束条件随机场模型。通过将约束条件引入推理过程,改进线性链条件随机场模型的Viterbi算法;运用最大间隔理论的思想训练条件随机场模型,提高模型标注的正确率;将该模型与条件随机场模型及层次条件随机场模型进行对比。实验结果表明该模型能在提高标注正确率的基础上有效地解决Web对象信息抽取问题。  相似文献   

3.
Web数据语义标注是Web信息抽取中的关键步骤.条件随机场是利用序列特征处理序列标注问题的经典方法.然而现有条件随机场模型无法综合利用已有的Web数据库信息和Web数据元素之间的逻辑关系,导致Web数据语义标注准确率不高.因此,提出一种约束条件随机场模型(CCRF).该模型通过引入可信约束和逻辑约束,有效利用了已有的Web数据库信息和Web数据元素之间的逻辑关系.为了克服现有条件随机场模型Viterbi推理方法无法综合利用这2类约束的不足,该模型采用整数线性规划推理方法,将两类约束同时引入推理过程.通过在多个领域的真实数据集上的实验结果表明,所提出的模型能够显著提高Web数据语义标注的性能,并且为Web信息抽取奠定了良好的基础.  相似文献   

4.
大规模Web信息抽取需要准确、自动地从众多相关网站上抽取Web数据对象.现有的Web信息抽取方法主要针对单个网站进行处理,无法适应大规模Web信息抽取的需要.调查研究表明,有效地实现Web数据语义自动标注,结合现有的包装器生成技术,可以满足大规模Web信息抽取的要求.文中提出一种基于集成学习和二维关联边条件随机场的Web数据语义自动标注方法,首先,利用已抽取的信息和目标网站训练页面中呈现的特征构造多个分类器,使用Dempster合成法则合并分类器结果,区分训练页面中的属性标签和数据元素;然后,利用二维关联边条件随机场模型对Web数据元素间的长距离依赖联系和短距离依赖联系进行建模,实现数据元素的自动语义标注.通过在多个领域真实数据集上的实验结果表明,所提出的方法可以高效地解决Web数据语义自动标注问题,满足大规模Web信息抽取的需要.  相似文献   

5.
命名实体识别是构建时钟领域知识图谱的关键步骤,然而目前时钟领域存在标注样本数量少等问题,导致面向时钟领域的命名实体识别精度不高。为此,利用预训练语言模型BERT进行时钟领域文本的特征提取,利用线性链条件随机场(Linear-CRF)方法进行序列标注,提出了一种BERT-LCRF的命名实体识别模型。对比实验结果表明,该模型能够充分学习时钟领域的特征信息,提升序列标注精度,进而提升时钟领域的命名实体识别效果  相似文献   

6.
《软件》2019,(4):145-149
标点符号的正确性对于用户生成文本的词性标注,命名实体识别,依存句法分析等有着重要的作用,正确的标点标注可以使用户生成文本的语法结构准确完整。线性链条件随机场模型可以容纳任意的非独立的特征信息,本文通过选取标点符号所在位置左右词性对作为模型的观测序列,使用条件随机场进行标点符号的标注。实验的测试语料采用京东在线产品评论,结果表明基于线性链条件随机场的用户生成文本标点标注效率较高。  相似文献   

7.
提出一种基于层次关联边条件随机场(HCC-CRFs)模型的Web对象抽取方法.将数据块检测和属性标注合并为标签分配问题,避免误差传播现象.通过在数据块之间增加条件依赖关系,使HCC-CRFs模型能充分利用Web页面的内容层次结构.实验结果表明,该方法具有较好的抽取效果.  相似文献   

8.
张传岩  洪晓光  彭朝晖  李庆忠 《软件学报》2012,23(10):2612-2627
在传统信息抽取的基础上,研究Web实体活动抽取,基于格语法对实体活动进行了形式化定义,并提出一种基于SVM(supported vector machine)和扩展条件随机场的Web实体活动抽取方法,能够从Web上准确地抽取实体的活动信息.首先,为了避免人工标注训练数据的繁重工作,提出一种基于启发式规则的训练数据生成算法,将语义角色标注的训练数据集转化为适合Web实体活动抽取的训练数据集,分别训练支持向量机分类器和扩展条件随机场.在抽取过程中,通过分类器获得包含实体活动的语句,然后利用扩展条件随机场对传统条件随机场中不能利用的标签频率特征和关系特征建模,标注自然语句中的待抽取信息,提高标注的准确率.通过多领域的实验,其结果表明,所提出的抽取方法能够较好地适用于Web实体活动抽取.  相似文献   

9.
针对线性条件随机场模型不能清楚表达语义角色内部结构关系的问题,提出一种基于树状条件随机场模型的语义角色标注方法。对句法依存树上的层次依赖关系和兄弟依赖关系进行标注,处理状态变量之间的长距离依赖,利用CRFs模型能添加任意特征的优点,在系统中添加新的组合特征和介词短语角色。在CoNNL 2008 Shared Task语料库上进行实验,结果证明该方法能有效提高系统的准确率和召回率。  相似文献   

10.
针对电网领域命名实体识别(NER)对人工标注的依赖问题,提出了一种面向电网设备故障报告的半监督命名实体识别方法Semi-supervised PGTBC.首先使用基于多头自注意力机制的深度自注意力网络进行特征抽取,然后结合双向长短记忆神经网络(BiLSTM)和条件随机场模型(CRF)建立电网领域命名实体识别模型,最后基于半监督思想,引入基于深度自注意力网络的实体类别综合描述相似度计算,结合PGTBC的置信度作为半监督阈值筛选依据,减少对电网设备故障报告实体标注的依赖.数据集使用来源于1256篇的电网故障报告的10301条标注样本数和30829条无标注样本数.在有标注电网领域数据上的实验结果表明,基于PGTBC模型的预测F1为96.43%,相对于传统的BiLSTM-CRF模型提高了7.09个百分点.在无标注样本上,半监督方法Semi-supervised PGTBC取得了93.16%的F1,相对半监督CRF模型的F1提高了23.4个百分点,并对无标注样本进行了自动标注,识别出1661条新实体,有效减少电网设备故障报告命名实体任务对人工标注的依赖.  相似文献   

11.
一种有效的贪婪模式匹配算法   总被引:2,自引:0,他引:2  
模式匹配问题是意图获得两个模式中所包含个体对象之间的语义匹配和映射,其结果表示源模式的个体对象与目标模式的个体对象之间存在特定的语义关联.它在数据库应用领域起到关键性的作用,例如数据集成、电子商务、数据仓库、XML消息交换等,特别地,它已成为元数据管理的基本问题.然而,模式匹配很大程度上依赖人工的操作,是一个费时费力的过程.模式匹配问题可以归约为一个组合优化问题:多标记图匹配问题.首先,将模式表示为多标记图,将模式匹配转换为多标记图匹配问题.其次,提出多标记图的相似性度量方法,进而提出基于多标记图相似性的模式匹配目标优化函数.最后,在这个目标函数基础上设计实现了一个贪婪匹配算法,其最显著的特点是综合多种可用的标记信息,灵活准确地获得最优的匹配结果.  相似文献   

12.
In this paper, a temporal meta database for three-dimensional (3D) objects whose properties and relationships are supported by valid time is introduced. Based on our proposed temporal object-oriented conceptual schema model, a conceptual schema of the temporal meta database can be generated from a 3D graphical data source and other particular application requirements. Based on our proposed temporal object relational data model with attribute timestamping, logical schemas of the temporal meta database can be systematically and automatically generated from the conceptual schema. From the temporal meta database, non-temporal/temporal metadata about temporal 3D objects are available for temporal information system users. Convenient access using database languages such as SQL can be performed. Queries over 3D objects using a temporal object relational SQL are demonstrated.  相似文献   

13.
Current microarray databases use different terminologies and structures and thereby limit the sharing of data and collating of results between laboratories. Consequently, an effective integrated microarray data model is required. One important process to develop such an integrated database is schema matching. In this paper, we propose an effective schema matching approach called MDSM, to syntactically and semantically map attributes of different microarray schemas. The contribution from this work will be used later to create microarray global schemas. Since microarray data is complex, we use microarray ontology to improve the measuring accuracy of the similarity between attributes. The similarity relations can be represented as weighted bipartite graphs. We determine the best schema matching by computing the optimal matching in a bipartite graph using the Hungarian optimisation method. Experimental results show that our schema matching approach is effective and flexible to use in different kinds of database models such as; database schema, XML schema, and web site map. Finally, a case study on an existing public microarray schema is carried out using the proposed method.  相似文献   

14.
王丰  王亚沙  赵俊峰  崔达 《软件学报》2019,30(5):1510-1521
语义网的飞速发展,使得各领域出现了以本体这种形式来表达的知识模型.但在实际的语义网应用中,常常面临本体实例匮乏的问题.将现有关系型数据源中的数据转化为本体实例是一种有效的解决办法,这需要利用关系模型到本体模型的模式匹配技术来建立数据源和本体之间的映射关系.除此之外,关系模型到本体模型的模式匹配还被广泛用于数据集成、数据语义标注、基于本体的数据访问等领域中.现有的研究工作往往会综合使用多种模式匹配算法,计算异构数据模式中元素对的综合相似度,辅助人工建立数据源到本体的映射关系.现有的工作针对单一模式匹配算法准确率不高的问题,试图通过综合多种模式匹配算法的结果来进行调和.然而,这种方法当多种匹配算法同时出现不准时,难以得出更加准确的最终匹配结果.对单一模式匹配算法匹配不准的成因进行深入的分析,认为数据源的本地化特征是导致这一现象的重要因素,并提出了一种迭代优化的模式匹配方案.该方案利用在模式匹配过程中已经得到匹配的元素对,对单一模式匹配算法进行优化,经过优化后的算法能够更好地兼容数据源的本地化特征,从而显著提升准确率.在"餐饮信息管理"领域的一个实际案例上开展实验,模式匹配效果显著高于传统方法,其中,F值超过传统方法50.1%.  相似文献   

15.
Data transformation is the core process in migrating database from relational database to NoSQL database such as column-oriented database. However, there is no standard guideline for data transformation from relational database to NoSQL database. A number of schema transformation techniques have been proposed to improve data transformation process and resulted better query processing time when compared to the relational database query processing time. However, these approaches produced redundant tables in the resulted schema that in turn consume large unnecessary storage size and produce high query processing time due to the generated schema with redundant column families in the transformed column-oriented database. In this paper, an efficient data transformation technique from relational database to column-oriented database is proposed. The proposed schema transformation technique is based on the combination of denormalization approach, data access pattern and multiple-nested schema. In order to validate the proposed work, the proposed technique is implemented by transforming data from MySQL database to HBase database. A benchmark transformation technique is also performed in which the query processing time and the storage size are compared. Based on the experimental results, the proposed transformation technique showed significant improvement in terms query processing time and storage space usage due to the reduced number of column families in the column-oriented database.  相似文献   

16.
XML has become the standard for publishing and exchanging data on the Web. However, most business data is managed and will remain to be managed by relational database management systems. As such, there is an increasing need to efficiently and accurately publish relational data as XML documents for Internet-based applications. One way to publish relational data is to provide virtual XML documents for relational data via an XML schema which is transformed from the underlying relational database schema such that users can access the relational database through the XML schema. In this paper, we discuss issues in transforming a relational database schema into the corresponding XML schema. We aim to preserve all integrity constraints defined in a relational database schema, to achieve high level of nesting and to avoid introducing data redundancy in the transformed XML schema. In the paper, we first propose a basic transformation algorithm which introduces no data redundancy, then we improve the algorithm by exploring further nesting of the transformed XML schema.  相似文献   

17.
知识化图象数据库系统近年来引起了人们的研究兴趣,表现出了广泛的应用前景.本文 介绍一种知识化图象数据库管理系统GBASE的模式设计,它将传统的关系模式加以扩充,使 之能容许框架知识表达的抽象数据类型(ADTs),增强了关系数据库系统的语义描述能力,有 助于表达有关图象实体以及它们之间的空间关系等有关知识.利用ADT我们可以进行知识 引导下的数据库查询、图象实体空间关系的推理以及基于应用模型的辅助设计和规划.GBASE 系统是在VAX11/750机上在VMS操作系统下,以C语言完成的.它统一管理着多种类型 的信息,即关系数据、图形、图象数据、知识以及过程等,是一个综合的图象数据库管理系统. 目前正应用于林业资源的管理和规划.  相似文献   

18.
Modern applications increasingly require the storage of data beyond relational structure. The challenge of providing well-founded data models that can handle complex objects such as lists, sets, multisets, unions and references has not been met yet in a completely satisfactory way. The success of such data models will greatly depend on the existence of automated database design techniques that generalise achievements from relational databases. In this paper, we study the implication problem of functional dependencies (FDs) in the presence of records, sets, multisets and lists. Database schemata are defined as nested attributes, database instances as nested relations and FDs are defined in terms of subattributes of the database schema. The expressiveness of FDs deviates fundamentally from previous approaches in different data models including the nested relational data model and XML.  相似文献   

19.
一种XML数据库到关系数据库的映射模型   总被引:1,自引:0,他引:1  
介绍如何将XML文档转换成标签有向图。讨论基于这种标签图将XML数据库映射成关系数据库。这种映射模式包括两个步骤,即属性映射和值映射。最后讨论在这种映射模式下,针对数据库的几种操作。  相似文献   

20.
基于规则的关系数据库到本体的转换方法*   总被引:3,自引:1,他引:2  
提出了一种新的全自动的关系数据库到本体的转换方法,通过分析关系模式的主键、属性、引用关系、完整性约束和部分数据来创建本体,尽量保持了关系数据库的信息,并在构建的过程中对信息进行初步的集成和分类.系统实践证明,该方法可自动进行关系模式和数据到本体的等价转换,而且完成了对关系数据库中部分语义信息的辅助挖掘.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号