首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
由于缺乏显式连接词,隐式篇章关系识别是一个具有挑战性的任务.文中提出了一种结合主动学习和多任务学习来间接扩充隐式篇章关系训练数据的隐式篇章关系识别方法,旨在在增强训练数据的同时尽量少地引入伪隐式篇章关系数据中的噪声.首先,基于BERT模型通过主动学习方法的分类不确定性来选择部分显式篇章关系样本;然后,移除显式篇章关系数据中的显式连接词作为伪隐式篇章关系数据;最后,采用多任务学习方法使伪隐式篇章关系数据有助于隐式篇章关系识别.在中文篇章树库(CDTB)上进行的实验的结果显示,相比基准模型,所提方法在宏平均F1、微平均F1值上均得到了提高.  相似文献   

2.
频繁模式发现是数据挖掘的重要任务之一。现实数据通常存储于由多个关系组成的关系数据库中。传统的频繁模式发现方法只能直接完成单一关系中的模式发现,如果要完成多关系数据的挖掘,会产生操作复杂性和信息丢失等问题。多关系数据挖掘是当前数据挖掘研究中快速发展的重要领域之一。多关系频繁模式发现方法能够直接从复杂结构化数据中发现涉及多个关系的复杂频繁模式,避免了传统方法的局限。本文首先归纳多关系频繁模式发现方法的发生历史背景,其次分析总结多关系频繁模式发现方法,最后提出了多关系频繁模式发现将来发展需重点解决的问题和面临的挑战。  相似文献   

3.
网络上存在着大量的可用数据,且多是异构的。由于多种原因,用户很难获取自己需要的数据。数据集成技术为用户提供了一个统一的访问途径,以便获取分散在不同数据源上的数据。文中在对异构关系数据分析的基础上,结合实践中的例子,提出了基于关系代数的异构关系数据集成方法。把关系数据集成分为横向集成和纵向集成,给出了相关的集成理论和方法。将该方法应用于异构关系数据集成中,结果证明是有效的。  相似文献   

4.
统计关系学习研究进展   总被引:4,自引:0,他引:4  
统计关系学习是人工智能领域的一个新研究热点,它将关系表示、似然性理论和机器学习相结合,能更好地解决现实世界中复杂的关系数据问题,在生物信息学、web导航、社会网、地理信息系统和自然语言理解等领域有着重要的应用.首先对统计关系学习的研究内容以及研究任务进行了介绍和总结,然后根据概率表示和推理机制的不同,对当前的统计关系学习方法进行了分类,并对各类方法进行了详细介绍,最后讨论了当前统计关系学习存在的问题,并指出了今后研究和发展的方向.  相似文献   

5.
时态数据处理多是基于关系数据库平台,时态数据库模型也以时态关系数据模型为主.关系数据模型难以处理具有复杂类型的数据对象,而面向对象数据模型还缺乏商业化应用平台.现有关系数据库平台大多增加了面向对象基本功能,形成了对象关系数据库系统,因此将对象关系数据模型进行时态扩充就显得十分必要和具有可行性.首先在现有时态关系数据模型基础上,提出了一种基于对象关系双时态数据模型,而这种数据模型适合于在现有数据库平台上实现;其次,在该模型框架内,讨论了时态对象关系模式与时态关系模式相互间的联系与转换,这也是由时态关系扩充到对象关系的基本要求;再次,分析了时态模型中时态变量复杂语义和相应绑定算法,这是时态数据库能够有效运行的基本课题之一;最后,研究了基于时态变量复杂语义的时态对象关系数据操作代数,从而为时态对象关系模式的查询进行了必要的理论探讨.  相似文献   

6.
现有的关系学习研究都是基于完备数据进行的,而现实问题中,数据通常是不完备的.提出一种从不完备关系数据中学习概率关系模型(probabilistic relational models,简称PRMs)的方法——MLTEC(maximum likelihood tree and evolutionary computing method).首先,随机填充不完备关系数据得到完备关系数据.然后从每个随机填充后的数据样本中分别生成最大似然树并作为初始PRM网络,再利用进化过程中最好的网络结构反复修正不完备数据集,最后得到概率关系模型.实验结果显示,MLTEC方法能够从不完备关系数据中学习到较好的概率关系模型.  相似文献   

7.
利用关系数据进行股价预测的方法最近已经被提出,但目前还没有找到一种有效的方法可以有选择地聚合不同类型的关系数据去预测股价。提出一种改进的多层节点图注意力网络(FHAN)模型,该方法融合Fraudar算法,提供了一种对多个对象关系之间看问题的视角。模型把公司看做节点,把交互看成边,选择性地聚合不同关系类型的信息,并将这些信息添加到每个公司的节点表示中,添加了信息的节点表示被输入到特定任务层自动选择信息,实验结果表明,该方法比目前流行的神经网络算法在股价预测的效果上更准确,实验选取不同神经网络算法做对比,在最优参数条件下,采用该方法比现有方法准确率平均提高约4%,最高提高约24%。  相似文献   

8.
基于ITIL配置管理的研究与应用   总被引:1,自引:1,他引:0  
为有效解决配置管理的配置项之间的关系的存储问题,提出了对这些关系的分类,分为包含关系,依赖关系和间接关系.利用逆多叉树的思想来实现包含关系,建立一张依赖关系表来存储配置项之间的依赖关系.对包含关系的实现进行了分析,其中采用了目前流行的DWR技术.对配置项关系的分类以及对分类的实现,可以较好地调配它们.  相似文献   

9.
对GIS的空间关系表达及计算研究进行了综述,阐述了GIS中空间关系的定义、分类与特征,详细分析了拓扑关系、方向关系和距离关系三种基本的空间关系的表达方式,探讨了几种主要的空间关系的计算方法与模型以及它们的适用范围和优缺点。  相似文献   

10.
借助于 Web,异地分布的异构关系数据进行融合与交互成为可能 ,提出具有不同模式描述的关系数据自动地进行融合和交互的第一步是对关系模式进行基于语义信息的等价性评价这一概念 ;提出关系模式等价的定义、及其具有自反性、传递性和对称性的性质 ;提出关系模式描述文件这一元数据的定义和生成规则、并给出其 DTD;最后给出并实现了算法  相似文献   

11.
目前大多数数据挖掘方法是从单关系中发现模式,而多关系数据挖掘(MRDM)则可直接从关系数据库的多表中抽取有效模式。MRDM可以解决原有命题数据挖掘方法不能解决的问题,它不仅有更强的信息表示能力,可以表示和发现更复杂的模式,还可以在挖掘进程中有效地利用背景知识来提高挖掘效率和准确率。近年来,借鉴归纳逻辑程序设计(ILP)技术,已经形成许多多关系数据挖掘方法,如关系关联规则挖掘方法、关系分类聚类方法等。  相似文献   

12.
多关系数据挖掘是近年来快速发展的重要的数据挖掘领域之一。传统的数据挖掘方法只能完成单一关系中的模式发现,多关系数据挖掘能够从复杂结构化数据中发现涉及多个关系的复杂模式。该文综述了多关系数据挖掘的研究状况。首先分析了多关系数据挖掘领域发生的原因和背景,其次总结了多关系数据挖掘研究的一般方法,然后介绍、分析了最具代表性的多关系数据挖掘算法。最后,总结了多关系数据挖掘将来发展需重点解决的问题和面临的挑战。  相似文献   

13.
多关系关联规则算法综述   总被引:2,自引:0,他引:2       下载免费PDF全文
多关系数据挖掘是借鉴ILP技术,并结合机器学习方法所提出的数据挖掘新课题。多关系关联规则是多关系方法在概念描述任务中最具代表性的研究方向之一,此类方法在发挥多关系方法的模式表达能力与利用背景知识能力的同时,借鉴成熟的关联规则方法的思想与优化策略,取得了较高的性能与表达复杂模式的能力,同时在面向复杂结构数据的应用中获得了较好的效果。在简述多关系方法的基础上,通过分析与比较目前具有代表性的多关系关联规则算法,总结了各算法的优势与不足,并指出了该领域目前的主要热点问题。  相似文献   

14.
The class imbalance problem is an important issue in classification of Data mining. For example, in the applications of fraudulent telephone calls, telecommunications management, and rare diagnoses, users would be more interested in the minority than the majority. Although there are many proposed algorithms to solve the imbalanced problem, they are unsuitable to be directly applied on a multi-relational database. Nevertheless, many data nowadays such as financial transactions and medical anamneses are stored in a multi-relational database rather than a single data sheet. On the other hand, the widely used multi-relational classification approaches, such as TILDE, FOIL and CrossMine, are insensitive to handle the imbalanced databases. In this paper, we propose a multi-relational g-mean decision tree algorithm to solve the imbalanced problem in a multi-relational database. As shown in our experiments, our approach can more accurately mine a multi-relational imbalanced database.  相似文献   

15.
由于图模型能够准确地表示科学与工程领域中数据的关键特征,图挖掘逐渐成为了数据挖掘领域的热点研究内容.图分类是图挖掘的一个重要研究分支.提出了一种新的基于频繁闭显露模式的图分类方法CEP,其基本思想是首先挖掘频繁闭图模式,然后从闭图模式中得到显露模式,最后根据显露模式构造一系列分类规则.实验结果显示:在对化合物数据分类时,CEP在分类性能上优于目前最好的图分类方法.而且,领域专家容易理解和利用CEP产生的分类规则.  相似文献   

16.
高效性和可扩展性是多关系数据挖掘中最重要的问题,而提高算法效率的主要瓶颈在于假设空间,且用户对分类的指导会在很大程度上帮助系统完成分类任务,减少系统独自摸索的时间。针对以上问题提出了改进的多关系决策树算法,即将虚拟连接元组传播技术和提出的背景属性传递技术应用到多关系决策树算法中。对改进的多关系决策树算法进行了理论证明,并且对多关系决策树算法和改进的多关系决策树算法进行比较实验。通过实验可以得出,当改进的多关系决策树在搜索数据项达到背景属性传递阈值时,改进的多关系决策树算法的效率相对很高且受属性个数增加(或  相似文献   

17.
Document image understanding denotes the recognition of semantically relevant components in the layout extracted from a document image. This recognition process is based on domain-specific knowledge that can be acquired automatically by applying data mining techniques. The spatial dimension of page layout makes classification methods developed in inductive logic programming (ILP) and multi-relational data mining (MRDM) the most suitable candidates for this specific task. In this paper, both approaches are considered and empirically compared on three different data sets consisting of multi-page articles published in an international journal and historical documents. The ILP method is able to learn recursive logical theories that express dependencies between logical components, while the MRDM method extends the naïve Bayesian classifier to data stored in multiple tables of a relational database. Experimental results confirm the importance of the spatial dimension for this application and show that the ILP method tends to be conservative with a high (low) percentage of omission (commission) errors, while the probabilistic nature of the MRDM method allows us to tradeoff between the two types of error.  相似文献   

18.
多关系数据挖掘的研究领域涉及多个学科,它在由多张表构成的关系数据库中进行知识发现。遗传算法是模拟生物的遗传和进化过程而形成的一种自适应全局优化概率搜索算法。该文将遗传算法应用于多关系数据挖掘,组合使用Apriori方法可从多张表中高效地挖掘出有意义的关联规则。  相似文献   

19.
Interesting pattern mining in multi-relational data   总被引:1,自引:1,他引:0  
Mining patterns from multi-relational data is a problem attracting increasing interest within the data mining community. Traditional data mining approaches are typically developed for single-table databases, and are not directly applicable to multi-relational data. Nevertheless, multi-relational data is a more truthful and therefore often also a more powerful representation of reality. Mining patterns of a suitably expressive syntax directly from this representation, is thus a research problem of great importance. In this paper we introduce a novel approach to mining patterns in multi-relational data. We propose a new syntax for multi-relational patterns as complete connected subsets of database entities. We show how this pattern syntax is generally applicable to multi-relational data, while it reduces to well-known tiles “ Geerts et al. (Proceedings of Discovery Science, pp 278–289, 2004)” when the data is a simple binary or attribute-value table. We propose RMiner, a simple yet practically efficient divide and conquer algorithm to mine such patterns which is an instantiation of an algorithmic framework for efficiently enumerating all fixed points of a suitable closure operator “Boley et al. (Theor Comput Sci 411(3):691–700, 2010)”. We show how the interestingness of patterns of the proposed syntax can conveniently be quantified using a general framework for quantifying subjective interestingness of patterns “De Bie (Data Min Knowl Discov 23(3):407–446, 2011b)”. Finally, we illustrate the usefulness and the general applicability of our approach by discussing results on real-world and synthetic databases.  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号