首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
基于文档属性单元松弛的XML近似查询方法   总被引:1,自引:0,他引:1  
为解决普通用户对XML文档的近似查询问题,提出了一种基于文档属性单元松弛的XML近似查询方法.该方法将XML文档中的叶子结点和属性结点作为属性单元处理,基于一致集的概念导出最大集,生成最小非平凡函数依赖集,从而找出属性单元之间的近似函数依赖关系,进而求出近似候选码和近似关键字.在此基础上,根据属性单元支持度将属性单元按重要程度排列并据此对初始查询条件进行松弛,最不重要的属性单元最先松弛并且松弛程度最大.利用松弛后的查询条件对XML文档进行查询,可得到与初始查询条件近似的查询结果.实验结果和分析表明:提出的XML近似查询方法能够很好地满足用户的查询意图,具有较高的执行效率.  相似文献   

2.
徐耀丽  李战怀  陈群  钟评 《软件学报》2016,27(7):1685-1699
针对关系数据的不一致性虽然已有各种修复方法被提出,但这些修复策略在构建最终修复方案过程中只分析函数依赖包含属性的信息(即数据集的部分信息),且偏向于修复代价最小的方案,而忽略了数据集的其它属性以及这些属性与函数依赖包含属性之间的相关性。为此,本文提出一种基于可能世界模型的不一致性修复方法。它首先构造可能的修复方案,然后从修复代价和属性值相关性二个方面量化各个候选修复方案的可信性程度,并最后找出最优的修复方案。实验结果验证了本文提出的修复方法取得了比现有基于代价的修复方法更好的修复效果。我们同时也分析了错误率和不同类型概率量化对本文提出的修复方法的影响。  相似文献   

3.
确定最小函数依赖集的新方法   总被引:1,自引:0,他引:1  
根据函数依赖集的逻辑蕴含与对应逻辑函数的蕴含项之间的等价性,将求给定函数依赖集的所有等价最小函数依赖集归结为对应逻辑函数的化简,且关系数据理论中的一系列问题都能利用此方法统一简洁地处理,如确定所有候选码、任意属性集闭包及依赖基等.  相似文献   

4.
李卫榜  李战怀  陈群  杨婧颖  姜涛 《软件学报》2016,27(8):2068-2085
关系数据库中可能存在数据不一致性现象,关系数据库数据质量的一个主要问题是存在违反函数依赖情况.为找出不一致数据,需要进行函数依赖冲突检测.集中式数据库中可以通过SQL技术检测不一致情况,尽管检测效率不高;而分布式环境下不一致性检测更富有挑战性,不仅需要考虑数据的迁移,检测任务如何分配也是一个难题.在大数据背景下,上述问题更加突出.提出了一种分布式环境单函数依赖不一致性检测方法,给出了不一致性检测响应时间代价模型.为减少数据迁移量和响应时间,基于等价类对待检测数据进行预处理.由于分布式环境不一致性检测问题为NP-hard问题,多项式时间内难以得到最优解,给出了代价模型的多项式时间3/2-近似最优解.提出了一种分布式环境多函数依赖不一致性检测方法,基于最小集合覆盖理论,通过一次数据遍历,对多个函数依赖进行并行批检测,同时考虑检测过程中的负载均衡等问题.在真实和人工数据集上的实验表明:相对于传统的检测方法以及基于Hadoop的Naïve方法,所提出的检测方法检测效率有明显的提升,且扩展性能良好.  相似文献   

5.
数据依赖是数据库的一个重要概念。函数依赖是一种常见的数据依赖关系,是数据语义的重要组成部分。随着XML文档的大量出现,这一概念被引入到XML的领域中。本文在约束限制范围的基础上,给出了XML函数依赖的定义。引入粗糙集解决XML数据不完整的特点,给出XML函数依赖的判定定理。并且提出了一个发现XML文档中最小非平凡函数依赖的算法。该算法基于一致集的概念,通过不可分辨关系划分元组集减少求一致集的运算次数,使用逐层求精的算法来计算最小非平凡XML函数依赖集的左部。通过该算法得到的XML函数依赖的语义信息对数据存储模式设计、查询优化和更新异常检查来说是十分重要的。  相似文献   

6.
针对条件函数依赖(CFDs)对不一致数据检测不完备问题,提出基于最大依赖集(MDS)的依赖提升算法(DLA),通过获取依赖中包含的隐性依赖(RCFDs)对数据集中的不一致数据进行检测。利用动态值域调整,设置数值变化的前移和后移指针,改进原算法的枚举过程,提高了算法对连续属性的适用性,给出动态值域调整和依赖提升算法的算法流程和伪代码,并对算法的收敛性和时间复杂度进行分析。最后通过对照实验,对比了依赖提升算法和基于CFDs的检测方法的检测精度和时间代价,验证了算法的有效性。  相似文献   

7.
现有的XML到关系数据的映射算法没有充分考虑DTD中所蕴涵的语义,如果DTD中蕴含函数依赖,在映射到关系数据库时应考虑DTD中的函数依赖,基于Inlining算法,考虑DTD中蕴含的函数依赖,提出了一种既能保持XML文档的内容和结构,又能保持函数依赖的从XML到关系数据模型的映射方法。  相似文献   

8.
XML的函数依赖   总被引:7,自引:0,他引:7  
通过分析函数依赖的表现形式在XML文档和关系数据库中的不同之处,提出了基于DTD中的路径表达式的XML函数依赖的概念.它不仅能表达元素的属性和元素的值之间的函数依赖,而且也能表达元素之间的函数依赖.给出了关于XML函数依赖的一组推理规则集.  相似文献   

9.
张守志  施伯乐 《软件学报》2003,14(10):1692-1696
介绍了一种发现最小函数依赖集的方法.这种方法基于一致集的概念,根据一致集导出最大集及其补集,然后生成最小非平凡函数依赖集.通过使用带状划分数据库减少求一致集的运算次数,使用逐层求精的算法来计算最小非平凡函数依赖集的左部.其结果可用于数据库的重新组织和设计、属性约简、聚类、关联规则提取等知识发现工作中.  相似文献   

10.
分布式大数据函数依赖发现   总被引:1,自引:0,他引:1  
在关系数据库中,函数依赖发现是一种十分重要的数据库分析技术,在知识发现、数据库语义分析、数据质量评估以及数据库设计等领域有着广泛的应用.现有的函数依赖发现算法主要针对集中式数据,通常仅适用于数据规模比较小的情况.在大数据背景下,分布式环境函数依赖发现更富有挑战性.提出了一种分布式环境下大数据的函数依赖发现算法,其基本思想是首先在各个节点利用本地数据并行进行函数依赖发现,基于以上发现的结果对函数依赖候选集进行剪枝,然后进一步利用函数依赖的左部(left hand side,LHS)的特征,对函数依赖候选集进行分组,针对每一组候选函数依赖并行执行分布式环境发现算法,最终得到所有函数依赖.对不同分组情况下所能检测的候选函数依赖数量进行了分析,在算法的执行过程中,综合考虑了数据迁移量和负载均衡的问题.在真实的大数据集上的实验表明,提出的检测算法在检测效率方面与已有方法相比有明显的提升.  相似文献   

11.
This paper examines attribute dependencies in data that involve grades, such as a grade to which an object is red or a grade to which two objects are similar. We thus extend the classical agenda by allowing graded, or “fuzzy”, attributes instead of Boolean, yes-or-no attributes in case of attribute implications, and allowing approximate match based on degrees of similarity instead of exact match based on equality in case of functional dependencies. In a sense, we move from bivalence, inherently present in the now-available theories of dependencies, to a more flexible setting that involves grades. Such a shift has far-reaching consequences. We argue that a reasonable theory of dependencies may be developed by making use of mathematical fuzzy logic, a recently developed many-valued logic. Namely, the theory of dependencies is then based on a solid logic calculus the same way classical dependencies are based on classical logic. For instance, rather than handling degrees of similarity in an ad hoc manner, we consistently treat them as truth values, the same way as true (match) and false (mismatch) are treated in classical theories. In addition, several notions intuitively embraced in the presence of grades, such as a degree of validity of a particular dependence or a degree of entailment, naturally emerge and receive a conceptually clean treatment in the presented approach. In the first part of this two-part paper, we discuss motivations, provide basic notions of syntax and semantics and develop basic results which include entailment of dependencies, associated closure structures and a logic of dependencies with two versions of completeness theorem.  相似文献   

12.
A new approach for estimating null value in relational database   总被引:1,自引:0,他引:1  
In general, a database system will not operate properly if it exist some null values of attributes in the system. In this paper, we propose a new approach to estimate null values in relational database, which utilize other clustering algorithm to cluster data, and use fuzzy correlation and distance similarity to calculate the correlation of different attribute. For verifying our method, this paper utilize mean of absolute error rate (MAER) as evaluation criterion to compare with other methods; it is shown that our proposed method proves importance than the existing methods for estimating null values in relational database systems.  相似文献   

13.
决策属性未知下的学生评教粗糙集分析   总被引:1,自引:0,他引:1  
为实现更为客观合理的学生评教,基于粗糙集方法进行智能化分析。粗糙集方法必然涉及到分析含有决策属性的决策表,而实际学生评教中由于缺乏客观的尺度评定教师的教学质量,造成相应决策属性的未知性。借鉴督导专家评价的优势,基于Kruskal最大树模糊聚类方法对专家评价数据予以划分来获取决策属性,与学生评教数据集组合,构造完整的决策表。基于粗糙集方法从信息熵的角度来客观求取各评教指标的权重值,完成对待评教教师的决策评价分析。实例分析及对比实验证明了方法的有效性和优越性。  相似文献   

14.
贝叶斯分类方法因具有严密的数学理论基础,于是成为一种简单而有效的数据挖掘方法;然而,贝叶斯分类器要求——条件独立性假设和每个属性权值为1,这极大降低了贝叶斯分类器的性能;针对贝叶斯分类器的局限性,文章提出了一种优化的贝叶斯分类算法;文中,首先利用粗糙集理论对待分类数据集进行属性约简,删除冗余属性;然后给出了属性权值的计算方法和公式,目的在于更准确地描述数据集的重要性和相关性;同时,通过weka3.6.2工具,以UCI机器学习数据库中的数据集为测试数据,进行了对比测试;实验结果表明:OBCA具有较高的分类准确率。  相似文献   

15.
目前粗糙集的研究局限于有限集,且现有的邻域粗糙集属性约简算法中属性重要性度量方式单一。针对邻域粗糙集存在的问题,提出了基于无限集的邻域近似条件熵模型。该模型以邻域近似条件熵下的属性重要度为启发条件,构造了一种基于邻域近似条件熵的前向贪心搜索属性约简算法。利用熵的单调性,证明了算法的正确性,并分析了算法的时间复杂度。通过实例分析和多个UCI数据集上的实验表明,所提出的算法是可行的,能有效减少属性数量,与现有的算法相比,不仅能够获得较小的属性约简结果,而且具有较好的分类性能。  相似文献   

16.
Gui-Wu Wei 《Knowledge》2010,23(3):243-247
The aim of this paper is to investigate the multiple attribute decision-making problems with intuitionistic fuzzy information, in which the information about attribute weights is incompletely known, and the attribute values take the form of intuitionistic fuzzy numbers. In order to get the weight vector of the attribute, we establish an optimization model based on the basic ideal of traditional grey relational analysis (GRA) method, by which the attribute weights can be determined. Then, based on the traditional GRA method, calculation steps for solving intuitionistic fuzzy multiple attribute decision-making problems with incompletely known weight information are given. The degree of grey relation between every alternative and positive-ideal solution and negative-ideal solution are calculated. Then, a relative relational degree is defined to determine the ranking order of all alternatives by calculating the degree of grey relation to both the positive-ideal solution (PIS) and negative-ideal solution (NIS) simultaneously. Finally, an illustrative example is given to verify the developed approach and to demonstrate its practicality and effectiveness.  相似文献   

17.
In this paper, we present a new method for computing fuzzy functional dependencies between attributes in fuzzy relational database systems. The method is based on the use of fuzzy implications. A literature analysis has shown that there is no algorithm that would enable the identification of attribute relationships in fuzzy relational schemas. This fact was the motive for development a new methodology in the analysis of fuzzy functional dependencies over a given set of attributes. Solving this, not so new problem, is not only research challenge having theoretical importance, but it also has practical significance. Possible applications of the proposed methodology include GIS, data mining, information retrieval, reducing data redundancy in fuzzy relations through implementation of logical database model, estimation of missing values etc.  相似文献   

18.
In this paper, we propose notions of equivalence and inclusion of fuzzy data in relational databases for measuring their semantic relationship. The fuzziness of data appears in attribute values in forms of possibility distribution as well as resemblance relations in attribute domain elements. An approach for evaluating semantic measures is presented. With the proposal, one can remove fuzzy data redundancy and define fuzzy functional dependency. © 2000 John Wiley & Sons, Inc.  相似文献   

19.
文章对SCHEMA描述的XML文档的数据模型进行了集合分析,并在其描述的集合上定义了关联依赖关系、值依赖关系和两种取值关系,根据这些关系及SCHEMA规范所规定的约束,建立了一组从SCHEMA到关系型数据库的映射规则,并且证明由此规则得到的映射是完备的,而且映射后的关系符合第三范式。文章最后提出了可进一步研究的问题和方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号