排序方式: 共有113条查询结果,搜索用时 31 毫秒
1.
基于Nearest Pair 的XML 关键词检索算法 总被引:1,自引:0,他引:1
随着大量数据以XML格式保存,针对XML文档的关键词检索技术已经成为信息检索和数据库等相关领域的研究热点.以树的杜威编码为基础,分析并证明了XML 关键词检索中核心概念SLCA(smallest lowest commonancestor)的两个重要性质,并在其基础上提出了Nearest Pair 算法.该算法采用二分迭代查找技术寻找最邻近点,将求解中间结果的次数降低了一个量级.实验结果表明,该算法的性能在绝大多数情况下优于现有主流算法. 相似文献
2.
研究了如何使用SP-Feature来压缩序列模式。SP-Feature是一种简洁表示序列模式的新颖结构。一种新的相似性度量被用来聚类SP-Feature,同时也给出了SP-Feature的合并方法。基于层次聚类框架,设计了一种有效的挖掘压缩序列模式的算法CSP。在真实和模拟数据上的大量实验表明CSP能够快速有效地压缩序列模式(在稠密数据集上的恢复误差小于4%)。 相似文献
3.
1.引言作为目前信息表示和交换的标准,XML得到越来越广泛的应用。对XML进行管理,传统的方法是利用文件系统。目前,传统的关系数据库在市场上仍占有主流地位,如何利用关系数据库来管理XML数据成为现实的问题。由于XML文档本质上是基于图模式的半结构化数据,而目前商用数据库管理系统管理的是基于关系模式的结构化数据,利用关系数据库来管理XML数据可能带来非常高的存贮代价和查询代价,因此利用关系数据库来管理XML数据必须解决两种异构模式之间的转换问题,生成合理的关系模式。对于上述问题,工业界和学术界从不同的角度进行了研究,文Oracle 8i利用关系数据库引擎来完成XML文档的简单查询,但是,Oracle 8i的当前版本要求手工生成XML文档所对应的关系模式,增加了使用人员的负担。 相似文献
4.
数据的规模越来越大,要求数据挖掘算法有很高的执行效率.基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.提出了一种新的基于参考点和密度的CURD(clustering using references and density)聚类算法,其创新点在于,通过参考点来准确地反映数据的空间几何特征,然后基于参考点对数据进行分析处理.CURD算法保持了基于密度的聚类算法的上述优点,而且CURD算法具有近似线性的时间复杂性,因此CURD算法适合对大规模数据的挖掘.理论分析和实验结果也证明了CURD算法具有处理任意形状的聚类、对噪音数据不敏感的特点,并且其执行效率明显高于传统的基于R*-树的DBSCAN算法. 相似文献
5.
特征选择在模式识别和数据挖掘等领域都有十分广泛的应用.然而,当涉及空间数据时,由于传统特征选择方法没有很好地考虑数据的空间特性,所以会导致特征选择结果性能下降.从空间数据本身的特性出发,提出一种特征选择方法MEFS(maximum entropy feature selection).MEFS在基于最大熵原理的基础上,运用互信息和Z-测试技术,采用两步方法进行空间特征选择.第1步,空间谓词选择;第2步,选择与每个空间谓词对应的相关属性集.最后,分别对MEFS方法和RELIEF方法以及基于MEFS的分类方法与决策树算法ID3分别进行了实验比较.实验结果表明,MEFS方法不仅可以节约特征提取和分类时间,而且也极大地提高了分类质量. 相似文献
6.
1 Web仓储的时新性标准 WWW的迅猛发展使其成为全球信息传递与共享日益重要的信息资源。Web仓储使用物化视图构建信息集成系统,是对Web信息进行充分利用的一种有效方法。Web仓储具有高稳定性,查询速度非常快,非常适合决策分析等需要对信息进行深度加工的应用。与使用虚视图方法进行集成的系统不同,Web仓储系统中的首要任务是物化视图的构建和维护,而视图刷新则是物化视图维护工作的主体。 相似文献
7.
一种基于DTD的XPath逻辑优化方法 总被引:12,自引:1,他引:12
Xpath成为XML数据查询的基本机制.Xpath中表达节点之间的祖孙关系的‘//'和任意匹配字符的‘*'等非确定操作符,增强了Xpath表达方式的灵活性,但同时引入了Xpath处理的复杂性.如何利用DTD减少Xpath中的不确定操作符,从而提高Xpath的执行效率成为一个基本的研究问题.传统方法主要侧重于特定受限Xpath的确定化重写.利用树自动机在一个框架中表达Xpath和DTD,提出了一种新的Xpath树自动机和DTD树自动机的乘积运算,并证明了乘积的结果就是基于DTD的Xpath优化形式,在多项式时间内基于代价获取了Xpath的优化结果.实验数据表明,基于提出的Xpath的逻辑优化方法,能够有效地提高Xpath执行器的执行效率. 相似文献
8.
9.
一种无线通信环境中用户移动模式的挖掘算法 总被引:3,自引:0,他引:3
发现无线通信环境中用户的移动模式是移动对象管理中的一个关键问题.提出一种快速挖掘该模式的算法SAM(split and merge),用来挖掘移动对象所产生有序数据集中潜在的移动模式,从而为移动对象管理提供服务.该算法将自底向上搜索和自顶向下过滤技术相结合,采用图存储压缩数据集方法,利用非频繁项集分解子图和频繁长模式过滤数据集相结合的技术,大大减少了迭代次数,降低了CPU时间.最后给出了算法性能比较和算法分析.结果表明,该算法是有效的. 相似文献
10.
数字图书馆科技文献知识导航 总被引:5,自引:2,他引:5
提出了一种基于分类法和主题词表的科技文献知识导航体系,该体系支持分类法和主题词表知识导航、元数据结构查询和全文检索这三种检索手段以及他们的混合应用。从分类法主题词表的概念浏览和元数据查询的语义支持的角度来说,这是一个支持概念检索的知识导航体系。根据该体系,实现了“北京大学科技文献检索系统”实验数字图书馆。 相似文献