Web大数据系统数据源选择 |
| |
作者单位: | ;1.三江学院计算机科学与工程学院;2.南京航空航天大学计算机科学与技术学院 |
| |
摘 要: | 如何从数量众多的Web数据源集合中选择数量合适的数据源,使得在满足特定查询需求的前提下尽可能地减少访问数据源的数量,是Web大数据系统集成中的关键问题之一。提出了一个两阶段数据源选择方案:第一阶段通过各个数据源模式与中间模式的相似度选择与查询相关度高的数据源,通过计算依赖数据源的质量来选取质量较好的数据源;第二阶段基于最大熵理论计算数据源之间的重复率,设计实现了一个查询最小代价模型动态选择数据源算法。最后在实验平台上对算法进行了评估,实验表明该算法具有较高的效率与扩展性。
|
关 键 词: | Web大数据 数据源选择 数据源质量 数据源依赖 |
Data Source Selection for Web Big Data System |
| |
Abstract: | |
| |
Keywords: | |
|
|