首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 687 毫秒
1.
要实现Deep Web领域中的数据集成,提供一个高效的数据检索策略是集成系统要解决的首要问题.面对众多的Web数据库,选择最恰当的数据库进行查询,实现以更小的代价返回更多的数据是研究的核心问题.针对此问题,提出了基于Web数据库独立样本的Web数据库特征表示和抽取方法,并基于该特征,提出了一种综合考虑查询相关度、返回数据量和数据冗余度3个要素的数据源选择方法.实验证明,该方法能够达到预期的研究目标,能较好地满足集成系统的需求.  相似文献   

2.
传统Deep Web数据集成研究侧重满足用户的即时查询需求,对数据分析应用缺乏充分支持,提出一个面向分析的Deep Web数据集成系统DWDIS,能够在较少人工参与下对大量Web数据库进行高质量数据获取、抽取和整合,为分析型应用提供优质全面的结构化数据.DWDIS支持领域模型的自动演化;通过自动识别和理解查询接口,采用查询词采新率模型以较小代价最大限度地获取Deep Web页面;充分利用集成系统已有数据中隐含的数据特征,对Deep Web页面进行有效页面抽取和语义标注;结合Web数据源特征,使用机器学习方法对来自大量Web数据库的数据实现高准确率的重复记录检测和数据融合.  相似文献   

3.
Deep Web数据源聚焦爬虫   总被引:2,自引:0,他引:2       下载免费PDF全文
Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对Deep Web数据源的聚焦爬行算法。在评价链接重要性时,综合考虑了页面与主题的相关性和链接相关信息。实验证明该方法是有效的。  相似文献   

4.
Deep Web中包含内容丰富、主题专一的高质量信息,为了自动地采集和集成这些数据,数据源的发现是关键。本文设计了一种基于本体的DeepWeb数据源聚焦搜索系统,给出了核心搜索算法。并通过实验,表明该方法是可行有效的。  相似文献   

5.
提出了一个同类主题的Deep Web 数据源选择方法,该方法通过数据源差异性分析可有效判断出新数据源的内容与集成系统中已有内容的重复度,进而利用查准率和查全率建立质量估计模型评估各数据源的质量,削弱了已有研究中因查准率低对质量评估产生的负面影响。在主流图书类网站上的实验结果表明,该方法能减少系统的负担,同时获取质量较高的同类主题的数据源。  相似文献   

6.
Web 数据源选择技术   总被引:2,自引:1,他引:1  
在Web数据集成的过程中,如何从大量的Web数据源集合中选择合适数量的数据源,使得在满足特定查询需求的前提下尽可能地减少所需访问的数据源数量,同时保持返回数据结果的高质量,成为Web数据集成中的一个热点问题.以近十几年的研究实践为背景,介绍Web数据源选择的研究沿革及现状,并对Web数据源选择方法进行了归类.分别讨论了基于相关性的和基于质量的数据源选择的研究动机、研究方法和研究成果等,并对相关研究的目标、关键技术、优点和缺点进行了对比分析;最后展望了Web数据源选择未来的研究方向.  相似文献   

7.
如何从数量众多的Web数据源集合中选择数量合适的数据源,使得在满足特定查询需求的前提下尽可能地减少访问数据源的数量,是Web大数据系统集成中的关键问题之一。提出了一个两阶段数据源选择方案:第一阶段通过各个数据源模式与中间模式的相似度选择与查询相关度高的数据源,通过计算依赖数据源的质量来选取质量较好的数据源;第二阶段基于最大熵理论计算数据源之间的重复率,设计实现了一个查询最小代价模型动态选择数据源算法。最后在实验平台上对算法进行了评估,实验表明该算法具有较高的效率与扩展性。  相似文献   

8.
Deep Web中蕴含了海量可供访问的信息,如何构建一个具有较好适用性和高效数据处理能力的Deep Web数据集成系统是有效利用Deep Web信息的关键.提出一种基于结果模式的Deep Web数据集成机制,通过结果模式可以实现高效的数据抽取,并且在结果模式的基础上可以根据用户查询请求动态生成结果输出模式,为高效的查询结果处理奠定了良好基础;同时,针对Deep Web数据源特点,给出数据源间冲突的分类及解决策略,为解决数据源间的异构问题奠定了良好基础.  相似文献   

9.
根据Deep Web数量的爆炸性增长特点,提出一种基于查询接口文本的Deep Web数据源分类算法,对于分类的查询接口,采用 2种方法:基于向量空间的TF-IDF方法和基于知网的语义相似度方法。综合2种方法获得接口之间的相似度。借鉴K-NN算法,提出WDB分类算法,从而实现Deep Web数据源的分类。实验结果表明,该算法在熵和F-measure 2种评价标准上均能获得较高质量,具有一定实用价值。  相似文献   

10.
随着Web数据库的广泛应用,Web正在不断“深化”。传统搜索引擎只能检索浅层网络,却不能直接索引到深层网络(Deep Web)的资源。为了有效地利用Deep Web资源,必须要对Deep Web数据进行大规模集成。其中,数据源发现是整合Deep Web资源的首要工作,能否高效地发现Deep Web站点是Deep Web数据获取的关键。提出了一种基于传统搜索引擎的Deep Web数据源发现方法,该方法通过分析返回结果来扩展查询,从而进一步提高了数据源发现的效率。实验证明该方法能得到较好的结果。  相似文献   

11.
数据仓库是连接底层数据源与上层应用的枢纽。该文介绍了数据仓库的填充(与数据源的连接)和数据仓库的访问(与应用界面的连接)技术,包括与数据库数据源和非数据库数据源的连接以及采用组件工具访问数据仓库的方式和实现方法。  相似文献   

12.
为了解决实际问题,大数据分析处理系统需要获取数据,然而实际场景中收集到的实际数据通常不完备.另外,大多数问题的解决方案通常是由问题引导或者仅仅进行数据分析,运行参数调整和设定带有较大的盲目性,难以达到应用的智能性.为此,文中提出平行数据的概念和框架,根据实际数据经计算实验产生真正的虚拟大数据,结合默顿定律,以期待的解决方案与问题进行广义对偶,引导大数据聚焦到实际问题.实际数据与虚拟数据动态互动,平行演化,形成一个虚实相生、数据动态变化的过程,最终使数据具备智能,进而解决未知的问题.平行数据不但是一种数据表示形式,更是一种数据演化机制与方式,其特色是虚实互动,所有数据的动力学轨迹构成了数据动力学系统.平行数据为数据处理、表示、挖掘和应用提供了一个新的范式.  相似文献   

13.
吴昊 《电脑学习》2001,(2):36-37
为有效地解决实际问题,可能要使不同语言进行混合编程,这样就涉及到数据的传递和不同类型的数据文件之间的转换,这里讨论几种常用数据交换问题。  相似文献   

14.
陈元  陈文伟 《计算机工程》2000,26(10):9-10,85
通过定义SOL数据挖掘抽取器,设计了数据挖掘算法和数据库管理系统的接口的框架体系。并通过一个常用的数据挖掘算法简单贝叶斯算法说明了这种标准的SOL数据挖掘抽取器的适用性。  相似文献   

15.
Making a business decision using data from severaldifferent enterprise databases can be complicated. Data warehousesconsolidate data into a central repository and give you the OLAP toolsnecessary to retrieve data pertinent to the solution.DefinitionA data warehouse is used to consolidate this data into a central storeand to arrange it to make analysis easier, which means the data is lessnormalized than your traditional application database. Data is typicallytransferred in batch to the centra…  相似文献   

16.
数据仓库中的数据提取   总被引:18,自引:2,他引:16  
连立贵  金凤  蔡家楣 《计算机工程》2001,27(9):61-62,99
数据仓库的思想和工具在企业中得到了越来越广泛的体现和应用,在当前典型的数据仓库应用中,数据仓库的填充或者说数据的提取,转换和加载是设计人员遇到的最大挑战之一,预计在数据仓库的设计过程中,80%的努力都将用于此过程。该文从工程角度介绍了数据提取、转换和加载的过程和实现方式,并介绍了4种可灵活应用的数据提取方法。  相似文献   

17.
数据转换过程的串行化方法   总被引:2,自引:1,他引:2  
随着数据仓库和数据集成的发展,数据清洗的工作越来越多,用户在进行数据清洗时需要对数据的内容进行多次处理。在设计清洗的建模过程中,用户可能对同一个数据进行多次的清洗和转换处理,由于步骤多,用户往往不知道清洗和转换步骤出现错误。该文对前述问题进行论述,并针对这种清洗和转换处理中的赋值冲突和范围冲突提出解决方法。  相似文献   

18.
数据仓库中数据质量控制研究   总被引:18,自引:1,他引:18  
随着数据仓库的深入应用,数据质量问题成为关系到数据仓库建设成败和数据能否有效应用的重要关键问题。该文首先讨论数据仓库环境下存在的数据质量问题以及保证数据质量的重要性,然后提出数据质量的度量和评价指标,最后给出了数据仓库实施和运行过程中数据质量控制的数据质量成熟度模型和保证仓库数据质量的方法。  相似文献   

19.
面向客户数据仓库的数据集成方法   总被引:3,自引:0,他引:3  
数据集成问题是建立数据仓库过程中的重要问题之一,而客户资料又是其中最难以集成的数据,对于该问题目前还没有一个很好的解决方法。我们总结在实际实践中取得的经验,提出了一套切实可行的解决方案,同时兼顾了集成效率和准确率两方面因素,实际应用效果比较理想。  相似文献   

20.
数据仓库中的数据集成转换   总被引:2,自引:0,他引:2  
本文首先提出了数据仓库中数据集成的一个总体框架,然后列举了在数据转换中可能遇到的主要问题,最后根据这些转换规则,给出了一种描述性脚本语言来描述这些规则,继而给相应的处理模块解析处理。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号