首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 109 毫秒
1.
一种Deep Web数据源质量评估模型   总被引:3,自引:1,他引:2  
分析了影响Deep Web数据源质量评估的若干因素,提出了一种Deep Web数据源质量评估模型.该模型从浏览器、Web数据库、Web服务器和用户四个方面对数据源进行质量评估.通过在真实的Deep Web数据源上进行实验验证,说明该方法是有效和可行的.  相似文献   

2.
张智  顾韵华 《信息技术》2011,(5):108-111
针对Deep Web的查询需求,提出了一种基于K-近邻算法的Deep Web数据源的自动分类方法。该算法在对Deep Web网页进行表单特征提取及规范化的基础上,基于距离对Deep Web网页所属的目标主题进行判定。实验结果表明:基于K-近邻分类算法可以较有效地进行DeepWeb数据源的自动分类,并得到较高的查全率和查准率。  相似文献   

3.
为了提高Deep Web爬虫发现和搜集数据源的效率,提出了一种融合MapReduce和虚拟化技术实现DeepWeb海量数据挖掘的并行计算方法。基于MapReduce架构提出了一个Deep Web爬虫模型,通过链接过滤分类、页面过滤分类、表单过滤分类等3个MapReduce过程找到Deep Web数据源接口,并利用虚拟机构建单机集群进行性能测试。实验结果显示该方法可以实现大规模数据的并行处理,有效提高爬虫数据源发现的效率,避免网络及物理资源的浪费,验证了云计算技术在Deep Web数据挖掘方面的可行性。  相似文献   

4.
实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径,Deep Web爬虫是Deep Web数据源集成的关键组成部分,提出一种针对结构化Deep Web的聚焦爬虫爬行策略,通过对查询接口的特征分析来判断Deep Web数据源的主题相关性,同时,在评价链接重要性时,综合考虑了页面内容的主题相关性和链接的相关信息,实验证明该方法是有效的.  相似文献   

5.
基于上下文的Web服务动态组合   总被引:2,自引:2,他引:0  
合成现有Web服务以生成功能更强更复杂的组合服务成为必然,组合服务的上下文信息具有十分重要的作用.针对Web服务描述语言仅支持服务功能性描述的不足,扩展了非功能属性描述,定义了一个Web服务的上下文模型,设计实现了感知上下文和执行动态服务替换的组合服务平台,通过运行旅游服务对该平台系统进行了有效验证.  相似文献   

6.
Deep Web指无法简单地通过搜索引擎或网络爬虫能够检索到的隐藏在后台数据库中,而往往这些内容具有丰富的信息和数据.获取Deep Web所蕴含的丰富信息的有效方法是构建Deep Web集成框架,而查询接口作为Deep Web的唯一访问接口,所以Deep Web集成系统的关键就是构建Deep Web集成接口.研究的目标是通过自动构建特定领域的本体来表示Deep Web接口信息,从而能够自动识别该领域Deep Web接口来建立索引,提取数据库中丰富的资源.在没有人为干预的情况下展开整个过程.本文的方法能完全自动地提取Deep Web接口信息并派生领域本体,并通过本体贝叶斯网络识别新Deep Web接口,进行匹配.在特定领域,通过一种新的自动从Deep Web接口中提取属性方法,通过WordNet构建成本体语义树,运用得到的领域语义本体树结合贝叶斯网络完成领域分类,并在分类后进行查询接口与集成接口的模式匹配.本文提出的方法通过对比人工提取属性构成的语义树在分类和模式匹配的结果进行对比,验证了该方法的可用性和适用性.  相似文献   

7.
文中分析了多媒体数据源质量评估的多个关键因素,提出了一种针对于多媒体数据源的质量估计模型.模型从合时性、资源数量、使用数量、信息丰富度等四个维度对数据源质量进行了质量评估,并对源质量计算中的规范化方法进行了改进.实验证明,利用该模型对数据源质量进行估计具有很好的准确性和可操作性.  相似文献   

8.
陈彦萍  马睿翔 《通信技术》2009,42(9):174-175
为了能够更好地满足用户对服务组合的需要,文中首先给出了多层次纽合Web服务的筛选模型,并将多层次组合Web服务筛选模型分为五个步骤。在此基础上将Web服务的属性分为功能属性和非功能属性(即QoS属性)。通过划分服务类对功能属性进行描述,并按照服务类以QoS属性的类型进行服务组合。最后给出了多目标方案筛选方法及其实验。  相似文献   

9.
为有效解决Deep Web数据库中数据纠错、消重和整合问题,优化Deep Web数据库实体查询性能.提出一种基于智能语义自相关特征的Deep Web数据库优化识别查询模型.模型由文本匹配模型、语义自相关特征分析模型和分组统计模型构成,设计语义自相关特征提取算法,定义语义信息约束规则,优化逼近数据库实体识别结果,使用语义自相关特征建立表象关联知识库,实现数据查询过程中的纠错、消重、整合.最后用数学推导证明了算法的稳定性.仿真模拟实验表明,算法能综合考虑文本特征、语义自相关特征和约束规则,数据库查询识别结果不断精化,数据查询准确性和有效完备性提高显著.  相似文献   

10.
查询自动生成器在Web数据库发现中的应用   总被引:1,自引:0,他引:1  
为了帮助用户获得一个统一的访问途径来自动地获取利用自由分布在整个万维网上的Deep Web中丰富的信息.Deep Web数据集成受到了越来越多的关注,这其中也包含若干问题急待解决.提出了在Deep Web数据集成领域中解决Web数据库的发现的一种试探性方法,并模拟了该方法的使用场景,介绍了它采用的学习方法.  相似文献   

11.
重复记录是指描述现实世界中同一实体的不同的记录信息。由于从同一个领域的不同Deep Web数据源中抽取的记录信息通常存在许多重复记录,本文针对半结构化的重复记录的识别进行研究。在已知全局模式和全局模式与各Deep Web数据源查询接口映射关系的基础上,提出了一种重复记录识别模型。 基于从Deep Web中抽取出的半结构化的数据,采用查询探测方法确定所抽取数据所匹配的属性,通过分析抽取的实例数据确定属性重要度,结合多种相似度估算器和多种算法计算记录间的相似度,进而识别重复记录。实验表明,该重复记录识别模型在Deep Web环境下是可行且有效的。  相似文献   

12.
为了方便用户快捷高效的使用DeepWeb中内容丰富、主题专一的高质量信息,对DeepWeb数据源发现研究已成为一个非常迫切的问题。目前通用的方法是基于关键词的主题过滤策略,这样容易发现一些不相关的数据源,为此提出一种新的基于语义的DeepWeb数据源聚焦爬行方法,利用朴素贝叶斯分类算法自动发现DeepWeb数据源,实验验证了该方法的有效性。  相似文献   

13.
当前深层网络中蕴含着高质量的海量信息并且其数量不断地增长,由于深层网络具有分布、异构、自治等特点,用户高效、快捷地获取自己感兴趣的信息面临巨大挑战.将深层网络数据源按领域分类是解决这一挑战的基础.本文以对航空订票、图书、汽车和房地产领域的200多个数据源的统计和分析为基础,充分利用主题和表单属性信息,提出了一种新的深层网络数据源分类方法以及改进的查询接口相似性度量方法,实现深层网络数据源的自动分类.本文还提出了一种查询接口标记策略,以降低随机选择初始中心点所产生的影响.实验结果表明该方法具有较高的分类精度.  相似文献   

14.
基于查询接口特征的Deep Web数据源自动分类   总被引:3,自引:0,他引:3  
搜索引擎可以很好地搜索出大部分可索引页面,然而,Internet上有大量的页面是由后台数据库动态产生的.传统的搜索引擎搜索不出这部分页面,我们称之为Deep Web。其中大部分Deep Web是结构化的,它提供结构化的查询接口和结构化的结果。把这些结构化的Deep Web数据源按所属领域进行组织可以方便用户浏览这些有价值的资源.并且这也是大规模Deep Web集成搜索的一个关键步骤。提出了一种基于查询接口特征的Deep Web数据源自动分类方法.并通过实验验证该方法是非常有效的。  相似文献   

15.
This article presents an analysis of the flow of information in a network of online news sites. Social network theory and research on hyperlinked networks of Web pages are used to develop a model of information flow among Web sites. Kleinberg's authority‐hub model is extended by introducing sources of information in the network. Significant support was found for a Source–Authority–Hub model, which shows the source, directionality, routing, and destination of news information flow through a network of authorities and hubs. This model demonstrates the ability of key Web sites to control the flow of news and information. Applications of the model to over‐time data have the potential to predict future changes in the online news industry.  相似文献   

16.
Peer to Peer (P2P) techniques were widely applied into Web service discovery fields, but most existing schemes only focused on matching the functional attributes of Web services and ignored the non-functional attributes, i.e. quality of services (QoS). In this paper, we present a QoS-aware Web service discovery approach. The approach maps each Web service into virtual space to distribute all QoS attributes among P2P nodes, and then designs a distributed decision tree to support range service query with QoS requirements. Finally, a load balance algorithm is used to reduce range query cost. Experimental results based on synthetic and real datasets show our proposed approach can perform effective service discovery with low cost in P2P environments.  相似文献   

17.
In this paper, a solution quality assessment method referred to as the “expected likelihood” (EL) approach, previously introduced for the stochastic (unconditional) Gaussian model, is extended over the deterministic (conditional) Gaussian model. This model is applied for arbitrary temporally correlated (narrowband) waveforms, emitted by point sources impinging upon an antenna array. Performance of direction of arrival (DOA) estimation is then examined.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号