首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径,Deep Web爬虫是Deep Web数据源集成的关键组成部分,提出一种针对结构化Deep Web的聚焦爬虫爬行策略,通过对查询接口的特征分析来判断Deep Web数据源的主题相关性,同时,在评价链接重要性时,综合考虑了页面内容的主题相关性和链接的相关信息,实验证明该方法是有效的.  相似文献   

2.
基于查询接口特征的Deep Web数据源自动分类   总被引:3,自引:0,他引:3  
搜索引擎可以很好地搜索出大部分可索引页面,然而,Internet上有大量的页面是由后台数据库动态产生的.传统的搜索引擎搜索不出这部分页面,我们称之为Deep Web。其中大部分Deep Web是结构化的,它提供结构化的查询接口和结构化的结果。把这些结构化的Deep Web数据源按所属领域进行组织可以方便用户浏览这些有价值的资源.并且这也是大规模Deep Web集成搜索的一个关键步骤。提出了一种基于查询接口特征的Deep Web数据源自动分类方法.并通过实验验证该方法是非常有效的。  相似文献   

3.
Deep Web指无法简单地通过搜索引擎或网络爬虫能够检索到的隐藏在后台数据库中,而往往这些内容具有丰富的信息和数据.获取Deep Web所蕴含的丰富信息的有效方法是构建Deep Web集成框架,而查询接口作为Deep Web的唯一访问接口,所以Deep Web集成系统的关键就是构建Deep Web集成接口.研究的目标是通过自动构建特定领域的本体来表示Deep Web接口信息,从而能够自动识别该领域Deep Web接口来建立索引,提取数据库中丰富的资源.在没有人为干预的情况下展开整个过程.本文的方法能完全自动地提取Deep Web接口信息并派生领域本体,并通过本体贝叶斯网络识别新Deep Web接口,进行匹配.在特定领域,通过一种新的自动从Deep Web接口中提取属性方法,通过WordNet构建成本体语义树,运用得到的领域语义本体树结合贝叶斯网络完成领域分类,并在分类后进行查询接口与集成接口的模式匹配.本文提出的方法通过对比人工提取属性构成的语义树在分类和模式匹配的结果进行对比,验证了该方法的可用性和适用性.  相似文献   

4.
为有效解决Deep Web数据库中数据纠错、消重和整合问题,优化Deep Web数据库实体查询性能.提出一种基于智能语义自相关特征的Deep Web数据库优化识别查询模型.模型由文本匹配模型、语义自相关特征分析模型和分组统计模型构成,设计语义自相关特征提取算法,定义语义信息约束规则,优化逼近数据库实体识别结果,使用语义自相关特征建立表象关联知识库,实现数据查询过程中的纠错、消重、整合.最后用数学推导证明了算法的稳定性.仿真模拟实验表明,算法能综合考虑文本特征、语义自相关特征和约束规则,数据库查询识别结果不断精化,数据查询准确性和有效完备性提高显著.  相似文献   

5.
一种Deep Web数据源质量评估模型   总被引:3,自引:1,他引:2  
分析了影响Deep Web数据源质量评估的若干因素,提出了一种Deep Web数据源质量评估模型.该模型从浏览器、Web数据库、Web服务器和用户四个方面对数据源进行质量评估.通过在真实的Deep Web数据源上进行实验验证,说明该方法是有效和可行的.  相似文献   

6.
语义标注是Deep Web数据集成系统中一个非常重要的模块,它是实体识别和结果合并这两模块的基础,语义标注的效果直接影响着整个Deep Web数据集成系统的结果。本文提出了在图书领域,利用本体对Web数据库查询结果通过属性值进行语义标注,通过对不同网站的测试,该方法具有较高的准确率和召回率。  相似文献   

7.
一种基于VSM的检测相似重复记录的方法   总被引:4,自引:1,他引:3  
相似重复记录是数据集成系统中影响数据质量的关键问题之一.为了提高检测精度和效率,综合一些已有的传统方法并加以改进:(1)在字段间进行比较时,根据不同情况逐字符进行比较,使得算法能够适应不同的语言环境,具有较好的通用性.(2)在记录间进行比较时,为不同的字段赋予不同的权重,并采用了基于向量空间模型VSM的向量距离算法,提高了相似重复记录检测的精度.(3)在聚类的过程中采用优先队列策略,减少了记录间比较的次数,提高了检测的效率.理论分析和实验证明文中所提出的相似重复记录检测方法是有效的.  相似文献   

8.
提出的异构数据集成系统框架包括源模式层、局部模式层、全局模式层和用户模式层.利用Web service接口完成从源模式层到局部模式层的转换,利用模式融合和冲突解决实现从局部模式到全局模式的转换,并嵌入数据查询过程.用户模式层作为全局模式层的一个子集,可以动态调整,方便集成数据的查询处理,还定义了一个基于XML的统一数据模型以支持异构数据的集成中的查询处理,提出了一个相应的查询处理过程.  相似文献   

9.
许延龙  潘昊  丁柏圆 《液晶与显示》2023,(11):1511-1520
合成孔径雷达(Synthetic Aperture Radar,SAR)图像目标识别是SAR图像解译的重要应用。为提高SAR目标识别的稳健性,本文提出基于深度信念网络(Deep Belief Network,DBN)的属性散射中心匹配方法。属性散射中心参数特征丰富,能够很好地反映目标的局部散射特性。DBN发挥深度学习优势,可以实现测试样本与模板样本散射中心集的稳健匹配,并且能够较好地适应噪声干扰、部分缺失等情形。在构建的属性散射中心匹配关系的基础上,定义相似度度量准则。基于最大相似度的原则确定测试样本所属类别。实验依托MSTAR数据集开展,经验证,所提方法对于SAR目标识别问题具有良好的有效性和稳健性。  相似文献   

10.
《现代电子技术》2019,(22):169-173
针对模式集成过程中表示不同语义的属性因名称特征和数据实例特征相似而引起的误配问题,提出一种基于信息度量和聚类的模式集成方法。该方法通过构造数据实例的点互信息向量将属性表示到向量空间中,将模式集成问题简化成求解空间中的属性点的相似性问题,进而基于DBSCAN算法对属性进行聚类,有效识别同名异义的属性,同时结合属性的加权相似度对类中误匹配属性进行筛除,提高属性匹配结果的精确度。实验结果表明,该方法能有效地将模式信息与数据实例相结合来取得更准确的匹配结果,可以解决多个异构模式的集成问题。  相似文献   

11.
基于灰色理论的整体模式匹配   总被引:1,自引:0,他引:1  
模式匹配是Deep Web研究中的关键问题.现有的模式匹配算法都是基于两两匹配的原则,同一时刻只能比较两个属性,比较繁琐,当数据源很大时困难很大,效率不高.利用整体模式匹配的思想,提出了一种新的匹配算法.这个方法引入了灰色理论,将每个接口属性抽象成一个向量,每一个向量表示该属性在某一个模式中出现与否.通过比较两个向量各个分量的值,一次性地处理所有模式,从而从整体上分析属性之间的关联性.实验证明这种方法易于计算机实现,可以简单、高效地完成模式匹配.  相似文献   

12.
简述web服务的关键技术以及其发展的过程,并对一些关键技术进行阐述,web服务是有自己独特的体系,拥有自己的一套架构,并且在这套架构上,web服务拥有自己的核心技术,当单个的web服务难以满足需求的时候,这时候web服务组合就出现了,它能够很好的解决单个web所不能解决的问题,这个很好的满足了现代社会的需求,最后提出web服务技术的未来,其中重点是说明web服务的核心技术。随着网络的兴起,web服务技术被广泛应用于大数据的海洋抓取,比如代购网站中,就需要用到数据的海洋抓取和存储。  相似文献   

13.
基于用户浏览行为度量浏览兴趣的研究   总被引:1,自引:0,他引:1  
准确地度量用户浏览兴趣是Web使用模式挖掘的基础,本文针对Web使用模式挖掘,首先分析了已有的度量用户浏览兴趣方式的不足之处,提出了一种基于用户浏览行为度量用户浏览兴趣的方法。分析了现有Web使用模式挖掘的数据采集方式,提出了一种综合利用服务器日志文件和客户端数据获取用户浏览信息的方法,从用户浏览网站的数据中抽取感兴趣的模式,理解用户的浏览兴趣行为,以便进一步改善网站结构或为用户提供个性化的服务。  相似文献   

14.
为了方便用户快捷高效的使用DeepWeb中内容丰富、主题专一的高质量信息,对DeepWeb数据源发现研究已成为一个非常迫切的问题。目前通用的方法是基于关键词的主题过滤策略,这样容易发现一些不相关的数据源,为此提出一种新的基于语义的DeepWeb数据源聚焦爬行方法,利用朴素贝叶斯分类算法自动发现DeepWeb数据源,实验验证了该方法的有效性。  相似文献   

15.
扩展的Deep Web质量估计模型研究   总被引:1,自引:1,他引:0  
Deep Web中蕴涵了海量的高质量信息.文中从Deep Web数据源的功能属性和非功能属性两个方面对数据源的质量进行度量,建立了一种基于综合模糊评价指标体系的扩展的数据源质量估计模型.实验结果表明该模型得到的数据源质量排序序列和人工排序序列的Kendall’s距离较扩展前有了很大提高,而且质量估计结果也能使数据源的选择得到较高精确度.  相似文献   

16.
张智  顾韵华 《信息技术》2011,(5):108-111
针对Deep Web的查询需求,提出了一种基于K-近邻算法的Deep Web数据源的自动分类方法。该算法在对Deep Web网页进行表单特征提取及规范化的基础上,基于距离对Deep Web网页所属的目标主题进行判定。实验结果表明:基于K-近邻分类算法可以较有效地进行DeepWeb数据源的自动分类,并得到较高的查全率和查准率。  相似文献   

17.
王颖  林亮亮 《信息技术》2005,29(9):76-79
给出一种构建和管理异构模式之间转换的方法。重点给出关系模型到Web环境下多使用的层次模型的数据交换。交换从源模式和目标模式的语义出发,包括语义转换和数据转换两个阶段。  相似文献   

18.
随着大数据时代的到来,敏感数据的保护成为运营商面临的重大挑战。敏感数据的准确标识是进行数据保护的前提,深度报文检测技术能够松耦合、实时的对流量进行检测和标识,使其成为当下大数据平台下敏感数据标识的一种重要方式。然而其高存储高计算的资源需求成为制约其应用和发展的痛点。本文提出了一种基于反馈的高速敏感数据识别方法,通过建立会话表的方式,实时记录识别的状态,大幅降低需要深度检测的数据量,提升了检测的效率。  相似文献   

19.
为了提高Deep Web爬虫发现和搜集数据源的效率,提出了一种融合MapReduce和虚拟化技术实现DeepWeb海量数据挖掘的并行计算方法。基于MapReduce架构提出了一个Deep Web爬虫模型,通过链接过滤分类、页面过滤分类、表单过滤分类等3个MapReduce过程找到Deep Web数据源接口,并利用虚拟机构建单机集群进行性能测试。实验结果显示该方法可以实现大规模数据的并行处理,有效提高爬虫数据源发现的效率,避免网络及物理资源的浪费,验证了云计算技术在Deep Web数据挖掘方面的可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号