首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
提出一种利用搜索引擎发现数据源的方法。为向搜索引擎提交高质量的关键词,将本体作为等级化组织词汇的架构引入到初始词构建过程。对所有词汇按在当前领域中出现频率高低进行分类,并根据搜索引擎返回接口集元素数量进行二次分类,确保关键词是对发现数据源查询接口贡献较大的词汇。在不同领域上的测试结果表明,该方法能发现相当数量的查询接口,从而验证其有效性。  相似文献   

2.
Deep Web中包含内容丰富、主题专一的高质量信息,为了自动地采集和集成这些数据,数据源的发现是关键。本文设计了一种基于本体的DeepWeb数据源聚焦搜索系统,给出了核心搜索算法。并通过实验,表明该方法是可行有效的。  相似文献   

3.
根据Deep Web数量的爆炸性增长特点,提出一种基于查询接口文本的Deep Web数据源分类算法,对于分类的查询接口,采用 2种方法:基于向量空间的TF-IDF方法和基于知网的语义相似度方法。综合2种方法获得接口之间的相似度。借鉴K-NN算法,提出WDB分类算法,从而实现Deep Web数据源的分类。实验结果表明,该算法在熵和F-measure 2种评价标准上均能获得较高质量,具有一定实用价值。  相似文献   

4.
Deep Web数据源发现是指从Web中搜索到含有Web数据库的Deep Web站点。查询接口作为DeepWeb数据源信息访问的唯一入口,发现工作更多地转向了对查询接口的判定。本文在处理时,首先构建领域本体模型,并利用HowNet语义知识辞典进行语义相似度计算,完成查询接口判定工作,同时通过启发式规则提高查询接口判定的效率。  相似文献   

5.
随着Internet技术的快速发展,Web数据库数目庞大而且仍在快速增长。为有效组织利用深藏于Web数据库上的信息,需对其按领域进行分类和集成。Web页面上的查询接口是网络用户访问Web数据库的唯一途径,对Deep Web数据源分类可通过对查询接口分类实现。为此,提出一种基于查询接口文本VSM(Vector Space Model)的分类方法。首先,使用查询接口文本信息构建向量空间模型,然后通过典型的数据挖掘分类算法训练分类器,从而实现对查询接口所属领域进行分类。实验结果表明给出的方法具有良好的分类性能。  相似文献   

6.
基于本体的Deep Web查询接口分类   总被引:1,自引:0,他引:1  
目前对于分类问题,主要工作集中在文本或Web文档的分类研究,而很少有对deep Web查询接口的分类研究.deep Web源包括查询接口和查询结果,大量的deep Web源的存在,对它们查询接口的分类是通向deep Web分类集成和检索的关键步骤.本分提出一种deep Web本体分类方法,包括:分类本体的概念模型和由此产生的deep Web空间向量模型(VSM).试验表明,这种分类方法具有良好的分类效果,平均准确率达到91.6%,平均查全率达到92.4%.  相似文献   

7.
基于本体的Deep Web数据标注   总被引:3,自引:0,他引:3  
袁柳  李战怀  陈世亮 《软件学报》2008,19(2):237-245
借鉴语义Web领域中深度标注的思想,提出了一种对Web数据库查询结果进行语义标注的方法.为了获得完整且一致的标注结果,将领域本体作为Web数据库遵循的全局模式引入到查询结果语义标注过程中.对查询接口及查询结果特征进行详细分析,并采用查询条件重置的策略,从而确定查询结果数据的语义标记.通过对多个不同领域Web数据库的测试,在具有领域本体支持的条件下,该方法能够对Web数据库查询结果添加正确的语义标记,从而验证了该方法的有效性.  相似文献   

8.
基于数据质量的Deep Web数据源排序   总被引:1,自引:1,他引:0  
Deep Web技术使得大量隐藏在接口背后的有用信息更容易被用户查找到.然而,随着数据源的增多,如何从众多的数据源中快速地找到合适的结果这一问题变得越来越重要.通过传统的链接分析方法和相关性评估方法来对数据源进行排序,已经不能满足高精度的要求.提出一种通过抽样方法和数据质量评估来判断数据源的优劣性的算法.本文提出的抽样方法,改进了分层抽样和雪球抽样,使得在较少的样本点时,能够准确的反映整体特征.定义了能基本反映数据源的优劣程度的6个主要质量标准,并给出计算方法;通过质量标准,结合权重向量来量化数据源的质量.实验通过对数据源进行抽样分析,求解数据源得分的期望值,并根据该期望值对数据源进行了整体排序.结果表明,利用抽样对数据源的数据质量进行估计和评分,具有很好的准确性和可操作性.  相似文献   

9.
针对单纯的Pre-query和单纯的Post-query分类方法对中文Deep Web数据源自动分类的不足,本文提出了三段式逐步求精的中文Deep Web数据源自动分类方法,并且基于该方法设计了相应的分类系统。通过实验表明:对于实验数据源,这种自动分类方法比单纯的Pre-query分类方法、单纯的Post-query分类方法以及无影响度差别的文献[2]的分类方法的查全率、查准率和F1值都要高。  相似文献   

10.
Deep Web数据源聚焦爬虫   总被引:2,自引:0,他引:2       下载免费PDF全文
Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对Deep Web数据源的聚焦爬行算法。在评价链接重要性时,综合考虑了页面与主题的相关性和链接相关信息。实验证明该方法是有效的。  相似文献   

11.
针对传统词袋方法在深网(Deep Web)数据源分类应用中的局限性,提出一种基于世界知识的Deep Web数据源增强分类模型,通过对外部知识库的主题分析,建立特征映射,构造基于领域概念的辅助分类器,丰富Deep Web查询表单的特征集合。基于Wikipedia百科知识库对真实Web数据进行分类。实验结果证明该模型有效。  相似文献   

12.
Deep Web中的海量信息只能通过查询接口访问获得,为了能够同时访问同一领域多个Web数据库,需要对多个Web数据库的查询接口进行集成.因此,引入本体技术,提出基于本体的Deep Web查询接口集成方法.Deep Web查询接口集成主要完成两个方面的工作:模式匹配与模式融合.模式匹配采用本体的“Bridge(桥接)”效应建立不同接口模式间的属性映射关系,以准确发现不同接口属性间的语义关联.模式融合根据模式匹配的结果,合并Deep Web数据库查询接口集合中表示同一语义的属性,并尽可能地保持该领域查询接口的结构特征和属性顺序,以获得集成查询接口.通过实验分析,基于本体的Deep Web查询接口集成方法不仅简化了模式匹配的复杂过程,而且很大程度上提高了模式集成的精度.因此,基于本体的Deep Web查询接口集成方法是高效可行的.  相似文献   

13.
刘奎  赵晓静 《微机发展》2008,18(2):112-114
Web服务的大量涌现对服务发现提出了挑战。目前基于关键字和基于框架的服务发现机制,将查询结果通过一定的排序法则呈现在用户面前。但是这些发现方法查准率极其低下,已经不能很好地满足用户需要。在研究本体与Web服务的基础上.提出了一种基于本体的Web服务发现框架.该框架首先对用户的请求合约进行语义预处理.然后根据抽取的语义在服务库中发现适合Web服务,从而提高查准率。  相似文献   

14.
一种基于本体的Web服务发现框架   总被引:3,自引:1,他引:3  
Web服务的大量涌现对服务发现提出了挑战.目前基于关键字和基于框架的服务发现机制,将查询结果通过一定的排序法则呈现在用户面前.但是这些发现方法查准率极其低下,已经不能很好地满足用户需要.在研究本体与Web服务的基础上,提出了一种基于本体的Web服务发现框架,该框架首先对用户的请求合约进行语义预处理,然后根据抽取的语义在服务库中发现适合Web服务,从而提高查准率.  相似文献   

15.
基于结果模式的Deep Web数据抽取   总被引:3,自引:0,他引:3  
高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为Deep Web数据集成奠定了良好的基础.  相似文献   

16.
Web服务的大量涌现对服务发现提出了挑战。然而,传统的服务发现技术是建立在语法描述的基础上,主要采用的服务发现机制是WSDL和UDDI规范相结合的解决方案,通过关键词匹配来实现的。但是这些发现方法查准率极其低下,已经不能很好地满足用户需要。在研究本体与语义Web服务的基础上,提出了一种基于本体的Web服务发现框架,该框架首先对用户的请求合约进行语义预处理,然后根据抽取的语义在服务库中发现适合的Web服务,从而提高查准率。  相似文献   

17.
基于本体论和词汇语义相似度的Web服务发现   总被引:120,自引:2,他引:120  
Web服务的大量涌现对服务发现提出了挑战,UDDI上基于关键词和简单分类的服务发现机制已经不能很好满足需要.该文在分析现有相关研究的基础上,提出了基于本体论和词汇语义相似度的Web服务发现方法.通过构建Web服务本体,给出一个明晰的Web服务发现的研究对象,指出可对Web服务进行的几种相似度计算,并对其中的词汇语义相似度计算进行详细讨论.文中具体给出两种词汇语义相似度计算方法,其中第一种方法计算词汇语义相似度基于词语间距离度量,第二种方法计算词汇语义相似度则建立在义原相似度基础上.引入本体论和词汇语义相似度,为Web服务相似度计算、Web服务发现提供了一种有效可行的方法.  相似文献   

18.
随着Web的飞速发展,Deep Web中蕴藏着海量高质量数据,如何高效地提取这些数据极具挑战。由于Deep Web的动态性,其数据经常处于频繁更新的状态,而用户总是希望获得最新鲜的内容。为此,论文在分析Deep Web数据变化特性的基础上,建立一个Deep Web数据生成模型,然后,提出一种强化学习的Deep Web数据提取方法。实验表明,该方法具有较好的数据提取效率,可有效提高Deep Web数据集成服务质量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号