首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
随着互联网技术的迅速发展,大量结构化的高质量信息被埋入网络,却无法被传统的搜索引擎检索到,进而难以被挖掘利用。针对这一现象,提出了基于Deep Web的信息采集系统,设计了基于Web的查询方式,并结合数据挖掘的相关技术,获取并挖掘深网信息资源,解决传统手工采集信息的弊端,提高系统的使用效率,避免人工搜集时间和费用上的开销,降低成本,便于维护。并且正在云南省大型仪器协作共用网络平台的建设中尝试实现这个子系统的设计。  相似文献   

2.
基于本体的Deep Web查询接口分类   总被引:1,自引:0,他引:1  
目前对于分类问题,主要工作集中在文本或Web文档的分类研究,而很少有对deep Web查询接口的分类研究.deep Web源包括查询接口和查询结果,大量的deep Web源的存在,对它们查询接口的分类是通向deep Web分类集成和检索的关键步骤.本分提出一种deep Web本体分类方法,包括:分类本体的概念模型和由此产生的deep Web空间向量模型(VSM).试验表明,这种分类方法具有良好的分类效果,平均准确率达到91.6%,平均查全率达到92.4%.  相似文献   

3.
电子商务网站以查询接口的方式提供商务信息,查询接口也是隐藏在后端的Deep Web数据库模式信息的载体.有效解析查询接口是访问Deep Web资源的第1步,但是由于查询接口在不同的设计模式和开发语言下实现,所以导致了属性难以抽取、语义关系复杂的现象.为提高属性抽取的准确率且实现在语义层面上对查询接口的解读,提出一种以查询接口启发式信息为基础的属性抽取方法,通过使用本体工具对属性集合进行拓展并获取语义描述.在实际的电子商务网站上进行的广泛实验证明了提出方法的可行性与有效性.  相似文献   

4.
随着Internet技术的快速发展,Web数据库数目庞大而且仍在快速增长。为有效组织利用深藏于Web数据库上的信息,需对其按领域进行分类和集成。Web页面上的查询接口是网络用户访问Web数据库的唯一途径,对Deep Web数据源分类可通过对查询接口分类实现。为此,提出一种基于查询接口文本VSM(Vector Space Model)的分类方法。首先,使用查询接口文本信息构建向量空间模型,然后通过典型的数据挖掘分类算法训练分类器,从而实现对查询接口所属领域进行分类。实验结果表明给出的方法具有良好的分类性能。  相似文献   

5.
Deep Web查询接口是Web数据库的接口,其对于Deep Web数据库集成至关重要。本文根据网页表单的结构特征定义查询接口;针对非提交查询法,给出界定Deep Web查询接口的一些规则;提出提交查询法,根据链接属性的特点进行判断,找到包含查询接口的页面;采用决策树C4.5算法进行分类,并用Java语言实现Deep Web查询接口系统。  相似文献   

6.
Deep Web数据源自动分类   总被引:1,自引:0,他引:1  
随着World Wide Web(WWW)的飞速发展,Deep Web中蕴含了海量的可供访问的信息,并且还在迅速地增长.其中大部分的Deep Web是结构化的,把这些结构化的Deep Web按其领域进行分类,是Deep Web集成查询接口生成的一个非常重要的步骤.文中提出了一种利用朴素贝叶斯分类的方法,并通过实验证明了其有效性.  相似文献   

7.
在正负关联规则中引入布尔矩阵的概念,在双重相关性挖掘算法的基础上提出一种Deep Web复杂模式匹配算法。将查询接口模式中的属性项转化成布尔矩阵,通过对矩阵进行正关联规则运算挖掘组属性,对矩阵进行负关联规则运算挖掘同义属性。实验结果表明该算法的执行效率较高。  相似文献   

8.
以网上书店为例,基于所发现的DeepWeb数据源,针对其查询接口,提出了一种基于领域知识的DeepWeb接口抽取方法,该方法采用正则表达式的规则提取查询接口,包括与控件相邻的文本语义词汇的提取和控件的提取,然而部分查询接口抽取出的文本语义信息比较繁琐,需借助页面中的字体颜色等特征,过滤非需要的信息,达到文中的目标。该方法获得了较好的结果,具有良好的可行性和实用性。  相似文献   

9.
随着Intemet的飞速发展,Web已经发展成为一个巨大的信息资源库,但是目前Web数据大都以HTML形式出现,这使得应用程序无法直接利用Web上的海量信息。针对这一问题,出现了Web信息采集技术。该文对信息采集技术进行了探讨,并在此基础上实现了一个基于Web的新闻采集系统.该系统可根据用户使用正则袁达式编写的采集规则快速而精确的采集目标网页中的信息,保存在本地数据库中,用于内部使用或外网发布。  相似文献   

10.
基于主题的Web信息采集系统的设计与实现   总被引:13,自引:0,他引:13  
基于主题的Web信息采集是信息检索领域内一个新兴且有实用价值的方向,也是信息处理技术中的一个研究热点。文章分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。  相似文献   

11.
基于结果模式的Deep Web数据抽取   总被引:3,自引:0,他引:3  
高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为Deep Web数据集成奠定了良好的基础.  相似文献   

12.
Deep Web中,查询接口属性的抽取是Deep Web数据集成中必不可少的一个环节。本文通过将接口属性中文文本翻译成为汉语拼音和英文,利用N-Gram方法完成中文查询接口中属性的抽取。经过多个领域的查询接口的实验,证明该方法能有效地抽取出查询接口的属性。  相似文献   

13.
传统Deep Web数据集成研究侧重满足用户的即时查询需求,对数据分析应用缺乏充分支持,提出一个面向分析的Deep Web数据集成系统DWDIS,能够在较少人工参与下对大量Web数据库进行高质量数据获取、抽取和整合,为分析型应用提供优质全面的结构化数据.DWDIS支持领域模型的自动演化;通过自动识别和理解查询接口,采用查询词采新率模型以较小代价最大限度地获取Deep Web页面;充分利用集成系统已有数据中隐含的数据特征,对Deep Web页面进行有效页面抽取和语义标注;结合Web数据源特征,使用机器学习方法对来自大量Web数据库的数据实现高准确率的重复记录检测和数据融合.  相似文献   

14.
深度Web资源探测系统的研究与实现   总被引:1,自引:0,他引:1  
李涛  陈鹏  李哲 《微计算机信息》2007,23(33):185-187
本文介绍了深度Web的资源重要性和传统爬虫工作的原理。为了能够更好的利用传统爬虫获取深度Web资源和解决传统爬虫在工作中的不足,提出了一种任务可定制化的爬虫框架,并基于可定制化的任务,实现探测网络深度资源的功能。  相似文献   

15.
针对网上众多图书购物网站不提供面向同类网站的集成搜索和价格比较的问题,基于Deep Web技术实现了一个面向图书领域的图书搜索引擎系统。给出了系统实现的具体框架,探讨了如何对领域内各种异构数据库信息进行抽取、整合。实际运行表明该系统达到了预期效果。  相似文献   

16.
王兵  ;刘彩虹 《微机发展》2008,(7):176-180
随着Internet信息的迅速增长,许多Web信息已经被各种各样的可搜索在线数据库所深化,并被隐藏在Web查询接口下面。传统的搜索引擎由于技术原因不能索引这些信息——DeepWeb信息。由于DeepWeb惟一“入口点”是查询接口,为使查询接口自动产生有意义有查询,给出了DeepWeb信息集成系统框架,提出了基于数据类型的搜索驱动的用户查询转换方法,基于此设计并实现了一个针对中文DeepWeb信息集成原型系统。通过在实际DeepWeb站点上的实验证明了此方法是非常有效的。  相似文献   

17.
针对联基础教育教学资源元数据应用规范》中资源建设标准的缺陷,提出一种基于DeepWeb集成技术的教育资源跨库检索系统设计方案。该系统包含知识发现、集成查询、知识库和系统监控等模块,加入了环境变化监控构件,并在多个环节中采用自动化方式。  相似文献   

18.
针对《基础教育教学资源元数据应用规范》中资源建设标准的缺陷,提出一种基于Deep Web集成技术的教育资源跨库检索系统设计方案。该系统包含知识发现、集成查询、知识库和系统监控等模块,加入了环境变化监控构件,并在多个环节中采用自动化方式。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号