首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
陈娟  王贤  黄青松 《微机发展》2007,17(11):107-109
近几年,网络被在线数据库迅速深化。在深网中,大量的资料提供了丰富的数据模式。这些模式详细说明了它们的目标领域和查询性能。因此对大规模数据的整合是当前面临的挑战。在数据挖掘中聚类分析是一个重要方法,为了发现通过这种统计分布管理的聚类,提出了一个新的目标函数:模型-区别(model-differentiation)。实验显示对于聚类Web查询模式,凝聚的层次聚类能正确地组织资料,区别模型函数胜过现有的凝聚的层次聚类。  相似文献   

2.
近几年,网络被在线数据库迅速深化。在深网中,大量的资料提供了丰富的数据模式。这些模式详细说明了它们的目标领域和查询性能。因此对大规模数据的整合是当前面临的挑战。在数据挖掘中聚类分析是一个重要方法,为了发现通过这种统计分布管理的聚类,提出了一个新的目标函数:模型-区别(model-differentiation)。实验显示对于聚类Web查询模式,凝聚的层次聚类能正确地组织资料,区别模型函数胜过现有的凝聚的层次聚类。  相似文献   

3.
利用结构化CAN系统中数据严格按照规律分布的特点,将系统坐标空间与聚类数据空间重叠,使相邻数据存储在同一(或相邻)节点上并设计了层次聚类SOC(Structure Overlay Cluster),使CAN系统数据聚类达到与集中式聚类算法相同的结果。通过分析SOC算法的聚类过程得到在数据维数一定的情况下,算法的时间复杂度是O(N),即与节点数量成正比,并通过仿真实验得到证明。  相似文献   

4.
Deep Web中用户通常是通过一个统一的查询接口获得其中的数据信息.目前查询接口一般需要形成属性间的模式匹配,为了提高m:n模式匹配的准确率和查全率,本文提出一种基于聚类的复杂模式匹配的算法CSM,从整体上匹配成组属性和同义属性,能够有效的发现m:n匹配,并有较高的准确率.  相似文献   

5.
在Deep Web页面的背后隐藏着海量的可以通过结构化的查询接口进行访问的数据源。将这些数据源按所属领域进行组织划分,是DeepWeb数据集成中的一个关键步骤。已有的划分方法主要是基于查询接口模式和提交查询返回结果,存在查询接口特征难以完全抽取和提交数据库查询效率不高等问题。提出了一种结合网页文本信息,基于频繁项集的聚类方法,根据数据源查询接口所在页面的标题、关键词和提示文本,将数据源按照领域进行聚类,有效解决了传统方法中依赖查询接口特征以及文本模型的高维性问题。实验结果表明该方法是可行的,具有较高的效率。  相似文献   

6.
随着Deep Web飞速的发展,使用商业网站上所提供的查询接口从Web数据库中获取高质量数据并对这些数据进行分析加工处理显得尤为重要。通过动态提交关键词,利用查询接口得到检索页面,对检索页面中的中文信息进行抽取并进行分词处理,对分词的结果进行统计分析,通过引入DF进行降维得到特征项,使用TF/IDF计算得到特征项的权重向量矩阵,对权重矩阵进行聚类从而实现文档的分类。通过仿真实验检验了本算法的合理性和可行性。  相似文献   

7.
Deep Web查询接口的自动判定   总被引:5,自引:1,他引:5  
传统搜索引擎仅可以索引浅层Web页面.然而在网络深处隐含着大量、高质量的信息,传统搜索引擎由于技术原因不能索引这些被称之为Deep Web的页面。由于查询接口是Deep Web的唯一入口,因此要获取Deep Web信息就需判定哪些网页表单是Deep Web查询接口。文中介绍了一种利用朴素贝叶斯分类算法自动判定网页表单是否为Deep Web查询接口的方法,并实验验证了该方法的有效性。  相似文献   

8.
传统搜索引擎仅可以索引浅层Web页面,然而在网络深处隐含着大量、高质量的信息,传统搜索引擎由于技术原因不能索引这些被称之为Deep Web的页面。由于查询接口是Deep Web的唯一入口,因此要获取Deep Web信息就需判定哪些网页表单是Deep Web查询接口。文中介绍了一种利用朴素贝叶斯分类算法自动判定网页表单是否为Deep Web查询接口的方法,并实验验证了该方法的有效性。  相似文献   

9.
基于语义的中文Deep Web查询接口集成   总被引:1,自引:0,他引:1  
现在网上信息正越来越被在线数据库深化,而传统的搜索引擎对此类信息源却没有很好的获取办法,加剧了人们想得到有用知识而搜索结果并不理想的形势.本文针对这种情况,简要论述了中文Deep Web研究工作的必要性及其发展前景,探讨了中文DeeP Web技术的关键问题,并基于中文语叉,提出了中文Deep Web中的查询接口集成方案.实验表明该方法能使得接口之间属性匹配的正确率达到98%以上.  相似文献   

10.
强保华  李巍  邹显春  汪天天  吴春明 《计算机科学》2013,40(11):228-230,247
集成查询接口的生成是Deep Web数据集成的重要组成环节。如何对不同领域的查询接口进行有效的聚类是生成集成查询接口时需要解决的核心问题之一。针对传统的向量空间模型在Deep Web查询接口聚类时单纯依赖关键词匹配的缺点,引入潜在语义分析(LSA)的方法来发掘查询接口之间的语义关系,并给出了基于潜在语义分析的Deep Web查询接口聚类算法,最后采用UIUC的Web集成资源库提供的数据进行了实验。结果表明,潜在语义分析的方法提高了同一领域查询接口之间的相似度,明显改善了Deep Web查询接口聚类的质量。  相似文献   

11.
针对已有查询接口匹配方法匹配器权重设置困难、匹配决策缺乏有效处理的局限性,提出一种基于证据理论和任务分配的DeepWeb查询接口匹配方法。该方法通过引入改进的D-S证据理论自动融合多个匹配器结果,避免手工设定匹配器权重,有效减少人工干预。通过对任务分配问题进行扩展,将查询接口的一对一匹配决策问题转化为扩展的任务分配问题,为源查询接口中的每一个属性选择合适的匹配,并在此基础上,采用树结构启发式规则进行一对多匹配决策。实验结果表明ETTA-IM方法具有较高的查准率和查全率。  相似文献   

12.
Deep Web中蕴含着大量高质量的数据,然而只有通过Web查询接口对Web数据库提交查询才能获取这些数据,因此,自动获取Web查询接口模式是实现Web数据库集成的关键.将Web查询接口模式的抽取过程看作一个词法分析的过程,通过构建EGLM-FA(元素分组及标签匹配有限状态自动机)来完成对Web查询接口模式的抽取.首先应用Html呈现引擎将Web查询接口所在页面进行解析,利用查询接口Form中的DOM节点及其坐标信息构建相应的NSS(节点空间结构),之后再将所有的NSS组成NSS列表,将NSS列表作为EGLM-FA的输入,进而抽取出Web查询接口的模式.  相似文献   

13.
基于本体的Deep Web查询接口分类   总被引:1,自引:0,他引:1  
目前对于分类问题,主要工作集中在文本或Web文档的分类研究,而很少有对deep Web查询接口的分类研究.deep Web源包括查询接口和查询结果,大量的deep Web源的存在,对它们查询接口的分类是通向deep Web分类集成和检索的关键步骤.本分提出一种deep Web本体分类方法,包括:分类本体的概念模型和由此产生的deep Web空间向量模型(VSM).试验表明,这种分类方法具有良好的分类效果,平均准确率达到91.6%,平均查全率达到92.4%.  相似文献   

14.
Deep Web查询接口的判定技术研究   总被引:1,自引:0,他引:1  
互联网的飞速发展,给人类带来了海量的可供访问信息,但是,现今搜索引擎索引的绝大部分是表层Surface Web网的信息,限于一些技术原因,搜索引擎几乎无法索引到Deep Web网中的信息。由于查询接口是Deep Web的唯一入口,但并非所有的网页表单都是查询接口,为了能充分利用Deep Web后台数据库信息,首先要找到进入Deep Web后台数据库的入口,所以对查询接口的正确判定至关重要。文中介绍了利用决策树CA.5分类算法自动判定网页表单是否为Deep Web查询接口的方法。  相似文献   

15.
Deep Web数据源聚焦爬虫   总被引:2,自引:0,他引:2       下载免费PDF全文
Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对Deep Web数据源的聚焦爬行算法。在评价链接重要性时,综合考虑了页面与主题的相关性和链接相关信息。实验证明该方法是有效的。  相似文献   

16.
互联网上存在许多有价值的信息,搜索引擎只能索引静态页面,无法索引DeepWeb数据,而Deep Web通常以表单形式存在,只有提交表单查询才能获得其数据,如何发现和识别Deep web查询接口成为人们关注的问题.在分析表单表现形式与功能内在的联系的基础上,提出一个表单的抽象模型,依此过滤非Deep Web查询接口的表单.通过对返回结果页面分析方法,实现Deep W出查询接口的识别,实验结果证明了该方法的有效性.  相似文献   

17.
在光怪陆离的都市夜生活里,有一群人仅仅需要平静的夜,美剧就是他们的精神慰藉。而为他们默默工作的,是暖黄灯光下的魅酷。  相似文献   

18.
Deep Web的查询中、关键词的选择是一个关键问题。文中针对查询Deep Web中的文本数据库,对查询词的选择作出一些研究。将Zipf Estinator应用于根据查询词的频率选择词条的方法中,提出了用部分文档中的查询词的排序来得出整个文档集中查询词的排序的方法。将Zipf Estimator运用于查询词的选择,减少查询词选择时的运算量,以较少的查询次数得到较多的查询结果。测试结果证明了Zipf Estimator运用于查询词的选择可有效提高查询Deep Web中的文本数据库的效率。  相似文献   

19.
Information sources in the World Wide Web usually offer two different schemes to their users, an Interface Schema which the user can query and a Result Schema which the user can browse. Often the Interface Schema is more restricted than the Result Schema, moreover many sources offer keyword-search interfaces only. Thus query capabilities of such sources are very small and a useful integration into a mediator-based information system using query capabilities is almost impossible. We propose the Query Tunnelling architecture for the wrapping of these restricted web sources. Wrapping of sources by Query Tunneling hides restrictive query interfaces and makes such sources fully queryable based on their result schema. The process of Query Tunneling is divided into two main steps, Query Relaxation to make a higher order query suitable to a restricted interface and Result Restriction in order to filter the results using the original query.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号