首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 109 毫秒
1.
查询自动生成器在Web数据库发现中的应用   总被引:1,自引:0,他引:1  
为了帮助用户获得一个统一的访问途径来自动地获取利用自由分布在整个万维网上的Deep Web中丰富的信息.Deep Web数据集成受到了越来越多的关注,这其中也包含若干问题急待解决.提出了在Deep Web数据集成领域中解决Web数据库的发现的一种试探性方法,并模拟了该方法的使用场景,介绍了它采用的学习方法.  相似文献   

2.
针对Deep Web的查询需求,文章提出了改进的对Deep Web数据源的分类方法:在对数据源进行分类时,采用了KNN分类算法来进行。由于KNN分类算法的K值选的过大或者过小都会对分类结果产生影响,因此提出了对K值进行优化的改进的KNN算法。文章利用k-means聚类算法来进行聚类,分别计算取得每个类别的k个距离相近的数据并计算这k个数据到聚类中心的距离,把这个距离的倒数作为该数据点对分类结果的贡献值。对训练集进行聚类后返回聚类中心,根据聚类中心计算权重,从而进一步来计算每个类别中k个最近邻贡献值之和S,选取S最大的类别作为测试数据的类别来进行分类,从而可达到比较好的分类效果。  相似文献   

3.
基于领域样本查询的Deep Web数据库分类   总被引:1,自引:0,他引:1  
提出了一种基于领域样本查询的方法以分类这类Web数据库.通过分析领域的高级查询接口自动获取领域主属性并使用领域知识为主属性构建查询样本,然后对查询接口提交试探查询,根据返回结果页面的结果模式和记录内容估计Web数据库与领域的相关程度.通过在多个领域的Web数据库上进行实验验证,说明该方法分类只提供简单查询接口的Web数据库是有效的,取得了较高的分类精确率,召回率和F-measure值.  相似文献   

4.
汪滢  熊璐  刘晓 《激光杂志》2023,(5):102-106
光纤激光网络通信受噪声影响,导分类效果较差,提出了光纤激光网络故障大数据自动分类方法。对数据进行噪处理,将源域中的样本和目标领域的样本配对处理,采用非线性变换提供故障特征,通过K-means算法和最近邻算法分析数据扰动性,将、征输入到机器学习分类器中分类处理,最终完成故障大数据自动分类处理。经测试证明,所提方法对于不同类型的故障大数据分类时间低于20 s,并且分类正确率、召回率以及F值高于80%、90%和95%,可以快速准确完成故障大数据自动分类处理。  相似文献   

5.
传统的电力专利数据多是利用人工进行分类的,分类结果准确率低,尤其是面对复杂的电力专利数据群时,传统方法的弊端更为明显,提出基于态势感知的电力专利数据自动分类方法.利用态势感知理念提取电力专利数据,通过多维设计将电力数据划分到不同单元组中,根据处理结果制定自动分类计划,实现专利数据自动分类.实验结果表明,基于态势感知的电...  相似文献   

6.
为了方便用户快捷高效的使用DeepWeb中内容丰富、主题专一的高质量信息,对DeepWeb数据源发现研究已成为一个非常迫切的问题。目前通用的方法是基于关键词的主题过滤策略,这样容易发现一些不相关的数据源,为此提出一种新的基于语义的DeepWeb数据源聚焦爬行方法,利用朴素贝叶斯分类算法自动发现DeepWeb数据源,实验验证了该方法的有效性。  相似文献   

7.
张智  顾韵华 《信息技术》2011,(5):108-111
针对Deep Web的查询需求,提出了一种基于K-近邻算法的Deep Web数据源的自动分类方法。该算法在对Deep Web网页进行表单特征提取及规范化的基础上,基于距离对Deep Web网页所属的目标主题进行判定。实验结果表明:基于K-近邻分类算法可以较有效地进行DeepWeb数据源的自动分类,并得到较高的查全率和查准率。  相似文献   

8.
针对目前deep Web数据集成在数据获取方面存在代价大和查询选择效率低等问题,提出了一种基于循环策略和动态知识的deep Web数据获取方法,该方法根据同领域数据源之间的关联关系,提出使用循环策略分多次完成数据源的数据获取,同时利用集成系统已获取的数据动态构建知识,并设计了基于集成系统动态知识的查询选择方法。与现有方法比较该方法能降低数据获取的代价,提高查询选择的准确性。实验结果表明,该方法有效地提高了deep Web数据集成的数据获取效率。  相似文献   

9.
10.
11.
一种Deep Web数据源质量评估模型   总被引:3,自引:1,他引:2  
分析了影响Deep Web数据源质量评估的若干因素,提出了一种Deep Web数据源质量评估模型.该模型从浏览器、Web数据库、Web服务器和用户四个方面对数据源进行质量评估.通过在真实的Deep Web数据源上进行实验验证,说明该方法是有效和可行的.  相似文献   

12.
Deep Web中蕴涵了海量的高质量信息.文中从Deep Web数据源的功能属性和非功能属性两个方面对数据源的质量进行度量,建立了一种基于综合模糊评价指标体系的扩展的数据源质量估计模型.实验结果表明该模型得到的数据源质量排序序列和人工排序序列的Kendall’s距离较扩展前有了很大提高,而且质量估计结果也能使数据源的选择得到较高精确度.  相似文献   

13.
基于支持向量机的Web文本分类方法   总被引:7,自引:8,他引:7  
Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结合决策树方法提出了一种基于决策树支持向量机的Web文本分类模型。并给出具体的算法。通过实验测试表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率(90.11%)和召回率(89.38%)。  相似文献   

14.
当前深层网络中蕴含着高质量的海量信息并且其数量不断地增长,由于深层网络具有分布、异构、自治等特点,用户高效、快捷地获取自己感兴趣的信息面临巨大挑战.将深层网络数据源按领域分类是解决这一挑战的基础.本文以对航空订票、图书、汽车和房地产领域的200多个数据源的统计和分析为基础,充分利用主题和表单属性信息,提出了一种新的深层网络数据源分类方法以及改进的查询接口相似性度量方法,实现深层网络数据源的自动分类.本文还提出了一种查询接口标记策略,以降低随机选择初始中心点所产生的影响.实验结果表明该方法具有较高的分类精度.  相似文献   

15.
针对视频分类中普遍面临的类内离散度和类间相似性较大而制约分类性能的问题,该文提出一种基于深度度量学习的视频分类方法。该方法设计了一种深度网络,网络包含特征学习、基于深度度量学习的相似性度量,以及分类3个部分。其中相似性度量的工作原理为:首先,计算特征间的欧式距离作为样本之间的语义距离;其次,设计一个间隔分配函数,根据语义距离动态分配语义间隔;最后,根据样本语义间隔计算误差并反向传播,使网络能够学习到样本间语义距离的差异,自动聚焦于难分样本,以充分学习难分样本的特征。该网络在训练过程中采用多任务学习的方法,同时学习相似性度量和分类任务,以达到整体最优。在UCF101和HMDB51上的实验结果表明,与已有方法相比,提出的方法能有效提高视频分类精度。  相似文献   

16.
基于Web服务的校园网格异构数据源统一访问接口   总被引:1,自引:1,他引:0  
针对OGSA-DAI中间件只面向JDBC的局限性,采用OGSA-DAI的优秀设计思想,提出一个基于Web服务的异构数据源统一访问接口(UDAI)模型,UDAI利用XML Web Service技术跨平台性和ADO.NET增加的数据库访问能力,既保证了接口实现的通用性与易扩展性,又使接口实现了对数据访问、数据库连接、数据格式转换、数据传输、数据库集成等底层细节的屏蔽,满足了用户对网格数据资源的共享访问的需求.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号