共查询到20条相似文献,搜索用时 46 毫秒
1.
Deep Web查询接口的自动判定 总被引:5,自引:1,他引:5
传统搜索引擎仅可以索引浅层Web页面.然而在网络深处隐含着大量、高质量的信息,传统搜索引擎由于技术原因不能索引这些被称之为Deep Web的页面。由于查询接口是Deep Web的唯一入口,因此要获取Deep Web信息就需判定哪些网页表单是Deep Web查询接口。文中介绍了一种利用朴素贝叶斯分类算法自动判定网页表单是否为Deep Web查询接口的方法,并实验验证了该方法的有效性。 相似文献
2.
传统搜索引擎仅可以索引浅层Web页面,然而在网络深处隐含着大量、高质量的信息,传统搜索引擎由于技术原因不能索引这些被称之为Deep Web的页面。由于查询接口是Deep Web的唯一入口,因此要获取Deep Web信息就需判定哪些网页表单是Deep Web查询接口。文中介绍了一种利用朴素贝叶斯分类算法自动判定网页表单是否为Deep Web查询接口的方法,并实验验证了该方法的有效性。 相似文献
3.
4.
针对流量分类问题中,传统单一的机器学习分类算法存在分类准确率难以提升和对网络环境变化适应能力不足的缺点,提出一种多分类器集成流量分类方法。该方法结合不同算法分类器的特点,使用多数投票和实例选择集成方法实现流量分类。对比实验表明,该方法在分类准确率和算法泛化性能上的表现均有所提升,对环境变化适应能力增强。但值得注意的是,该算法比独立分类法从实现复杂度和实际运行的时间复杂度均有所增加。 相似文献
5.
基于最大熵分类器的Deep Web查询接口自动判定 总被引:1,自引:0,他引:1
Web中包含着海量的高质量信息,它们通常处在网络深处,无法被传统搜索引擎索引,将这样的资源称为Deep Web。因为查询接口是Deep Web的唯一入口,所以要获取Deep Web信息就必须判定哪些网页表单是Deep Web查询接口。由于最大熵模型可以综合观察到的各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果。因此,基于最大熵模型的分类性能,利用最大熵分类算法自动判定查询接口。并通过实验,将最大熵分类法与其它常用分类方法进行了比较,结果显示它的分类性能优于Bayes方法和C4.5方法,与SVM方法相当,表明这是一种非常实用的查询接口分类方法。 相似文献
6.
为了改善树增强朴素贝叶斯(TAN)的分类精度,对TAN结构进行了扩展,提出了一种利用可分解的评分函数构建树形贝叶斯网络分类模型的学习方法。在构建TAN网络时允许属性没有父结点。采用低阶CI测试初步剔除无效属性,再结合改进的BIC评分函数利用贪婪搜索获得每个属性结点的父结点,从而建立分类模型。对比朴素贝叶斯(NB)和TAN,提出的分类算法在分类准确率和AUC面积两个指标上表现更好,说明本文模型拥有比TAN更好的分类效果。 相似文献
7.
Deep Web查询接口的判定技术研究 总被引:1,自引:0,他引:1
李齐会 《计算机与数字工程》2009,37(3):131-134
互联网的飞速发展,给人类带来了海量的可供访问信息,但是,现今搜索引擎索引的绝大部分是表层Surface Web网的信息,限于一些技术原因,搜索引擎几乎无法索引到Deep Web网中的信息。由于查询接口是Deep Web的唯一入口,但并非所有的网页表单都是查询接口,为了能充分利用Deep Web后台数据库信息,首先要找到进入Deep Web后台数据库的入口,所以对查询接口的正确判定至关重要。文中介绍了利用决策树CA.5分类算法自动判定网页表单是否为Deep Web查询接口的方法。 相似文献
8.
基于朴素贝叶斯分类器邮件分类系统的改进 总被引:1,自引:0,他引:1
目前朴素贝叶斯分类方法在电子邮件分类起到了良好的效果,但是并不能100%区分垃圾邮件与非垃圾邮件,然而在商业应用中,我们不能遗漏任何一封重要邮件。本文先简单介绍Bayes方法,然后提出一种对目前的Bayes分类方法的改进思想和方法。 相似文献
9.
提出了利用Cascade组合方法生成基于贝叶斯、神经网络与决策树的组合分类器,并将之应用到肝脏图像的分类中。实验结果表明,与现有医学图像分类方法相比,该组合方法可以有效地提高医学图像分类的准确性和稳定性。 相似文献
10.
张雪峰 《数字社区&智能家居》2005,(20)
文本分类是处理与组织文本数据的一项重要技术,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文建立的朴素贝叶斯分类器,是在已知类别的训练集的基础上,通过分析训练数据样本,产生关于类别的精确描述,用于对其它数据进行分类和预测。 相似文献
11.
针对在Deep Web数据库查询结果存在上限k的情况下,对于如何提取数据记录的问题,提出一种基于范围型属性的数据提取方法。利用范围型属性的值域特征,将其值域按照目标数据库的分布样本划分为多个子区间。实验结果表明,按照该方法划分的子区间,使得查询收益,查询饱和度和已提取数据的覆盖程度等指标均达到98.50%以上。 相似文献
12.
一种基于数据挖掘的Deep Web模式匹配方法 总被引:1,自引:0,他引:1
模式匹配是Deep Web异构信息集成中的关键问题.介绍了一种整体性匹配方法,即同时发现大量模式,并一次性进行匹配.主要通过分析和比较两种已经存在的大规模模式匹配原型系统:MGS和DCM,结合它们核心算法的优点,提出一种新的基于数据挖掘技术的算法(Correlated-clustering).该算法先利用积极相关发现组匹配,再通过概念相似度的计算聚类同义属性,最后进行匹配选择.实验结果表明,本算法全面、效率高,充分体现了整体性方法的思想. 相似文献
13.
邱宁 《计算机应用与软件》2007,24(12):101-103
随着分布式数据库系统的广泛应用,如何实现多个数据库之间的数据一致已成为系统可靠运行所要解决的重要问题.提出了一种基于Web Service的数据一致性维护方法,它不仅适用于各种分布式数据库,也可应用于相互独立的多个数据库. 相似文献
14.
《计算机应用与软件》2018,(2)
随着现代信息量的快速增长,深网作为网络数据载体包含了大量数据,因此,对深网数据抽取的研究十分重要。提出一种全局模式下的数据抽取和挖掘的方法。该方法分析实际例子的属性,运用改进的贝叶斯信念网络算法,确定相应的标签,构建一个动态的全局模式,接着抽取并识别结果页面中的数据;根据基于密度的离群点来检测并剔除其中的无用信息;运用挖掘布尔关联规则频繁项集的算法进行关联挖掘,整合数据项。实验结果表明,该方法相对于其他几种数据抽取方法,能准确、快速、有效地抽取数据,并且通过数据挖掘后得到数据项间的关联性较大,无效信息更少。 相似文献
15.
本文使用ODBC API函数SQIJConfigDataSource和WINDOWS API函数GetModuleFileName,实现了Microsoft ACCESS2000的mdb数据库文件和Microsoft SQLServer2000这两种数据源的自动配置,提高了应用程序的可移植性。 相似文献
16.
一种面向XML表达的WEB数据模型 总被引:9,自引:0,他引:9
XML作为新一代的Web信息表达语言,其强大数据描述和传递能力使得传递的Web数据模型无法满足,在比较OEM模型的基础上提出了一种新的面向XML表达的数据模型XOEM模型及其对象代数,同时根据XML文档特点提出层次分形-多级超链的基元,以保证XML文档一致有效性和合法性,最后给出XOEM模型应用在XML文档中的实例。 相似文献
17.
通过Axis2异步调用实现较大数据传输WEB服务 总被引:1,自引:0,他引:1
邓式阳 《计算机应用与软件》2008,25(7)
Axis2支持 WSDL 2.0 定义的In-Out消息交换模式,可以在 API 级别和传输级别提供异步行为,能够很好地解决Web服务中大数据长时间传输问题.研究Axis2异步Web服务实现较大数据的传输方法,并以车辆收费数据传输服务为例,给出具体实现方法. 相似文献
18.
19.
应急预案是应急管理的纲领性文件,为应对频发的突发事件,各应急相关部门都建立了自己的应急预案数据库。但这些数据库存在诸多不同程度的异构,阻碍了部门之间的信息共享。针对应急预案异构数据集成,采用本体及本体映射方法解决语义异构的智能识别,以Tomcat+MyEclipse+SQL Server 2005作为开发环境,研究开发物化式Deep Web应急预案异构数据源的集成系统EPIS,创建应急预案中心数据库,为应急预案领域信息共享与应急预案的管理提供基础平台。 相似文献
20.
一种测试数据挖掘算法的数据源生成方法 总被引:8,自引:0,他引:8
随着数字时代的来监,数据挖掘成为知识领域中的研究热点,但由于保密、数据多样性等问题,测试数据源的获得取一直困扰着数据挖掘算法的研究,为此,提出一种基于云模型的测试数据源生成方法,利用此方法,给出了数量型数据的生成算法,对范畴型数据的生成进行了讨论,由于云模型中随机性与模糊性和特点,各属性的数据之间除了包含已知的先验知识以外,数据的分布、各属性之间的关系也会存在一定的随机和模糊,使得构造的数据源中又 相似文献