首页 | 本学科首页   官方微博 | 高级检索  
     

Deep Web查询接口的自动判定
引用本文:高岭,赵朋朋,崔志明.Deep Web查询接口的自动判定[J].微机发展,2007,17(5):148-151.
作者姓名:高岭  赵朋朋  崔志明
作者单位:苏州大学智能信息处理及应用研究所 江苏苏州215006
基金项目:教育部科研重点项目(205059),教育部“高校博士学科点科研基金项目”(20040285016),江苏省高技术研究计划项目(BG2005019)
摘    要:传统搜索引擎仅可以索引浅层Web页面,然而在网络深处隐含着大量、高质量的信息,传统搜索引擎由于技术原因不能索引这些被称之为Deep Web的页面。由于查询接口是Deep Web的唯一入口,因此要获取Deep Web信息就需判定哪些网页表单是Deep Web查询接口。文中介绍了一种利用朴素贝叶斯分类算法自动判定网页表单是否为Deep Web查询接口的方法,并实验验证了该方法的有效性。

关 键 词:深网  网页表单  特征提取  朴素贝叶斯分类
文章编号:1673-629X(2007)05-0148-04
修稿时间:2006年7月5日

Automatic Judgment of Deep Web Query Interfaces
GAO Ling,ZHAO Peng-peng,CUI Zhi-ming.Automatic Judgment of Deep Web Query Interfaces[J].Microcomputer Development,2007,17(5):148-151.
Authors:GAO Ling  ZHAO Peng-peng  CUI Zhi-ming
Abstract:Traditional Web search engines work well for finding crawlable pages,but they ignore the tremendous amount information hidden behind query forms,in large searchable electronic databases.For obtaining dynamic information,firstly query interfaces must be extracted from massive Web forms to find the entrance to the datasets.This paper describes a technique for detecting query interface using naive Bayes classification and the test results are reported.
Keywords:Deep Web  HTML form  feature extraction  naive Bayes classification
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号