首页 | 本学科首页   官方微博 | 高级检索  
     

基于最大熵分类器的Deep Web查询接口自动判定
引用本文:方巍,黄黎,崔志明. 基于最大熵分类器的Deep Web查询接口自动判定[J]. 计算机工程与应用, 2008, 44(21): 133-137. DOI: 10.3778/j.issn.1002-8331.2008.21.037
作者姓名:方巍  黄黎  崔志明
作者单位:1.江苏省计算机信息处理技术重点实验室,江苏 苏州 215006 2.苏州大学 智能信息处理及应用研究所,江苏 苏州 215006
基金项目:国家自然科学基金 , 教育部科学技术研究重点项目 , 江苏省六大人才高峰基金 , 江苏省软件和集成电路业专项经费项目 , 江苏省重点实验室基金
摘    要:Web中包含着海量的高质量信息,它们通常处在网络深处,无法被传统搜索引擎索引,将这样的资源称为Deep Web。因为查询接口是Deep Web的唯一入口,所以要获取Deep Web信息就必须判定哪些网页表单是Deep Web查询接口。由于最大熵模型可以综合观察到的各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果。因此,基于最大熵模型的分类性能,利用最大熵分类算法自动判定查询接口。并通过实验,将最大熵分类法与其它常用分类方法进行了比较,结果显示它的分类性能优于Bayes方法和C4.5方法,与SVM方法相当,表明这是一种非常实用的查询接口分类方法。

关 键 词:DeepWeb  网页表单  特征提取  最大熵模型  
收稿时间:2008-04-30
修稿时间:2008-6-6 

Automatic identifying query interfaces of deep Web with maximum entropy classifier
FANG Wei,HUANG Li,CUI Zhi-ming. Automatic identifying query interfaces of deep Web with maximum entropy classifier[J]. Computer Engineering and Applications, 2008, 44(21): 133-137. DOI: 10.3778/j.issn.1002-8331.2008.21.037
Authors:FANG Wei  HUANG Li  CUI Zhi-ming
Affiliation:1.Jiangsu Key Laboratory of Computer Information Processing Technology,Soochow University,Suzhou,Jiangsu 215006,China 2.Institute of Intelligent Information Processing and Application,Soochow University,Suzhou,Jiangsu 215006,China
Abstract:Tremendous high-quality web information is deeply hidden in the Web,which can not be indexed by traditional search engines,so we call them Deep Web.Since query interface is the only entrance to the Deep Web,we must distinguish query interfaces of Deep Web.Since the Maximum Entropy Model could integrate various correlative and irrelative probability knowledge,it could deal with many problem well.So we use Maximum Entropy Model for query interface categorization in this paper.Compared with Bayes,C4.5 and SVM,Maximum Entropy shows its high quality.Moreover,it is useful to query interface categorization.
Keywords:deep web  Html form  feature extraction  maximum entropy model
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号