首页 | 本学科首页   官方微博 | 高级检索  
     

一种有效的深网入口识别方法
引用本文:吴春明,谢德体.一种有效的深网入口识别方法[J].计算机科学,2011,38(10):199-201.
作者姓名:吴春明  谢德体
作者单位:1. 西南大学计算机与信息科学学院 重庆400715;西南大学资源环境学院 重庆400715
2. 西南大学资源环境学院 重庆400715
基金项目:中央高校基本科研业务费专项资金(XDJK2010C033); 重庆市自然科学基金(CTS2009817)资助
摘    要:深网入口自动识别是深网数据集成的前提和基础。由于表单在设计上具有较大的随意性,使得深网入口缺 乏统一的构建标准,难以利用确定性的规则对其进行判断。首先基于统计特征,抽取了部分表单属性作为深网入口与 非深网入口的可区分特征,在此基础上,提出了一种利用神经网络进行深网入口自动识别的方法。不同于基于规则的 判断方法,神经网络是被训练的,不需要任何先验知识,这种特性使其非常适合于对具有复杂表现形式的深网入口进 行判定。实验结果表明了该方法的有效性。

关 键 词:深网入口,神经网络,特征抽取,机器学习

Effective Approach to Deep Web Entries Identification
WU Chun-ming,XIE De-ti.Effective Approach to Deep Web Entries Identification[J].Computer Science,2011,38(10):199-201.
Authors:WU Chun-ming  XIE De-ti
Affiliation:(College of Computer and Information Science, Southwest University, Chongqing 400715 , China); (College of Resources and Environment,Southwest University,Chongqing 400715,China)
Abstract:Automatic identification of deep Web entries is the basis of deep Web data integration. Owing to the subjec- tivity of form design,deep Web entries lack unified standard and it is difficult to judge whether the form is a deep Web entry by the definite rules. Based on the statistics, this paper first chose several form attributes as the defining features, which can distinguish searchable forms from non-searchable forms. Then, an entry identification algorithm was proposed by using neural network. Unlike previous approaches, neural network can be trained, which is very suitable for entry i- dentification of the deep Web. I}he experimental results show that our proposed algorithm can be an effective way in au- tomatic identification of the deep Web.
Keywords:Deep Web cntrics  Ncural nctwork  Fcaturc cxtraction  Machinc learning
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机科学》浏览原始摘要信息
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号