首页 | 本学科首页   官方微博 | 高级检索  
     

"天网"目录导航服务研究
引用本文:冯是聪,单松巍,龚笔宏,张志刚,李晓明. "天网"目录导航服务研究[J]. 计算机研究与发展, 2004, 41(4): 653-659
作者姓名:冯是聪  单松巍  龚笔宏  张志刚  李晓明
作者单位:北京大学计算机科学技术系,北京,100871;北京大学计算机科学技术系,北京,100871;北京大学计算机科学技术系,北京,100871;北京大学计算机科学技术系,北京,100871;北京大学计算机科学技术系,北京,100871
基金项目:国家"九七三"重点基础研究发展规化基金项目(G1999032706)
摘    要:为了提高搜索引擎的查准率,帮助用户快速地定位其感兴趣的网页,研究了如何在Spider式搜索引擎“天网”系统中提供目录导航服务。基本思想就是利用有指导的机器学习方法实现中文网页的自动分类。主要贡献有两点:①搜集并建立了一个面向中文网页并且支持层次模型的大规模中文网页数据集,这是实现中文网页自动分类的前提和基础;②针对中文网页信息的自身特性以及CHI方法的固有缺陷,提出一种自动清除“噪音”的特征选取算法,并实现了一个能够处理海量中文网页的分类器。实验结果表明该分类器有较高的分类质量,满足了搜索引擎目录导航服务的要求。

关 键 词:搜索引擎  目录导航  Web挖掘  中文网页分类

On the Directory Navigation Service in Tianwang
FENG Shi Cong,SHAN Song Wei,GONG Bi Hong,ZHANG Zhi Gang,and LI Xiao Ming. On the Directory Navigation Service in Tianwang[J]. Journal of Computer Research and Development, 2004, 41(4): 653-659
Authors:FENG Shi Cong  SHAN Song Wei  GONG Bi Hong  ZHANG Zhi Gang  and LI Xiao Ming
Abstract:
Keywords:search engine  directory navigation  Web mining  Chinese Web page classification  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号