首页 | 本学科首页   官方微博 | 高级检索  
     

搜索引擎的文档预处理技术研究
引用本文:陶跃华,赵波,杨秀国.搜索引擎的文档预处理技术研究[J].计算机科学,2002,29(7):111-112.
作者姓名:陶跃华  赵波  杨秀国
作者单位:云南师范大学计算机科学与信息技术学院,昆明,650092
基金项目:云南省教育厅科学研究基金(项目编号:0112242)
摘    要:搜索引擎的Robots(自动采集器)对WWW站点进行搜索,并将搜索到WWW页面信息存入搜索引擎的临时数据库,然后再对页面信息进行整理,形成规范的页面索引,存入索引数据库,供用户查询。设计搜索引擎的第一步就是对输入的各项进行规格化处理,使之标准化。在建立索引文件之前,文档里的信息要进行处理,例如文档标准、索引词抽取,这个过程称为项目规格化(Item normalization)。项目规格化分三步进行:建立可搜索的数据库结构,禁用词表使用和抽取词干。

关 键 词:搜索引擎  文档预处理  数据结构  网页标引  计算机网络  信息检索

The Research of Document Predisposition Technology in Search Engines
Abstract:
Keywords:
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号