搜索引擎的文档预处理技术研究 |
| |
引用本文: | 陶跃华,赵波,杨秀国.搜索引擎的文档预处理技术研究[J].计算机科学,2002,29(7):111-112. |
| |
作者姓名: | 陶跃华 赵波 杨秀国 |
| |
作者单位: | 云南师范大学计算机科学与信息技术学院,昆明,650092 |
| |
基金项目: | 云南省教育厅科学研究基金(项目编号:0112242) |
| |
摘 要: | 搜索引擎的Robots(自动采集器)对WWW站点进行搜索,并将搜索到WWW页面信息存入搜索引擎的临时数据库,然后再对页面信息进行整理,形成规范的页面索引,存入索引数据库,供用户查询。设计搜索引擎的第一步就是对输入的各项进行规格化处理,使之标准化。在建立索引文件之前,文档里的信息要进行处理,例如文档标准、索引词抽取,这个过程称为项目规格化(Item normalization)。项目规格化分三步进行:建立可搜索的数据库结构,禁用词表使用和抽取词干。
|
关 键 词: | 搜索引擎 文档预处理 数据结构 网页标引 计算机网络 信息检索 |
The Research of Document Predisposition Technology in Search Engines |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
|
点击此处可从《计算机科学》下载全文 |
|