Web日志预处理技术探析 |
| |
作者姓名: | 贾丙静 吴长勤 王传安 葛华 |
| |
作者单位: | 安徽科技学院理学院; |
| |
基金项目: | 安徽科技学院引进人才基金项目(ZRC2008176); 安徽省教育厅自然科学基金项目(KJ2009B121Z) |
| |
摘 要: | 随着Internet的普及,Web日志挖掘成为一个新的研究课题。由于Web日志数据的半结构化,为了得到有效的挖掘模式,提高挖掘算法的效率,首先需要对数据预处理。该文详细介绍了Web日志数据预处理的四个步骤:数据清洗,用户识别,会话识别和路径补充,并实现了对某校院网日志记录的预处理,得到了理想的结果。
|
关 键 词: | 数据预处理 数据清洗 用户识别 会话识别 |
本文献已被 CNKI 等数据库收录! |
|