一种相似网页文本分类方法的研究 |
| |
引用本文: | 李雪蕾,张冬茉. 一种相似网页文本分类方法的研究[J]. 计算机工程, 2003, 29(Z1): 13-14 |
| |
作者姓名: | 李雪蕾 张冬茉 |
| |
作者单位: | 上海交通大学计算机系,上海,200030 |
| |
基金项目: | 国家自然科学基金资助项目(60083003) |
| |
摘 要: | 通过分析网页的特点及因特网用户感兴趣的查询信息,提出了一种基于机器学习的、独立于语种的文本分类模型.这一模型的算法主要利用字间的相关信息、词频、页面的标记信息以及对用户的查询信息的浅层语义分析,提取网页特征,并计算可调的词频加权参数和增加特征词的可分性信息,然后通过本类和非本类训练,建立预定义类的特征向量空间,进一步对文本进行分类.这种分类方法在对于相似文本分类中具有明显的优势.
|
关 键 词: | 文本分类 超文本描述语言 可分性判据 层次分类 |
文章编号: | 1000-3428(2003)增刊-0013-02 |
修稿时间: | 2002-10-08 |
Research of a Text Categorization Method for Similar Home Pages on the Internet |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 万方数据 等数据库收录! |
|