首页 | 本学科首页   官方微博 | 高级检索  
     

基于结构与文本关键词相关度的XML网页分类研究
引用本文:袁家政,须德,鲍泓.基于结构与文本关键词相关度的XML网页分类研究[J].计算机研究与发展,2006,43(8):1361-1367.
作者姓名:袁家政  须德  鲍泓
作者单位:1. 北京交通大学计算机与信息技术学院,北京,100044;北京联合大学信息技术研究所,北京,100101
2. 北京交通大学计算机与信息技术学院,北京,100044
3. 北京联合大学信息技术研究所,北京,100101
基金项目:教育部科学技术研究项目;北京市优秀人才培养基金
摘    要:针对XML网页特点,提出了计算XML文档结构相似性、文档关键词出现的位置以及关键词频度的方法,根据计算的结果提取XML网页特征,同时设计了一种基于支持向量机的XML网页多类分类算法.算法通过XML文档的训练样本集为每一类文档建立基于相似公共特征的聚类核,计算测试样本中的文档与每个聚类核的相似度,判断该文档的所属类.实验证明该分类算法具有比较高的分类查全率和查准率,能够较好地解决XML文档同时属于多个类的问题.

关 键 词:XML分类  文档结构  关键词特征  支持向量机
收稿时间:12 26 2005 12:00AM
修稿时间:2005-12-262006-03-07

An Efficient XML Documents Classification Method Based on Structure and Keywords Frequency
Yuan Jiazheng,Xu De,Bao Hong.An Efficient XML Documents Classification Method Based on Structure and Keywords Frequency[J].Journal of Computer Research and Development,2006,43(8):1361-1367.
Authors:Yuan Jiazheng  Xu De  Bao Hong
Affiliation:1, School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044;2, Institute of lnformation Technology, Beijing Union University, Beijing 100101
Abstract:
Keywords:XML classification  documents structure  keyword feature  support vector machine
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号