首页 | 本学科首页   官方微博 | 高级检索  
     

基于内容和分层结构的XML文件自动分类方法
引用本文:唐凯.基于内容和分层结构的XML文件自动分类方法[J].计算机工程与应用,2007,43(3):168-172,193.
作者姓名:唐凯
作者单位:中国科学院,计算技术研究所,北京,100073
摘    要:提出了一种以XML文件内在的分层结构为基础的文件分类方法,井与改良的VSM方击的实验结果进行了比较。和以往XML文件的分类方法不同的是.此方法更加注重XML文件特有的结构信息。首先利用TF-IDF方法针对XML文件非蛄构的信息产生一般特征集,然后再针对XML文件各个屡次重要性赋予一定的权重。从而产生层次特征集,然后根据一些领域知识,产生知识特征榘。将三个特征集结合起来对XML进行分类。试验结果表明,这种方法比改良的VSM方法在分类的准确性方面有大幅的提高。

关 键 词:特征词  文件自动分类  分层结构
文章编号:1002-8331(2007)03-0168-05
修稿时间:2006-05

Method of classification based on content and hierarchical structure for XML file
TANG Kai.Method of classification based on content and hierarchical structure for XML file[J].Computer Engineering and Applications,2007,43(3):168-172,193.
Authors:TANG Kai
Affiliation:Institute of Computing Technology,Chinese Academy of Sciences, Beijing 100073, China
Abstract:A new method of classification based on hierarchical structure for XML file is proposed in this paper.Three feature word clusters are separately generated from the content,hierarchical structure,and domain knowledge.They all lead to the classification result.An experiment system is designed to show this method effective and feasible.
Keywords:feature word  text auto classification  hierarchical structure
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号