首页 | 本学科首页   官方微博 | 高级检索  
     

XML文档分类中特征表达方法的研究
引用本文:魏东平,马弋惠.XML文档分类中特征表达方法的研究[J].计算技术与自动化,2020,39(3):91-96.
作者姓名:魏东平  马弋惠
作者单位:中国石油大学(华东)计算机科学与技术学院,山东青岛266580;中国石油大学(华东)计算机科学与技术学院,山东青岛266580
摘    要:XML文档分类技术可以高效地管理海量存在的数据,XML文档同时拥有结构信息和文本信息。为充分利用XML特点,优化分类效果,在结构链接表达模型(structured link vector model,简称SLVM)的基础上,提出了一种新的特征表达方法,即P-SLVM表达模型。该模型在传统的tf*idf的权重设置方式基础上,根据特征词在类中的分布情况,对特征词权重设置进行改进,同时利用泊松分布理论、特征词所在位置等对结构单元进行加权,以更为有效地表达结构信息和内容信息。实验结果表明,在P-SLVM表达模型下进行的XML文档的分类,有更好的分类效果。

关 键 词:XML文档  分类  结构链接模型  tf*idf  泊松分布

Research on Feature Expression Methods in XML Document Classification
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
点击此处可从《计算技术与自动化》浏览原始摘要信息
点击此处可从《计算技术与自动化》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号