首页 | 本学科首页   官方微博 | 高级检索  
     

基于核矩阵学习的XML文档相似度量方法
引用本文:杨建武,陈晓鸥.基于核矩阵学习的XML文档相似度量方法[J].软件学报,2006,17(5):991-1000.
作者姓名:杨建武  陈晓鸥
作者单位:北京大学,计算机研究所,北京,100871;北京大学,文字信息处理技术国家重点实验室,北京,100871
摘    要:XML文档作为一种新的数据形式,成为当前的研究热点.XML文档间相似度的计算是XML文档分析、管理及文本挖掘的基础.结构链接向量模型(structuredlink vector model,简称SLVM)是一种综合考虑XML文档结构信息与内容信息进行XML文档相似度量的方法.体现XML文档结构单元关系的核矩阵在结构链接向量模型中扮演着重要角色.为自动捕获XML文档结构单元关系,提出了两种核矩阵的学习算法,分别是基于支持向量机(support vector machine,简称SVM)的回归学习算法和基于矩阵迭代的学习算法.相似搜索实验对比结果表明,基于核矩阵学习方法的XML文档相似度量方法的准确性明显优于其他方法.进一步实验表明,基于矩阵迭代学习的核矩阵学习算法与基于支持向量机的回归学习算法相比,不仅具有更高的准确性,而且所需训练文档更少、计算代价更小.

关 键 词:XML文档  相似度量  核矩阵学习  文本挖掘
收稿时间:2005-06-30
修稿时间:2005-06-302005-10-20

Similarity Measures for XML Documents Based on Kernel Matrix Learning
YANG Jian-Wu and CHEN Xiao-Ou.Similarity Measures for XML Documents Based on Kernel Matrix Learning[J].Journal of Software,2006,17(5):991-1000.
Authors:YANG Jian-Wu and CHEN Xiao-Ou
Affiliation:1.Institute of Computer Science and Technology, Peking University, Beijing 100871, China;2.National Key Laboratory for Text Processing, Peking University, Beijing 100871, China
Abstract:
Keywords:XML document  similarity measure  kernel matrix learning  text mining
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《软件学报》浏览原始摘要信息
点击此处可从《软件学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号