首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于多叉树的HTML到XML的转换方法
引用本文:张文斌,陈恩红,王进.一种基于多叉树的HTML到XML的转换方法[J].小型微型计算机系统,2003,24(9):1617-1620.
作者姓名:张文斌  陈恩红  王进
作者单位:中国科学技术大学,计算机科学系,合肥,230027
基金项目:国家自然科学基金资助项目 (60 0 0 5 0 0 4),安徽省自然科学基金资助 (0 10 42 3 0 2 )项目
摘    要:当前的Web信息大多数都是HTML格式的,由于HTML文件中没有严格的结构性,故很难能用一种有效的方法来检索或提取隐藏其中的数据.针对HTML的这种缺陷,本文提出了基于多叉树的HTML到XML转换方法,把对HTML的信息检索问题转化为对XML的检索问题,以便简化下一步的检索问题.

关 键 词:HTML  XML  多叉树  信息检索

A Multi-tree Based HTML to XML Transformation Approach
ZHANG Wen-bin,CHEN En-hong,WANG Jin.A Multi-tree Based HTML to XML Transformation Approach[J].Mini-micro Systems,2003,24(9):1617-1620.
Authors:ZHANG Wen-bin  CHEN En-hong  WANG Jin
Abstract:Large volume of current Web information is in HTML format. However HTML file has no strict structures, therefore it is difficult to retrieve or extract its hidden data. To overcome the shortcoming, the paper proposes a multi-tree based HTML to XML transformation approach so that HTML information retrieval problem is transformed into XML information retrieval problem, thus simplifying information retrieval task.
Keywords:HTML  XML  multi-tree  information retrieval  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号