首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于DOM的Web文档主题划分方法
引用本文:陈志敏,沈洁,赵耀.一种基于DOM的Web文档主题划分方法[J].计算机应用与软件,2009,26(8):59-61.
作者姓名:陈志敏  沈洁  赵耀
作者单位:扬州大学信息工程学院,江苏,扬州,225009
基金项目:江苏省自然科学基金项目 
摘    要:主题划分是多主题文档自动摘要中的一个重要问题,提出了一种以网页结构为指导,利用页面对应DOM树中节点的自然分割功能以及相邻边界节点语义相似度的比较进行网页主题划分的方法.实验结果表明该方法具有较高的划分准确率,在此基础上抽取的网页摘要可显著增加文摘内容对原文的覆盖率、有效解决Web文档摘要分布不平衡问题.

关 键 词:主题划分  文档对象模型  语义相似度  自动摘要

TOPIC SEGMENTATION OF WEB DOCUMENT BASED ON DOM
Chen Zhimin,Shen Jie,Zhao Yao.TOPIC SEGMENTATION OF WEB DOCUMENT BASED ON DOM[J].Computer Applications and Software,2009,26(8):59-61.
Authors:Chen Zhimin  Shen Jie  Zhao Yao
Affiliation:Institute of Information Engineering;Yangzhou University;Yangzhou 225009;Jiangsu;China
Abstract:Topic partition is a significant problem in automatic abstracting system of multi-topic document.In this paper it proposed a partition method regarding webpage structure as the guideline.It utilizes the natural dividing function of the nodes in the DOM tree of the webpage,and then calculates the semantic similarity degree of the adjoining border nodes in order to segment topics.Experiments on this foundation showed that it has the higher partition accuracy,and it can remarkably increase the digest's coverag...
Keywords:Topic segmentation Document object model Semantic similarity Automatic abstract  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号