首页 | 本学科首页   官方微博 | 高级检索  
     

采用长短期记忆网络的深度学习方法进行网页正文提取
引用本文:陈前华,胡嘉杰,江吉,吴豪.采用长短期记忆网络的深度学习方法进行网页正文提取[J].计算机应用,2021,41(z1):20-24.
作者姓名:陈前华  胡嘉杰  江吉  吴豪
作者单位:东莞中国科学院云计算产业技术创新与育成中心,广东东莞523808;广东电子工业研究院人工智能实验室,广东东莞523808
摘    要:针对复杂网页上主题信息被过多地与主题无关的广告、导航、版权等噪声信息隐藏的问题,提出一种基于长短期记忆的深度学习正文提取方法(LTE).首先,设计一种根据超文本标记语言(HTML)中标签信息的数据划分策略:通过遍历HTML代码的文档对象模型(DOM)树来根据DOM树结构划分每一个具有文本信息的文本块;然后,通过预训练模型对每一个内容块的从属关系进行表征;最后,这些标签会被输入到用这种格式的数据预先训练好的长短期记忆(LSTM)网络模型进行主要内容正文判别.实验结果证明,模型能够有效拟合已标记的数据集,在训练集中的F1分数能稳定在0.96以上;对于不存在于训练集中的网页格式,对其正文的预测准确度也比两个传统正文抽取工具Readability和Newspaper3k的分别高47.54、19.02个百分点.由实验结果可知,LTE能够有效提取出网页中的正文内容.

关 键 词:文档对象模型  长短期记忆网络  预训练  深度学习  正文提取

Webpage text extraction using long short-term memory network based deep learning method
CHEN Qianhua,Hu Jiajie,JIANG Ji,WU Hao.Webpage text extraction using long short-term memory network based deep learning method[J].journal of Computer Applications,2021,41(z1):20-24.
Authors:CHEN Qianhua  Hu Jiajie  JIANG Ji  WU Hao
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号