共查询到19条相似文献,搜索用时 62 毫秒
1.
朱逢春 《电子制作.电脑维护与应用》2015,(8)
在网页文本信息自动采集的实际应用中,网页检索采集到的资源存在着大量与网页主题内容无关的"噪音"信息,本文主要内容是研究基于DOM树的网页去噪技术,通过对网页结构的转化,将网页转化成DOM树,在此基础上过滤掉网页噪音信息,提取网页文本的正文内容。 相似文献
2.
3.
4.
分析了屏幕自适应网页设计的基本原理,系统阐述了综合运用媒体查询技术与流式布局设计屏幕自适应网页的方法,探讨了使用PC浏览器测试网页屏幕自适应性的简便方法。 相似文献
5.
6.
为了更彻底地清洗网页噪音,减少网页噪音对新闻内容抽取准确率的影响,提出基于模板页的相同噪音块清洗方法和基于class属性的同类噪音块和特殊噪音块清洗方法;在此基础上,利用新闻网页在内容布局结构上的特征,提出基于起始块和终止块的新闻内容抽取方法。实验结果表明,与已有的算法相比,提出的方法抽取准确率更高,能够同时适应正文内容存放在单块和多块的情形,并且有效地解决了正文内容较短时的抽取问题。 相似文献
7.
8.
9.
提出了一种基于网页框架和规则的网页去除噪音的新方法,该方法根据网页中HTML标签将网页分成若干部分,对各个table的长宽比属性进行比较,去掉长宽比很大的部分,并对其余table中的内容进行分析,根据内部是否存在和段落文字有关的标签