共查询到19条相似文献,搜索用时 125 毫秒
1.
2.
3.
基于正文特征的网页正文信息提取方法 总被引:2,自引:0,他引:2
利用正文字数多、标点符号多两个特征,提出一种基于正文特征的网页正文信息提取方法.谊方法利用HTML标签对网页内容进行分块,把具有正文特征的块保留,不具有正文特征的块舍弃,从而准确得到具有较高完整性的网页正文信息.实验结果证明该方法是有效的、通用的. 相似文献
4.
基于视觉特征的网页正文提取方法研究 总被引:1,自引:0,他引:1
利用网页的视觉特征和DOM树的结构特性对网页进行分块,并采用逐层分块逐层删减的方法将与正文无关的噪音块删除,从而得到正文块.对得到的正文块运用VIPS算法得到完整的语义块,最后在语义块的基础上提取正文内容.试验表明,这种方法是切实可行的. 相似文献
5.
胡文楠 《计算机工程与设计》2021,42(3):822-829
为研究搬运机器人的视觉识别系统,提出一种基于内容图像检索的方法识别障碍物.为检测固体障碍物,从不同位置拍摄多种障碍物,保证这些图像的数量和质量,利用拍摄的图像构建一个稳健的图像数据库;利用3种不同的特征提取方法,将图像纹理作为障碍物的特征信息,实时更新障碍物的信息;进行相似度距离计算,比较检索图像与数据库中的图像距离,... 相似文献
6.
研究发现传统的Web文档分类算法都是基于内容的相似度划分文档的,并没有涉及到对文档性质的划分,即将网页按照内容划分各类,而没有涉及该网页的内容是属于新闻、评论、学术论文还是原创故事等类别,这对很多用户来说是很不方便的。 相似文献
7.
8.
传统的图像信息增强方法存在处理后的图像成像质量低、增强效果不好的缺陷,因此提出基于高斯滤波的低照度图像信息增强方法。先建立图像信息采集模型,并利用高斯滤波算法提取图像边缘信息,最后在分解图像信息特征后进行特征分析和自动融合,从而增强低照度图像中的有效信息。实验结果表明,随着滤波次数的增加,应用本文方法后,图像的峰值信噪比不断增大,且高于传统方法,说明本文方法具有较好的增强效果,成像质量较高。 相似文献
9.
10.
基于代理机制的Internet信息自动提取 总被引:3,自引:2,他引:3
文章提出并实现了一个基于代理机制的Internet信息自动提取原型系统,旨在帮助个人及企业用户快速准确地提取满足需要的Internet信息。该原型系统采用“联邦制”的体系结构,以代理作为架构系统的基本组件,利用代理的自治性和代理之间的协作来完成Internet信息提取和整理工作。在系统设计与实现中,提出了动态代理的思想,并首次采用站点结构自动转换技术,提高了系统的性能和易用性。基于该原型系统的产品和应用实践证明了该系统的可行性和有效性。 相似文献
11.
针对网页非结构化信息抽取复杂度高的问题,提出了一种基于网页分割的Web信息提取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本提取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。 相似文献
12.
13.
14.
提出了一种剪枝信息熵增较大结点的信息抽取方法。通过对HTML文档解析来构造DOM树。根据配置过滤掉不需处理的相关内容并建立语义模型树,最后对熵增超过阈值的结点进行剪枝并输出抽取的主题信息页面。初步实验结果验证了用这种方法进行Web页面信息抽取的有效性。方法的数学模型简单可靠,基本不需要人工干预即可完成主题信息抽取。可应用于Web数据挖掘系统以及PDA等移动设备的信息获取方面。 相似文献
15.
16.
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。 相似文献
17.
针对Web信息抽取(WIE)技术在健康领域应用的问题,提出了一种基于WebHarvest的健康领域Web信息抽取方法。通过对不同健康网站的结构分析设计健康实体的抽取规则,实现了基于WebHarvest的自动抽取健康实体及其属性的算法;再把抽取的实体及其属性进行一致性检查后存入关系数据库中,然后对关系数据库中隐含健康实体的属性值利用Ansj自然语言处理方法进行实体识别, 进而抽取健康实体之间的联系。该技术在健康实体抽取实验中,平均F值达到99.9%,在实体联系抽取实验中,平均F值达到80.51%。实验结果表明提出的Web信息抽取技术在健康领域抽取的健康信息具有较高的质量和可信性。 相似文献
18.
针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法newsExtractor。该算法首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文的概率极高的特点,从正文中间开始向两端寻找正文的起点和终点提取新闻正文,根据最长公共子串算法提取标题,构造正则表达式并以行号辅助判断提取时间,根据来源的格式特点并辅以行号提取来源;最后构造了数据集与国外开源软件newsPaper进行提取准确率的对比实验。实验结果表明,newsExtractor在正文、标题、时间、来源的平均提取准确率上均优于newsPaper,具有通用性和鲁棒性。 相似文献
19.
网络信息的爆炸式增长,使得当前任何搜索引擎都只可能索引到Web上一小部分数据,而其中又充斥着大量的低质量信息.如何在用户查询无关的条件下找到Web上高质量的关键资源,是Web信息检索面临的挑战.基于大规模网页统计的方法发现,多种网页非内容特征可以用于关键资源页面的定位,利用决策树学习方法对这些特征进行综合,即可以实现用户查询无关的关键资源页面定位.在文本信息检索会议(TREC)标准评测平台上进行的超过19G文本数据规模的实验表明,这种定位方法能够利用20%左右的页面覆盖超过70%的Web关键信息;在仅为全部页面24%的关键资源集合上的检索结果,比在整个页面集合上的检索有超过60%的性能提高.这说明使用较少的索引量获取较高的检索性能是完全可能的. 相似文献