期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于Internet的信息集成技术 总被引：8，自引：0，他引：8

李斌谭立湘李海鹰庄镇泉《计算机工程》2000,26(11):35-37,86

综述了基于Ｉｎｔｅｒｎｅｔ上分布异构信息源的网上信息集成技术的研究进展,通过典型实例对其中信息提取与转换、数据模型和查询处理等关键技术的最新进行了归纳与探讨,最后对该领域今后的研究方向进行了展望。相似文献

2.

基于机器学习的网页正文提取方法

安增文王超徐杰锋《微型机与应用》2010,29(12)

先将网页转换为规范的DOM树,然后计算每行文本的文本密度、与标题相关度等值,并将其作为输入参数利用BP神经网络进行训练,进而形成抽取规则,最后通过实验验证该方法的可行性. 相似文献

3.

基于正文特征的网页正文信息提取方法 总被引：2，自引：0，他引：2

孙桂煌刘发升《现代计算机》2008,(9)

利用正文字数多、标点符号多两个特征,提出一种基于正文特征的网页正文信息提取方法.谊方法利用HTML标签对网页内容进行分块,把具有正文特征的块保留,不具有正文特征的块舍弃,从而准确得到具有较高完整性的网页正文信息.实验结果证明该方法是有效的、通用的. 相似文献

4.

基于视觉特征的网页正文提取方法研究 总被引：1，自引：0，他引：1

安增文徐杰锋《微型机与应用》2010,29(3)

利用网页的视觉特征和DOM树的结构特性对网页进行分块,并采用逐层分块逐层删减的方法将与正文无关的噪音块删除,从而得到正文块.对得到的正文块运用VIPS算法得到完整的语义块,最后在语义块的基础上提取正文内容.试验表明,这种方法是切实可行的. 相似文献

5.

基于内容图像检索的机器人障碍物检测方法

胡文楠《计算机工程与设计》2021,42(3):822-829

为研究搬运机器人的视觉识别系统,提出一种基于内容图像检索的方法识别障碍物.为检测固体障碍物,从不同位置拍摄多种障碍物,保证这些图像的数量和质量,利用拍摄的图像构建一个稳健的图像数据库;利用3种不同的特征提取方法,将图像纹理作为障碍物的特征信息,实时更新障碍物的信息;进行相似度距离计算,比较检索图像与数据库中的图像距离,... 相似文献

6.

基于网页导航信息的Web文档性质分类

孙铁利赵志岩褚永丽《微计算机应用》2005,26(2):220-220

研究发现传统的Web文档分类算法都是基于内容的相似度划分文档的，并没有涉及到对文档性质的划分，即将网页按照内容划分各类，而没有涉及该网页的内容是属于新闻、评论、学术论文还是原创故事等类别，这对很多用户来说是很不方便的。相似文献

7.

一种基于分类算法的网页信息提取方法 总被引：3，自引：0，他引：3

汪建伟杨冬青高军王腾蛟《计算机科学》2008,35(3):91-93

在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识.本文提出一种基于分类算法的Web信息提取方法,通过将网页文本按照其显示属性的不同进行分组,以显示属性值为基础对Web页面文本进行分类,获取所关注文本,从而完成对web页面的信息提取.这种提取方法操作简单,易于实现,对网页结构的依赖性小. 相似文献

8.

基于高斯滤波的低照度图像信息增强方法

周作梅李俊杰《信息与电脑》2022,(17):202-204

传统的图像信息增强方法存在处理后的图像成像质量低、增强效果不好的缺陷,因此提出基于高斯滤波的低照度图像信息增强方法。先建立图像信息采集模型,并利用高斯滤波算法提取图像边缘信息,最后在分解图像信息特征后进行特征分析和自动融合,从而增强低照度图像中的有效信息。实验结果表明,随着滤波次数的增加,应用本文方法后,图像的峰值信噪比不断增大,且高于传统方法,说明本文方法具有较好的增强效果,成像质量较高。相似文献

9.

Adobe Live Motion将网页变得生动有趣

吕安迪《广东电脑与电讯》2000,(7):68-69

相似文献

10.

基于代理机制的Internet信息自动提取 总被引：3，自引：2，他引：3

唐春生金以慧《计算机工程与应用》2001,37(10):38-41,57

文章提出并实现了一个基于代理机制的Ｉｎｔｅｒｎｅｔ信息自动提取原型系统,旨在帮助个人及企业用户快速准确地提取满足需要的Ｉｎｔｅｒｎｅｔ信息。该原型系统采用“联邦制”的体系结构,以代理作为架构系统的基本组件,利用代理的自治性和代理之间的协作来完成Ｉｎｔｅｒｎｅｔ信息提取和整理工作。在系统设计与实现中,提出了动态代理的思想,并首次采用站点结构自动转换技术,提高了系统的性能和易用性。基于该原型系统的产品和应用实践证明了该系统的可行性和有效性。相似文献

11.

基于网页分割的Web信息提取算法

侯明燕杨天奇《微型机与应用》2011,30(5):54-56

针对网页非结构化信息抽取复杂度高的问题,提出了一种基于网页分割的Web信息提取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本提取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。相似文献

12.

网页文本信息自动提取技术综述 * 总被引：2，自引：0，他引：2

张俊英胡侠卜佳俊《计算机应用研究》2009,26(8):2827-2831

对Web网页文本信息自动提取技术提供了一个较为全面的综述。通过分析在这个领域常用到的三种信息提取模型和四类机器学习算法的发展,较为全面地阐述了当前主流的网页文本信息自动提取技术,对比了各种方法的应用范围,最后对于该领域当前的热点问题和发展趋势进行了展望。相似文献

13.

基于网页聚类的Web信息自动抽取

邱韬奋杨天奇曾洪波《微型机与应用》2011,30(4):71-74

针对现今较流行的动态Web网页数量巨大、数据价值高,并且网页结构高度模板化的特点,设计了一个基于网页聚类的Web信息自动抽取系统。在DOM抽取技术基础上利用网页聚类寻找高相似簇,并引入列相似度和全局自相似度计算方法,提高了聚类结果的准确性。抽取模板中应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主要信息,达到了较高的准确率和查全率。相似文献

14.

一种基于信息熵的Web页面主题信息抽取方法

贺智平徐学洲李爱玲《计算机工程与应用》2007,43(4):164-166

提出了一种剪枝信息熵增较大结点的信息抽取方法。通过对HTML文档解析来构造DOM树。根据配置过滤掉不需处理的相关内容并建立语义模型树,最后对熵增超过阈值的结点进行剪枝并输出抽取的主题信息页面。初步实验结果验证了用这种方法进行Web页面信息抽取的有效性。方法的数学模型简单可靠,基本不需要人工干预即可完成主题信息抽取。可应用于Web数据挖掘系统以及PDA等移动设备的信息获取方面。相似文献

15.

Content-based image retrieval using high-dimensional information geometry

CAO WenMing LIU Ning KONG QiCong FENG Hao 《中国科学:信息科学(英文版)》2014,(7):199-209

相似文献

16.

基于CURE算法的网页分块及正文块提取研究

王超徐杰锋《微型机与应用》2012,31(12):11-14

研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。相似文献

17.

健康领域Web信息抽取

李汝君张俊张晓民桂小庆《计算机应用》2016,36(1):163-170

针对Web信息抽取(WIE)技术在健康领域应用的问题,提出了一种基于WebHarvest的健康领域Web信息抽取方法。通过对不同健康网站的结构分析设计健康实体的抽取规则,实现了基于WebHarvest的自动抽取健康实体及其属性的算法;再把抽取的实体及其属性进行一致性检查后存入关系数据库中,然后对关系数据库中隐含健康实体的属性值利用Ansj自然语言处理方法进行实体识别, 进而抽取健康实体之间的联系。该技术在健康实体抽取实验中,平均F值达到99.9%,在实体联系抽取实验中,平均F值达到80.51%。实验结果表明提出的Web信息抽取技术在健康领域抽取的健康信息具有较高的质量和可信性。相似文献

18.

一种新闻网页关键信息的提取算法

向菁菁耿光刚李晓东《计算机应用》2016,36(8):2082-2086

针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法newsExtractor。该算法首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文的概率极高的特点,从正文中间开始向两端寻找正文的起点和终点提取新闻正文,根据最长公共子串算法提取标题,构造正则表达式并以行号辅助判断提取时间,根据来源的格式特点并辅以行号提取来源;最后构造了数据集与国外开源软件newsPaper进行提取准确率的对比实验。实验结果表明,newsExtractor在正文、标题、时间、来源的平均提取准确率上均优于newsPaper,具有通用性和鲁棒性。相似文献

19.

基于非内容信息的网络关键资源有效定位

刘奕群张敏马少平《智能系统学报》2007,2(1):45-52

网络信息的爆炸式增长，使得当前任何搜索引擎都只可能索引到Web上一小部分数据，而其中又充斥着大量的低质量信息．如何在用户查询无关的条件下找到Web上高质量的关键资源，是Web信息检索面临的挑战．基于大规模网页统计的方法发现，多种网页非内容特征可以用于关键资源页面的定位，利用决策树学习方法对这些特征进行综合，即可以实现用户查询无关的关键资源页面定位．在文本信息检索会议（TREC）标准评测平台上进行的超过19G文本数据规模的实验表明，这种定位方法能够利用20％左右的页面覆盖超过70％的Web关键信息；在仅为全部页面24％的关键资源集合上的检索结果，比在整个页面集合上的检索有超过60％的性能提高．这说明使用较少的索引量获取较高的检索性能是完全可能的．相似文献