首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
基于CSS的网页分割算法   总被引:1,自引:0,他引:1  
在页面变换,信息抽取,信息过滤等应用中,首先需要将原始页面分割成为若干合适的信息块以便于后续的处理.本文提出了一种基于CSS的网页分割算法,通过对网页进行解析和布局处理,提取出其中的CSS信息,并且使用重复模式检测和聚类的方法对生成的CSS树进行分割.试验证明该方法能够有效地分割网页,并且不依赖于特定的浏览器,适合嵌入式系统使用.  相似文献   

2.
为了提取网页中的主题信息,提出了一种基于支持向量机(SVM)的网页主题信息提取算法.该算法首先将整个网页划分成多个不同的信息块;然后根据信息块中的文本、图片、链接及信息块的位置建立其特征向量;通过训练得到SVM的最优分类函数;最后通过最优分类函数的符号判断给定的信息块是否是主题信息.封闭式测试中,指标precision和gain在最高时达到98%和96%;开放式测试中,两指标分别为92%和87%.  相似文献   

3.
通过对网页源文件的代码进行分析、设计信息提取的算法,目的是替代人工进行网站相关信息的获取,避免重复性劳动。首先对现有的两种Web结构进行比较分析,然后针对每一种Web结构提出信息提取的方案,接下来以日本著名新闻网站NHK为例,对上述方案进行验证和代码实现,最后对系统的功能扩充进行更高层次的展望。  相似文献   

4.
提出了一个针对识别目标的基于知识的图象分割模糊聚类算法。在特征选取时,除了考虑象素点的灰度信息外,还考虑到目标与背景纹理上的差异。  相似文献   

5.
李文昊  彭红超  童名文  石俊杰 《计算机科学》2015,42(11):284-287, 309
网页分割技术是实现网页自适应呈现的关键。针对经典的基于视觉的网页分割算法VIPS(Vision-based Page Segmentation Algorithm)分割过碎和半自动的问题,基于图最优划分思想提出了一种新颖的基于视觉的网页最优分割算法VWOS(Vision-based Web Optimal Segmentation)。考虑到视觉特征和网页结构,将网页构造为加权无向连通图,网页分割转化为图的最优划分,基于Kruskal算法并结合网页分割的过程,设计网页分割算法VWOS。实验证明,与VIPS相比,采用VWOS算法分割网页的语义完整性更好,且不需要人工参与。  相似文献   

6.
图像分割是图像处理到分析的关键步骤,阈值分割方法因其计算简单而被广泛应用,聚类算法也因其准确性成为图像分割领域中一类极其重要的算法。选取几种经典阈值分割算法和几种聚类算法对几幅毫米波图像进行分割实验,并引入错分类误差、均匀测度、区域间灰度对比度作为算法测评标准,比较了各种算法对毫米波图像的分割性能。  相似文献   

7.
随着互联网的快速发展,Web页面上的信息量已变得非常巨大,面对网页上海量的信息资源,如何快速有效地检索及发现有价值的信息已成为Web研究的一个重要方面。对此提出了一种标签提取方法。利用JTidy将网页优化为格式良好的HTML文档并解析为DOM树,然后用标签提取方法对该DOM树中包含有文本信息内容的叶子节点标签进行提取,把用于控制网页交互性和显示的标签删除掉,并运用基于标点符号的信息提取方法去除版权说明等信息。对不同网站的网页进行抽取实验,结果表明标签提取方法不但通用性强,而且能够准确地提取网页的主题信息。  相似文献   

8.
近年来,建立在图论基础上的谱聚类算法作为一种新型的工具被应用于图像分割。其本质是将图像分割转化为最优化问题,其中的最小最大割算法(Min-max cut)能充分满足聚类算法的准则。算法实现过程中,把最优化准则转化为特征系统进行求解。该实现方法计算复杂,随着图像尺寸的增加,所需存储空间和计算时间复杂度都会增加。在实现最小最大割算法时,用基于灰度级的权值矩阵代替通常所用的基于图像像素的权值矩阵来描述图像各像素的关系,确定分割的阈值。实验表明,此方法实现的最小最大割算法实现简单、实时性高,具有自动分割等优越的分割性能。  相似文献   

9.
基于网页结构挖掘的信息提取   总被引:2,自引:0,他引:2  
李媛  耿桦  张甍  潘金贵 《计算机科学》2006,33(3):191-193
本文提出了两种细粒度的、基于网页结构挖掘的信息提取方法,比较了它们的优缺点,并给出了相应具体实现的性能测试和结果分析.  相似文献   

10.
彭红超  童名文  邹军华  郝秋红 《计算机科学》2013,40(Z11):379-382,388
针对国家精品课程网站中网页内容和样式独立设计,网页分割算法难以运行的问题,基于规则提出了一种网页分割预处理算法,建立了网页标签和样式信息的关联。算法包括3个步骤:第一,获取样式信息;第二,关联样式信息和标签;第三,输出HTML和PerfectNode关联类列表。随机选取了100个国家精品课程网站的网页运行预处理算法,实验结果表明该算法可以有效地 融合 网页标签和样式信息,解决了网页分割算法无法运行的问题。  相似文献   

11.
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。  相似文献   

12.
针对现今较流行的动态Web网页数量巨大、数据价值高,并且网页结构高度模板化的特点,设计了一个基于网页聚类的Web信息自动抽取系统。在DOM抽取技术基础上利用网页聚类寻找高相似簇,并引入列相似度和全局自相似度计算方法,提高了聚类结果的准确性。抽取模板中应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主要信息,达到了较高的准确率和查全率。  相似文献   

13.
基于视觉特征的网页正文提取方法研究   总被引:1,自引:0,他引:1  
利用网页的视觉特征和DOM树的结构特性对网页进行分块,并采用逐层分块逐层删减的方法将与正文无关的噪音块删除,从而得到正文块.对得到的正文块运用VIPS算法得到完整的语义块,最后在语义块的基础上提取正文内容.试验表明,这种方法是切实可行的.  相似文献   

14.
基于网页分块的正文信息提取方法   总被引:3,自引:0,他引:3  
网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度.提出了一种基于网页分块的正文信息抽取方法.该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字.实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现.  相似文献   

15.
网页文本信息自动提取技术综述 *   总被引:2,自引:0,他引:2  
对Web网页文本信息自动提取技术提供了一个较为全面的综述。通过分析在这个领域常用到的三种 信息提取模型和四类机器学习算法的发展,较为全面地阐述了当前主流的网页文本信息自动提取技术,对比了 各种方法的应用范围,最后对于该领域当前的热点问题和发展趋势进行了展望。  相似文献   

16.
Web信息抽取中需要对目标网站的网页进行聚类分析,以检测并生成信息抽取所需的模板。传统的基于DOM树编辑距离的网页聚类算法不适合文档对象模型(DOM)树结构复杂的动态模板网页,提出了一种基于局部标签树匹配的改进网页聚类算法,利用标签树中模板节点和非模板节点的层次差异性,根据节点对布局影响的大小赋予节点不同的匹配权值,使用局部树匹配完成对网页结构相似性的有效计算。实验结果表明,改进的算法较传统的基于DOM树编辑距离的网页聚类算法,在对采用模板生成的动态网页进行聚类分析时具有更高的准确率,且时间复杂度低。  相似文献   

17.
针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法newsExtractor。该算法首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文的概率极高的特点,从正文中间开始向两端寻找正文的起点和终点提取新闻正文,根据最长公共子串算法提取标题,构造正则表达式并以行号辅助判断提取时间,根据来源的格式特点并辅以行号提取来源;最后构造了数据集与国外开源软件newsPaper进行提取准确率的对比实验。实验结果表明,newsExtractor在正文、标题、时间、来源的平均提取准确率上均优于newsPaper,具有通用性和鲁棒性。  相似文献   

18.
邓健爽  郑启伦  彭宏 《计算机应用》2006,26(5):1134-1136
网页自动分类是当前互联网搜索领域一个热点研究课题,目前主要有基于网页文本内容的分类和基于网页间超链接结构的分类。但是这些分类都只利用了网页的信息,没有考虑到网页所在网站提供的信息。文中提出了一种全新的对网站内部拓扑结构进行简约的算法,提取网站隐含的层次结构,生成层次结构树,从而达到对网站内部网页实现多层次分类的目的,并且已经成功应用到电子商务智能搜索和挖掘系统中。  相似文献   

19.
陈钊  张冬梅 《计算机应用研究》2010,27(12):4401-4405
快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有树结构并且具有一定的相似性,基于DOM树结构和基于模板的抽取技术发展很快而且已经得到了广泛的应用。分别论述了上述几类技术在近几年来的研究进展,从自动化程度、适用范围和复杂性三个角度分析对比了几类技术的优缺点。  相似文献   

20.
提出了一种剪枝信息熵增较大结点的信息抽取方法。通过对HTML文档解析来构造DOM树。根据配置过滤掉不需处理的相关内容并建立语义模型树,最后对熵增超过阈值的结点进行剪枝并输出抽取的主题信息页面。初步实验结果验证了用这种方法进行Web页面信息抽取的有效性。方法的数学模型简单可靠,基本不需要人工干预即可完成主题信息抽取。可应用于Web数据挖掘系统以及PDA等移动设备的信息获取方面。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号