共查询到18条相似文献,搜索用时 184 毫秒
1.
为了能对复杂版式的文本图像(如包含镶嵌在文字中的形状不规则的图片区)的页面进行图文分割与分类,提出了一种新的基于模式链分析的文本页面分割与分类算法。该算法首先使用外接矩形框出图像中的所有黑像素,并且存入矩形框链表中,再组合所有相邻的矩形进而形成模式,最后依据各模式的统计特征分类,输出文字区和图片区两类图像。另外,对大图片模式周围个别不确定的模式,本文采用了上下文分类的算法进行再次分类。实验结果表明,该算法不仅运算速度快,而且能够对复杂版式的页面图像进行正确的图文分割和分类。 相似文献
2.
Topic PageRank——一种基于主题的搜索引擎 总被引:1,自引:0,他引:1
通过研究传统的超链分析算法PageRank及其改进算法Hilltop和TSPR的不足,提出了一种新的改进的方法Topic PageRank。这种算法是对每一个页面进行页面分类,然后根据分类的结果分别对每一个主题进行页面等级计算,因此,每一个页面对不同的主题将呈现出不同的页面等级得分,能更加准确地反映出页面的重要性。 相似文献
3.
Web页面信息块的自动分割 总被引:8,自引:2,他引:8
随着Internet的发展,Web页面数量的急剧增加,如何快速有效地获取信息变得越来越重要。一类Web页面往往包含着多个信息单元,它们在展现上排列紧凑、风格相似,在HTML语法上具有类似的模式,例如一个BBS页面上多个发言,每个信息被称为一个信息块。对于信息抽取、信息过滤等应用,需要首先将原始页面中分割为若干合适的信息块以便于后续的处理。本文提出了一种自动将Web页面分割为信息块的方法:首先通过创建Web页面结构化的HMTL分析树,然后根据包含有效文本量等确定包含信息块的子树,最后根据子树深度信息利用2-rank PAT算法进行分割。通过对BBS页面的信息块抽取实验,证明了该方法的有效性。 相似文献
4.
为了能对包含不规则图片区和表格的倾斜文本页面图像进行图文分割与分类,提出了一种新的图文分割和分类算法。该算法先采用数学形态学和分级霍夫变换来进行文本倾斜的检测和校正;然后为了使算法能够对包含不规则图片区的文本页面图像进行处理,提出在传统的投影轮廓切割算法中,引入中点切割的过程,以便利用一系列的矩形来近似地逼近不规则的图片区。对于分割后的图像,则提出利用黑白像素比(Rbw)和近邻像素间的交叉相关性(Rcc)两个特征来作为分类的判据。实验结果证明,算法速度快、可靠性高。该算法只适用于二值图像。 相似文献
5.
有很多不同的分块算法都可以对web网页进行分块.研究分块的1/1的是为了相关领域进一步研究的需要。例如通过页面块内容的重要程度研究基于块的搜索、定位网页的重要主题或内容,研究网页主要内容或主题的抽取,以及基于Web页面分块的Web存档等。首先给出Web页面分块问题定义和分类,并对几种典型的分块算法进行原理剖析,为进一步研究web页面分块问题提供一些有益的参考。 相似文献
6.
一种基于节点密度分割和标签传播的Web页面挖掘方法 总被引:1,自引:0,他引:1
获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块训练集;第三,在扩展的页面块训练集上对SVM分类器进行训练,并用来对页面块进行分类.采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局.我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性. 相似文献
7.
基于直线连续性的页面倾斜检测与校正 总被引:14,自引:0,他引:14
在文档扫描过程中,输入的文档图像不可避免地会发生倾斜现象,而布局分析及字符识别算法对页面倾斜都十分敏感,因此倾斜检测和校正是文档分析预处理的重要环节,文中提出了一个基于直线连续性的倾斜检测方法。它将字符连通区包围盒底边中心点作为特征点,利用文本行中特征点与基线的关系,计算出基线的方向,即为页面倾斜方向,接着,介绍了一种基于偏移值的倾斜校正方法,实验证明,该算法速度快,准确度高。 相似文献
8.
9.
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。 相似文献
10.
通过研究传统的超链分析算法PageRank及其改进算法Hilltop和TSPR的不足,提出了一种新的改进的方法Topic PageRank。这种算法是对每一个页面进行页面分类,然后根据分类的结果分别对每一个主题进行页面等级计算,因此,每一个页面对不同的主题将呈现出不同的页面等级得分,能更加准确地反映出页面的重要性。 相似文献
11.
随着通信技术的发展,人们迫切希望能方便地利用手持移动设备访问Web网站,由于移动设备的小屏幕和低带宽的缺点,使得这一难题一直没有得到很好的解决.本文提出一种适合于移动设备小屏幕的Web页面分块算法,算法利用Web网页上对象的位置信息对信息块进行逐层聚类,生成一棵网页分块树,再根据移动设备屏幕的特点把网页分块树转换成适合小屏幕浏览的页面. 相似文献
12.
网页分割技术是实现网页自适应呈现的关键。针对经典的基于视觉的网页分割算法VIPS(Vision-based Page Segmentation Algorithm)分割过碎和半自动的问题,基于图最优划分思想提出了一种新颖的基于视觉的网页最优分割算法VWOS(Vision-based Web Optimal Segmentation)。考虑到视觉特征和网页结构,将网页构造为加权无向连通图,网页分割转化为图的最优划分,基于Kruskal算法并结合网页分割的过程,设计网页分割算法VWOS。实验证明,与VIPS相比,采用VWOS算法分割网页的语义完整性更好,且不需要人工参与。 相似文献
13.
J. Y. Ramel S. Leriche M. L. Demonet S. Busson 《International Journal on Document Analysis and Recognition》2007,9(2-4):243-261
In this paper, based on the study of the specificity of historical printed books, we first explain the main error sources in classical methods used for page layout analysis. We show that each method (bottom-up and top-down) provides different types of useful information that should not be ignored, if we want to obtain both a generic method and good segmentation results. Next, we propose to use a hybrid segmentation algorithm that builds two maps: a shape map that focuses on connected components and a background map, which provides information about white areas corresponding to block separations in the page. Using this first segmentation, a classification of the extracted blocks can be achieved according to scenarios produced by the user. These scenarios are defined very simply during an interactive stage. The user is able to make processing sequences adapted to the different kinds of images he is likely to meet and according to the user needs. The proposed “user-driven approach” is capable of doing segmentation and labelling of the required user high level concepts efficiently and has achieved above 93% accurate results over different data sets tested. User feedbacks and experimental results demonstrate the effectiveness and usability of our framework mainly because the extraction rules can be defined without difficulty and parameters are not sensitive to page layout variation. 相似文献
14.
基于链接分块的相关链接提取方法 总被引:1,自引:0,他引:1
每个网页都包含了大量的超链接,其中既包含了相关链接,也包含了大量噪声链接。提出了一种基于链接分块的相关链接提取方法。首先,将网页按照HTML语言中标签将网页分成许多的块,从块中提取链接,形成若干链接块;其次,根据相关链接的成块出现,相关链接文字与其所在网页标题含相同词等特征,应用规则与统计相结合的方法从所有链接块中提取相关链接块。相关链接提取方法测试结果,精确率在85%以上,召回率在70%左右,表明该方法很有效。 相似文献