共查询到20条相似文献,搜索用时 109 毫秒
1.
2.
刘军 《数字社区&智能家居》2007,1(2):451-452
为了提取网页中的主题信息,提出了一种基于支持向量机(SVM)的网页主题信息提取算法.该算法首先将整个网页划分成多个不同的信息块;然后根据信息块中的文本、图片、链接及信息块的位置建立其特征向量;通过训练得到SVM的最优分类函数;最后通过最优分类函数的符号判断给定的信息块是否是主题信息.封闭式测试中,指标precision和gain在最高时达到98%和96%;开放式测试中,两指标分别为92%和87%. 相似文献
3.
4.
提出了一个针对识别目标的基于知识的图象分割模糊聚类算法。在特征选取时,除了考虑象素点的灰度信息外,还考虑到目标与背景纹理上的差异。 相似文献
5.
网页分割技术是实现网页自适应呈现的关键。针对经典的基于视觉的网页分割算法VIPS(Vision-based Page Segmentation Algorithm)分割过碎和半自动的问题,基于图最优划分思想提出了一种新颖的基于视觉的网页最优分割算法VWOS(Vision-based Web Optimal Segmentation)。考虑到视觉特征和网页结构,将网页构造为加权无向连通图,网页分割转化为图的最优划分,基于Kruskal算法并结合网页分割的过程,设计网页分割算法VWOS。实验证明,与VIPS相比,采用VWOS算法分割网页的语义完整性更好,且不需要人工参与。 相似文献
6.
图像分割是图像处理到分析的关键步骤,阈值分割方法因其计算简单而被广泛应用,聚类算法也因其准确性成为图像分割领域中一类极其重要的算法。选取几种经典阈值分割算法和几种聚类算法对几幅毫米波图像进行分割实验,并引入错分类误差、均匀测度、区域间灰度对比度作为算法测评标准,比较了各种算法对毫米波图像的分割性能。 相似文献
7.
邵振凯 《计算机技术与发展》2013,(9)
随着互联网的快速发展,Web页面上的信息量已变得非常巨大,面对网页上海量的信息资源,如何快速有效地检索及发现有价值的信息已成为Web研究的一个重要方面。对此提出了一种标签提取方法。利用JTidy将网页优化为格式良好的HTML文档并解析为DOM树,然后用标签提取方法对该DOM树中包含有文本信息内容的叶子节点标签进行提取,把用于控制网页交互性和显示的标签删除掉,并运用基于标点符号的信息提取方法去除版权说明等信息。对不同网站的网页进行抽取实验,结果表明标签提取方法不但通用性强,而且能够准确地提取网页的主题信息。 相似文献
8.
近年来,建立在图论基础上的谱聚类算法作为一种新型的工具被应用于图像分割。其本质是将图像分割转化为最优化问题,其中的最小最大割算法(Min-max cut)能充分满足聚类算法的准则。算法实现过程中,把最优化准则转化为特征系统进行求解。该实现方法计算复杂,随着图像尺寸的增加,所需存储空间和计算时间复杂度都会增加。在实现最小最大割算法时,用基于灰度级的权值矩阵代替通常所用的基于图像像素的权值矩阵来描述图像各像素的关系,确定分割的阈值。实验表明,此方法实现的最小最大割算法实现简单、实时性高,具有自动分割等优越的分割性能。 相似文献
9.
10.
11.
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。 相似文献
12.
13.
基于视觉特征的网页正文提取方法研究 总被引:1,自引:0,他引:1
利用网页的视觉特征和DOM树的结构特性对网页进行分块,并采用逐层分块逐层删减的方法将与正文无关的噪音块删除,从而得到正文块.对得到的正文块运用VIPS算法得到完整的语义块,最后在语义块的基础上提取正文内容.试验表明,这种方法是切实可行的. 相似文献
14.
基于网页分块的正文信息提取方法 总被引:3,自引:0,他引:3
网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度.提出了一种基于网页分块的正文信息抽取方法.该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字.实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现. 相似文献
15.
16.
Web信息抽取中需要对目标网站的网页进行聚类分析,以检测并生成信息抽取所需的模板。传统的基于DOM树编辑距离的网页聚类算法不适合文档对象模型(DOM)树结构复杂的动态模板网页,提出了一种基于局部标签树匹配的改进网页聚类算法,利用标签树中模板节点和非模板节点的层次差异性,根据节点对布局影响的大小赋予节点不同的匹配权值,使用局部树匹配完成对网页结构相似性的有效计算。实验结果表明,改进的算法较传统的基于DOM树编辑距离的网页聚类算法,在对采用模板生成的动态网页进行聚类分析时具有更高的准确率,且时间复杂度低。 相似文献
17.
针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法newsExtractor。该算法首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文的概率极高的特点,从正文中间开始向两端寻找正文的起点和终点提取新闻正文,根据最长公共子串算法提取标题,构造正则表达式并以行号辅助判断提取时间,根据来源的格式特点并辅以行号提取来源;最后构造了数据集与国外开源软件newsPaper进行提取准确率的对比实验。实验结果表明,newsExtractor在正文、标题、时间、来源的平均提取准确率上均优于newsPaper,具有通用性和鲁棒性。 相似文献
18.
19.
快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有树结构并且具有一定的相似性,基于DOM树结构和基于模板的抽取技术发展很快而且已经得到了广泛的应用。分别论述了上述几类技术在近几年来的研究进展,从自动化程度、适用范围和复杂性三个角度分析对比了几类技术的优缺点。 相似文献
20.
提出了一种剪枝信息熵增较大结点的信息抽取方法。通过对HTML文档解析来构造DOM树。根据配置过滤掉不需处理的相关内容并建立语义模型树,最后对熵增超过阈值的结点进行剪枝并输出抽取的主题信息页面。初步实验结果验证了用这种方法进行Web页面信息抽取的有效性。方法的数学模型简单可靠,基本不需要人工干预即可完成主题信息抽取。可应用于Web数据挖掘系统以及PDA等移动设备的信息获取方面。 相似文献