首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 906 毫秒
1.
基于视觉的Web 页面分块算法的改进与实现   总被引:2,自引:0,他引:2  
基于视觉的Web 页面分块算法(Vision-based Page Segmentation Algorithm)作为网页分块技术重要的一部分,得到了广泛的应用,然而由于网页视觉特点的复杂性,导致VIPS 具有算法规则过于复杂和性能相对不高等缺陷。针对存在的问题,本文用标签树对微软提出的VIPS 进行改进,提出一种改进算法CTVPS,最后通过实验证明了本文算法的正确性和性能优越性。  相似文献   

2.
展开了对互联网搜索引擎结果集的智能排序研究,提出了一种基于扩展网页质量和VIPS分块算法的智能网页排序算法,并对结果进行净化处理以及查询优化。实验结果表明研究提出的新算法提高了推荐精度。  相似文献   

3.
一个普通的Web页面可以被分成信息块和噪音块两部分。基于web信息检索的第1步就是过滤掉网页中的噪音块。通过网页的特性可以看出,同层网页大多具有相似的显示风格和噪音块。在VIPS算法的基础上,该文提出一种基于同层网页相似性的匹配算法,这个算法可以被用来过滤网页中的噪音块。通过实验检测,算法可以达到95%以上的准确率。  相似文献   

4.
导航型网页中往往包含了大量的噪声信息,为自动提取网页中的关键词带来了较大的困难。 为此,提出一个新的网页表示模型PIX-PAGE和导航型网页关键词自动抽取算法P-KEA。PIX-PAGE模型利用提出的区域合并算法,将一张网页分割为适当粒度的区域;然后,依据人类视觉特点,对各区域进行视觉“奇异性”量化,同时利用奇异性传递规则进一步强化关键词相关区域的视觉“奇异性”。P-KEA根据PIX-PAGE模型模型的视觉量化结果,能够较准确地找到视觉突出区域中的关键词。实验结果表明,与基于DocView模型的算法DVM相比,P-KEA的准确率平均提高了20.9%。  相似文献   

5.
基于嵌套EMD的钓鱼网页检测算法   总被引:1,自引:0,他引:1  
网络钓鱼(Web phishing)以相似网站欺诈用户、骗取个人机密信息,已成为电子金融活动的重大威胁.对此,文中提出了一个钓鱼网页检测架构.在具体检测机制方面,提出了一个基于嵌套EMD(Nested Earth Mover's Distance)的网页相似度判定算法,对Web图像进行分割,抽取子图特征并构建网页的ARG (Attributed Relational Graph),在计算不同ARG属性距离的基础上,采用嵌套EMD方法计算网页的相似度,实现了对钓鱼网站的检测.实验结果表明,与国际现有研究成果相比,该算法具有较高的精度和较强的适应性.  相似文献   

6.
为了提取网页中的主题信息,提出了一种基于支持向量机(SVM)的网页主题信息提取算法.该算法首先将整个网页划分成多个不同的信息块;然后根据信息块中的文本、图片、链接及信息块的位置建立其特征向量;通过训练得到SVM的最优分类函数;最后通过最优分类函数的符号判断给定的信息块是否是主题信息.封闭式测试中,指标precision和gain在最高时达到98%和96%;开放式测试中,两指标分别为92%和87%.  相似文献   

7.
在目前数据爆发的互联网时代,论坛舆论走向对于社会的影响越来越大,对舆论进行监控引导已经不可避免,在数据如此巨大的环境中,有效地监控舆论信息成为一个难题.论坛网页中标题、内容等关键信息是舆论监控中的主要以及重点信息.为了提取论坛网页中的标题、内容、作者等与舆情相关的信息,文章提出了一种基于VIPS算法和智能模糊字典匹配相结合的网页内容提取方法.VIPS算法是利用Web页面的视觉提示背景颜色,字体的颜色和大小,边框、逻辑块和逻辑块之间的间距等,结合DOM树进行页面语义分块.智能模糊字典采用AC BM匹配算法把VIPS分块的语义块与数据库里的标签相匹配,提取出匹配正确的字段.两者的结合可以提取出帖子的标题、内容、作者、发帖时间等信息.该方法具体步骤是首先利用VIPS算法将网页页面块进行提取,再用分隔条检测设置分隔条,然后重构语义块,检测后将分割后的网页保存为xml格式文件,再将xml文件中的语义块与字典进行匹配,提取出匹配成功的内容.最后,文章通过实验证明了该方法的有效性.  相似文献   

8.
图像搜索中基于网页分块的图像分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
本文提出并实现了一种基于网页分块的图像分类模型,利用图像位于网页中的特点,将图像和网页结构有效地结合起来对网络环境中的图像进行分类。首先利用VIPS页面分块算法对网页进行分块,然后根据分块网页结构的特点将各分块网页中的图像分为背景类、广告类和主题类,最后利用这个图像分类结果指导网络环境下的图像搜索。实验结果表明明,这种方法能够显著提高图像搜索性能。  相似文献   

9.
针对已有网页分割方法都基于文档对象模型实现且实现难度较高的问题,提出了一种采用字符串数据模型实现网页分割的新方法。该方法通过机器学习获取网页标题的特征,利用标题实现网页分割。首先,利用网页行块分布函数和网页标题标签学习得到网页标题特征;然后,基于标题将网页分割成内容块;最后,利用块深度对内容块进行合并,完成网页分割。理论分析与实验结果表明,该方法中的算法具有O(n)的时间复杂度和空间复杂度,该方法对于高校门户、博客日志和资源网站等类型的网页具有较好的分割效果,并且可以用于网页信息管理的多种应用中,具有良好的应用前景。  相似文献   

10.
互联网商品信息抽取技术   总被引:1,自引:0,他引:1       下载免费PDF全文
于鲁波  陈超 《计算机工程》2008,34(5):274-276
针对网页信息抽取中格式多样化的问题,提出一种基于路径统计聚类的信息抽取算法。该算法充分利用电子商务网站网页的特点,给出网页统计信息的一般数学表达式,在此基础上,采用基于统计聚类的思想,分割信息块,实现抽取信息。通过对实际电子商务网站网页信息的抽取,证明算法的有效性,分割正确率达92.27%,信息抽取正确率达98.24%。  相似文献   

11.
针对网页非结构化信息抽取复杂度高的问题,提出了一种基于网页分割的Web信息提取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本提取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。  相似文献   

12.
针对Web应用测试用例生成过程中导航图规模过大以及存在冗余测试路径的问题,提出了一种基于Selenium页面对象设计模式和图遍历算法的Web应用测试用例生成方法。首先,通过将原始页面对象进行分类,以导航页面对象类为节点、导航方法为迁移边构建页面对象导航图;其次,结合图的最短路径算法提出了一种页面对象图算法(POGA)来遍历导航图以生成测试路径集;最后,提取测试路径,利用Faker生成模拟数据,进一步生成可以直接执行的测试用例。实验结果表明:与爬取Web应用生成导航图的规模相比,该方法约简率约为89%;与基于状态迁移生成Web应用测试用例的方法相比,该方法减小了冗余和不可行路径的数量,并进一步提高了页面对象的复用率和测试用例的可维护性。  相似文献   

13.
刘强  郭景峰 《微机发展》2007,17(1):151-154
已有的基于访问路径分析的页面推荐系统大多由离线处理和在线处理两部分组成,由于其周期性离线处理的过程较为耗时,难以适应大型网站以及内容更新频繁的网站的需要。提出了一种新的基于用户访问路径分析的页面推荐模型。该模型采用在线处理方式,利用增量图划分方法形成页面聚类,依此生成动态页面推荐。模型以Apache模块的形式实现,可适用于大型网站以及内容更新频繁的网站。实验结果表明,该模型具有较好的整体性能。  相似文献   

14.
In addition to conventional information media such as newspaper, radio, and television, modern network media such as e-mail and Web page has become popular means of proliferating information. However, the number of Web page is so large that they need to be managed systematically.Therefore, this work presents a component-based Web page management environment, which: (1) enables high-level modeling capability of Web pages through components, (2) improves maintenance of Web applications, and (3) facilitates the reuse of Web page components.  相似文献   

15.
刘云峰 《计算机工程》2010,36(12):83-84
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径聚类的文本信息抽取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。  相似文献   

16.
用页组拓扑平均距离改善页面聚类算法   总被引:1,自引:0,他引:1  
提出一种支持站点结构优化的页面聚类改进算法,通过引入图论中的拓扑平均距离,量化评估与挖掘站点结构中访问效率较低的内容文档集合为结构优化的兴趣页组,挖掘的页组具有更高的兴趣性,并将兴趣页组挖掘算法融入到拓扑优化算法中.实验结果表明改进算法能更好地优化站点结构,较一般算法收敛性好.  相似文献   

17.
Web页面主题相关性排序算法的研究   总被引:3,自引:0,他引:3       下载免费PDF全文
分析了Web页面主题的分布的特点,对经典的页面排序算法进行了探讨,提出了一种基于内容和超链接分析并结合用户点击行为的相关性排序算法。该算法考虑了超文本标记、锚文本、文本内容等对相关性的影响,引入动态比较矩阵来计算相应的权重系数,能够客观分析网页所包含的主题信息,使检索结果排序更合理。实验表明,该算法能有效提高查准率,较好地解决了主题的漂移现象,且具有较好的性能。  相似文献   

18.
基于视觉特征的网页正文提取方法研究   总被引:1,自引:0,他引:1  
利用网页的视觉特征和DOM树的结构特性对网页进行分块,并采用逐层分块逐层删减的方法将与正文无关的噪音块删除,从而得到正文块.对得到的正文块运用VIPS算法得到完整的语义块,最后在语义块的基础上提取正文内容.试验表明,这种方法是切实可行的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号