首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
基于Web标准的页面分块算法研究   总被引:1,自引:0,他引:1  
页面分块在文档分类,信息抽取,主题信息采集,以及搜索引擎优化等方面具有重要的作用.首先提出了一种基于Web标准的页面分块算法,通过对网页进行解析和布局分析,利用Web标准对网页进行分块.实验证明该算法在对遵循Web标准的网页进行分块时,在分块准确性和复杂页面适应性方面得到了提高.  相似文献   

2.
随着通信技术的发展,人们迫切希望能方便地利用手持移动设备访问Web网站,由于移动设备的小屏幕和低带宽的缺点,使得这一难题一直没有得到很好的解决.本文提出一种适合于移动设备小屏幕的Web页面分块算法,算法利用Web网页上对象的位置信息对信息块进行逐层聚类,生成一棵网页分块树,再根据移动设备屏幕的特点把网页分块树转换成适合小屏幕浏览的页面.  相似文献   

3.
网页分块方法使得Web信息抽取的单位由页面缩小为块.文中研究了网页分块的主要方法与基于学习的分块重要性模型,对Xpath的Web抽取方法进行分析.结合两者的优势提出一种基于分块重要性模型与Xpath结合的Web信息抽取方法,探讨了其设计过程,并给出形式化描述与实验结果,结果表明该方法适合于抽取多记录型的网页.  相似文献   

4.
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。  相似文献   

5.
基于分块的网页正文信息提取算法研究   总被引:6,自引:0,他引:6  
提出并实现了一种从Web页面获取正文的方法。该方法包括2个步骤:网页分块和对内容块的取舍。网页分块采用了一种自底向上分析标签树的自动分块算法,该算法比起以往方法更准确,并且对于复杂结构的页面分块效果更好。通过引入块的重要度和块特征分析每个内容块,来辨别出含有正文的内容块。实验结果表明本方法切实可行并且具有较高的准确性。  相似文献   

6.
Web页面的主要信息被广告、超链等无用信息包围,是Web信息自动处理所要解决的难题.传统的信息提取方法是从内容着手,或者从结构出发,很少将两者相结合,因此提出了一种Web主要信息提取方法.该方法可以从Web页面的结构和内容两方面出发,准确地将Web内容进行分块,并对分块内容进行分析处理,从而提取出Web页面的主要信息.  相似文献   

7.
改进的PageRank在Web信息搜集中的应用   总被引:7,自引:0,他引:7  
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主题分块的PageRank算法·该算法按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并能根据已访问的链接对块进行相关性反馈·实验表明,所提出的算法能较好地改进搜索结果的精确度·  相似文献   

8.
基于移动终端的高效显示策略研究*   总被引:1,自引:1,他引:0  
首先介绍了分块重要度模型及网页分块方式,通过分析网页结构的页面空间特征和内容特征,提出了一种改进的网页分块及分块模型重要度计算和标注的方法,并给出了基于此方案的终端显示策略.该方案兼顾了页面的总体预览和块的详细显示,较好地解决了移动终端上浏览信息和使用无线搜索等一系列服务问题.  相似文献   

9.
基于FFT的网页正文提取算法研究与实现   总被引:2,自引:2,他引:0       下载免费PDF全文
主要研究“正文式”网页的有效信息提取算法。该种底层网页真正含有Web页面所表达的主题信息,通常包含一大段的正文信息,正文信息的前后是一些格式信息(例如导航信息、交互信息、JavaScript脚本等)。分析了此种网页的页面结构特征,将问题转化为——给定一个底层网页的HTML源文件,求解最佳的正文区间;从而提出了一种基于快速傅立叶变换的网页正文内容提取算法。采用窗口分段的方法,利用统计学原理和FFT,得出每个可能区间的权值,从而求解出最佳正文区间。实验结果表明,此种方法能比较准确的对“正文式”网页的有效信息进行提取。  相似文献   

10.
Web页面主题相关性排序算法的研究   总被引:3,自引:0,他引:3       下载免费PDF全文
分析了Web页面主题的分布的特点,对经典的页面排序算法进行了探讨,提出了一种基于内容和超链接分析并结合用户点击行为的相关性排序算法。该算法考虑了超文本标记、锚文本、文本内容等对相关性的影响,引入动态比较矩阵来计算相应的权重系数,能够客观分析网页所包含的主题信息,使检索结果排序更合理。实验表明,该算法能有效提高查准率,较好地解决了主题的漂移现象,且具有较好的性能。  相似文献   

11.
基于模块的网页设计技术   总被引:1,自引:0,他引:1  
在信息资源迅速增长的今天,如何Web大量的信息进行高效地组织和维护,以及提高Web上搜索和浏览信息的速度和性能是我们面向对的一个重要问题,从模块化的程度设计思想中得到启发,提出了一种模块化网页设计技术,该技术在网页快速制作,模块重用,数据一致性维护,快速浏览以及信息检索等方面具有一定的参考价值。  相似文献   

12.
基于嵌套EMD的钓鱼网页检测算法   总被引:1,自引:0,他引:1  
网络钓鱼(Web phishing)以相似网站欺诈用户、骗取个人机密信息,已成为电子金融活动的重大威胁.对此,文中提出了一个钓鱼网页检测架构.在具体检测机制方面,提出了一个基于嵌套EMD(Nested Earth Mover's Distance)的网页相似度判定算法,对Web图像进行分割,抽取子图特征并构建网页的ARG (Attributed Relational Graph),在计算不同ARG属性距离的基础上,采用嵌套EMD方法计算网页的相似度,实现了对钓鱼网站的检测.实验结果表明,与国际现有研究成果相比,该算法具有较高的精度和较强的适应性.  相似文献   

13.
李文昊  彭红超  童名文  石俊杰 《计算机科学》2015,42(11):284-287, 309
网页分割技术是实现网页自适应呈现的关键。针对经典的基于视觉的网页分割算法VIPS(Vision-based Page Segmentation Algorithm)分割过碎和半自动的问题,基于图最优划分思想提出了一种新颖的基于视觉的网页最优分割算法VWOS(Vision-based Web Optimal Segmentation)。考虑到视觉特征和网页结构,将网页构造为加权无向连通图,网页分割转化为图的最优划分,基于Kruskal算法并结合网页分割的过程,设计网页分割算法VWOS。实验证明,与VIPS相比,采用VWOS算法分割网页的语义完整性更好,且不需要人工参与。  相似文献   

14.
研究人员对网页分类进行大量富有成效的研究工作,截至目前与网页分类相关的研究主要集中于如何选择合适的分类特征、如何设计高效的分类算法这两个方面。从上述两个角度对当前网页分类技术的研究现状进行归纳和综述,以便后续研究人员能更好、更准确地把握网页分类的研究动态。  相似文献   

15.
提出并实现了一种N-连字算法,用该算法可以较好地实现网页的相似度比较,用本算法来实现网页的"去重",效果尤为明显.  相似文献   

16.
网页病毒防御系统的设计*   总被引:1,自引:0,他引:1  
随着网络的发展,作为用户与网络交互的一个平台,IE的应用已经非常广泛。而基于IE传播的网页病毒已经成为影响网络安全的主要问题之一。首先介绍了基于IE传播的网页病毒的特点,并与其他木马病毒的传播模式进行了比较;然后提出了一种针对网页病毒的防御系统设计,并将免疫防护的思想应用到病毒检测系统中,该防御系统的设计对未来的网页病毒防御具有一定的参考价值;最后对将来需要进一步研究的工作提出了一些建议和设想。  相似文献   

17.
用页组拓扑平均距离改善页面聚类算法   总被引:1,自引:0,他引:1  
提出一种支持站点结构优化的页面聚类改进算法,通过引入图论中的拓扑平均距离,量化评估与挖掘站点结构中访问效率较低的内容文档集合为结构优化的兴趣页组,挖掘的页组具有更高的兴趣性,并将兴趣页组挖掘算法融入到拓扑优化算法中.实验结果表明改进算法能更好地优化站点结构,较一般算法收敛性好.  相似文献   

18.
This paper presents a Page rank-based prefetching technique for accesses to Web page clusters. The approach uses the link structure of a requested page to determine the “most important” linked pages and to identify the page(s) to be prefetched. The underlying premise of our approach is that in the case of cluster accesses, the next pages requested by users of the Web server are typically based on the current and previous pages requested. Furthermore, if the requested pages have a lot of links to some “important” page, that page has a higher probability of being the next one requested. An experimental evaluation of the prefetching mechanism is presented using real server logs. The results show that the Page rank-based scheme does better than random prefetching for clustered accesses, with hit rates of 90% in some cases.  相似文献   

19.
刘云峰 《计算机工程》2010,36(12):83-84
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径聚类的文本信息抽取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。  相似文献   

20.
万维网Web是Internet上广泛使用的一种服务,它为因特网用户提供了丰富多样的信息资源。随着Web的发展,初期的静态页面已不能满足用户的需求,活动和动态页面成为Web中不可缺少的内容。本文探讨了在Web应用开发中采用服务器端比较流行的ASP来实现动态页面的方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号