首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
一种基于节点密度分割和标签传播的Web页面挖掘方法   总被引:1,自引:0,他引:1  
获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块训练集;第三,在扩展的页面块训练集上对SVM分类器进行训练,并用来对页面块进行分类.采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局.我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性.  相似文献   

2.
为进一步提升资源利用率和复用深度,降低工作成本,在简单页面集成的基础上,提出一个基于交互逻辑复用的页面集成框架,解决了传统页面集成在应用集成深度上的局限性问题。针对资源复用在门户中的应用场景,在建立页面交互逻辑关系模型的基础上,通过对页面结构进行分类,按页面之间的逻辑顺序对页面进行自适应定制,使页面间的交互逻辑关系在门户中的应用得到等价的用户体验。将该框架应用到OncePortal门户中间件平台上,通过系统实现验证了框架的可用性和有效性。  相似文献   

3.
连通区的页面分割与分类方法   总被引:2,自引:0,他引:2  
页面分割与分类是文档处理的关键步骤,但目前多数方法对页面的块和倾斜进行了限制,文中提出一种新的基于连通区的页面分割与分类方法,首行采用快速算法抽取页面内的连通区,然后利用改进的PLSA算法分割页面,并根据连通区的分布情况以及块的特征对块进行分类,该方法页面分割与分类紧密结合,充分考虑到块的局部特征,保证块分类的正确性,大大提高了算法效率。  相似文献   

4.
WEB文本自动分类在很多方面都有着重要的应用,如信息检索,新闻分类等。决策树算法是一种简单并且广泛使用的分类方法,具有很多优点如:分类精度高,分类速度快等。主要研究了运用C4.5决策树构建Web页面分类器的基本方法和过程,并提出了一个基于C4.5决策树的Web页面分类器的框架。在此基础上实现了一个运用于网络爬虫的Web页面分类器,实验结果表明该算法是非常有效的。  相似文献   

5.
Struts2是一个可扩展的Java EE Web框架,它继承Struts1和WebWork两个框架的优点,该框架主要负责Web页面端的控制,并将页面层与业务层分离。本文在对Struts2框架研究的基础上,阐述该框架在网站信息内容管理系统开发中的具体应用。  相似文献   

6.
为高效便捷地获取互联网上发布的真实事件信息,提出了一种无监督的互联网事件抽取框架.该框架利用DOM树模型的平行结构特性对表格页面进行事件抽取,并以表格页面抽取的事件作为种子采总结详情页面的对应模式,进一步使用总结的模式在详情页面中抽取.在大量网站页面中应用该框架,并将抽取结果与常用的包装器生成算法进行比较,结果表明了该...  相似文献   

7.
针对现今已有的Web应用框架能够在一定程度上降低业务逻辑处理的难度,但缺乏页面细粒度授权机制的支持,对页面以及页面上操作的访问控制问题仍要编写大量代码处理。设计并实现了一种面向细粒度授权机制的Web页面自动生器(Web pages automatically Generator)WPAG,该生成器采用组件化页面自动生成技术,与基于角色的细粒度访问控制模型相结合,开发者只需对交互模型接口进行简单参数设置,即可实现细粒度访问控制的页面代码自动生成,并提供二次开发能力适应逻辑业务复杂的应用。  相似文献   

8.
本文设计实现了一种Web信息检索系统,面向有特定需求的特殊用户群,采用基于web站点处理的情报采集策略。先对各站点页面随机采样,提取出包含敏感信息页面的web站点,再采集敏感站点中的相关页面生成本地敏感资源库,并对库中的文本页面用改进的TFIDF算法分析处理,以满足用户的查询。该系统能够提高Web页面信息的检索精确度和检测更新率,并可据某一专题方向对Web站点进行简单的自动分类。  相似文献   

9.
在原始分类器聚焦爬虫的基础上设计并实现在线增量学习的自适应聚焦爬虫.该聚焦爬虫包括一个基础网页分类器和一个在线增量学习自适应链接分类器.基础页面分类器根据领域知识对抓取到的页面内容主题相关性进行分类.在线增量学习自适应链接分类器能即时根据爬虫爬得网页和网页链接信息作出分类模型调整以更合理方式计算链接的主题相关度.系统中链接排序模块采用TopicalRank主题相关度计算方法分析链接优先抓取顺序.把基于增量学习的自适应聚焦爬虫应用到农业领域,实验结果和分析证明在线增量学习的自适应聚焦爬虫在农业领域爬行性能比仅基于网页相关性和链接重要度的原始分类器聚焦爬虫具有更好的性能.  相似文献   

10.
针对传统的Web页面保护系统对所有的网页都“一视同仁”,从而影响用户的访问速度,基于网页分类技术提出了一种改进方案,设计了一个新的页面保护系统,使Web服务器在网页防护上具备完善的、适用的安全体系结构,它能够及时发现并恢复被删改的网页,同时通过对网页进行分类,并对不同分类的网页采用相应的监控策略,从而合理利用系统资源,减小安全措施对服务器性能的影响。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号