首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
郭晓  蒋宗礼 《现代电子技术》2010,33(22):54-56,63
提出一种通过综合考虑网页的HTML结构信息以及网页间的链接关系,修改网页文本在向量空间模型表示中的权值,对网页进行分类的方法。考虑到页面里处在不同HTML标记下的内容具有不同的语义含义,某些特殊标记下的内容具有较重要的意义,对网页的分类起较大的作用,因此对不同标记下的内容赋以不同的权值,可以提高分类效果。考虑到页面正文中链接指向的页面内容与原网页相关度较高,通过综合考虑这些页面的内容,可以有效加强类别关键词的权值,减少噪声,提高分类效果。经过实验证明这一方法提高了分类结果的F1值。  相似文献   

2.
为了提高网页文本分类的准确性.克服传统的文本分类算法易受网页中虚假、错误信息的影响.提出一种基于链接信息的网页分类算法.通过对K近邻方法的改进.利用当前网页与其父网页的链接信息对网页实沲分类,用空间向量表示待分类网页的父链接信息。在训练集合中找到K篇与该网页链接信息向量最相似的网页,计算该网页所属的类别,通过实验与传统文本分类算法进行了对比,验证了该方法的有效性.  相似文献   

3.
网页的内容信息对于提高聚类质量来说并不完全够用,针对网络社区网页之间存在的天然链接关系,本文提出了一种挖掘用户标签的增强型社区网页聚类算法.本文采用多种距离度量方法,并挖掘网页链接关系,然后将网页的内容信息相似度和链接关系结合起来进行聚类.实验表明,提出的算法是有效的.  相似文献   

4.
鲁明羽  沈抖  郭崇慧  陆玉昌 《电子学报》2006,34(8):1475-1480
网页分类是网络挖掘的重要研究内容之一.与文本分类相比,网页分类面临的困难更多.去除网页中的噪声信息可以提高网页分类的精度,基于摘要的网页分类方法利用了这一思想.本文对三种传统的网页摘要方法进行了分析和改进,提出了Content Body摘要方法以及基于四种摘要方法的混合摘要方法;在此基础上,进行了大量基于摘要的网页分类实验.实验结果表明,所有的摘要方法都可以提高分类效果,其中混和摘要方法效果最好,可以使分类的F1值得到12.9%的改进.  相似文献   

5.
详细介绍了一种快速的中文网页分类系统的设计与实现,通过解析出网页的主要内容、网页的Title、网页的Meta标签内容和指向该网页的父网页上的锚文本,并根据这些信息用VSM法将网页分类。实验结果表明,本文的方法可以使中文网页分类性能速度得到大的提高且能保持较高的准确率。  相似文献   

6.
超链接是网页间联系的桥梁,是网页的魅力所在。超链接按链接范围分有外部链接和内部链接;按链接路径来说,一般包含文档链接、书签链接、电子邮件链接、空链接、脚本链接。网页制作工具Dreamwraver提供了非常简便的创建超链接的方法,用户可将文字、图片、Flash等网页元素设置为链接对象,进而美化链接,让网页更丰富多彩。  相似文献   

7.
针对当前常用爬虫爬行策略的不足,提出结合维基百科和网页相似度分析的主题爬行策略。利用维基百科分类树的结构对主题进行描述;下载网页后对网页进行相应处理,结合文本相关性和Web链接分析来计算候选链接的优先级。实验表明,该爬虫搜索结果与主题相关度明显高于传统爬虫,爬虫爬全率有一定提高。该主题爬虫主题描述方法和爬行策略有一定的推广价值,尤其在转基因生物领域中,该爬虫中有一定的创新性。  相似文献   

8.
增强电视是把传统电视观看请求、观众与网页交互相融合、相结合的一种崭新范例 ,它是新型电视体验的一个整体部分。本文介绍增强电视技术基础概念和它带来的好处 ,研究用于创造和发送优化电视内容的机制 ,学习符合国际标准的机顶盒创建内容的方法。1 基本原理增强电视环境的内容相对容易创建 ,因为它是基于现有的网页标准HTML和JavaScript。这种增强的内容使广播商和网络运营商为用户提供引人入胜的信息 ,补充了一般电视的收看。与互联网网站之间简单的链接方式不同 ,一个增强的电视节目可实现与相关信息的交互 ,即把电视图…  相似文献   

9.
一种评价搜索引擎信息覆盖率的模型及其验证   总被引:4,自引:0,他引:4  
孟涛  闫宏飞  李晓明 《电子学报》2003,31(8):1168-1172
搜索引擎的网页搜集子系统通常以WWW的网页构成的有向图结构为依据,循着网页间的链接进行搜集从而扩大信息覆盖面.本文针对这种信息覆盖能力,建立量化模型从多个角度考察搜集系统对WWW信息资源的覆盖程度.文章首先分析了网页搜集不完全性的若干因素,在指出信息覆盖率的研究意义后提出了三类重要的信息覆盖率概念,然后围绕其中的数量和质量覆盖率展开研究工作.在建立"采样-权值计算-验证"的覆盖率评测模型之后,以北大"燕穹"网页信息博物馆为考察对象并获得其网页数据,用不同的方式对中国Web进行采样;然后分别采用PageRank和HITS两种网页权值算法算出其中的重要网页作为样本,从量和质的角度考察"燕穹"系统的信息覆盖率,得到合理的数量和质量覆盖率值,从而验证了"燕穹"系统信息覆盖率结论的合理性和该信息覆盖率评测模型的可靠性.  相似文献   

10.
网页设计中制定计划和页面结构、建立链接、处理图文、声音信息的原则。  相似文献   

11.
基于BP神经网络的Web页面分类算法   总被引:3,自引:0,他引:3  
提出了一种基于BP神经网络的Web页面分类算法。在搜索引擎的结构中提取页面标题、内容标题和内容摘要来表示页面,采用向量空间模型计算分类组合与页面组合的相关性对页面进行矢量化,将训练后的BP神经网络用于对Web页面进行分类。实验结果表明,该分类算法有一定的实用价值。  相似文献   

12.
基于图的Co-Training网页分类   总被引:1,自引:0,他引:1  
侯翠琴  焦李成 《电子学报》2009,37(10):2173-2180
 本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算法:基于图的Co-training网页分类算法(Graph based Co-training algorithm for web page classification),简称GCo-training,并从理论上证明了算法的有效性.GCo-training在Co-training算法框架下,迭代地学习一个基于由超链接信息构造的图的半监督分类器和一个基于文本特征的Bayes 分类器.基于图的半监督分类器只利用少量的标记数据,通过挖掘数据间大量的关系信息就可达到比较高的预测精度,可为Bayes分类器提供大量的标记信息;反过来学习大量标记信息后的Bayes分类器也可为基于图的分类器提供有效信息.迭代过程中,二者互相帮助,不断提高各自的性能,而后Bayes分类器可以用来预测大量未见数据的类别.在Web→KB数据集上的实验结果表明,与利用文本特征和锚文本特征的Co-training算法和基于EM的Bayes算法相比,GCo-training算法性能优越.  相似文献   

13.
基于改进HTML-Tree的中文网页特征向量提取方法   总被引:1,自引:0,他引:1  
中文网页特征向量的提取是提高中文网页分类准确度和召回度的关键.经过研究HTML网页的结构特点,提出一种基于改进的HTML-Tree及网页元素权重的中文网页文本预处理方法,并在此基础上进行网页文本特征向量的提取.该方法充分利用不同类别网页的特点,考虑了网页内各种元素权重的贡献.经过实验验证,该方法提高了网页特征向量提取的效率,有效提高了中文网页分类的准确度和召回度.  相似文献   

14.
孔英会  高育栋 《电视技术》2015,39(20):54-58
构建基于Watir的物联网Web事件处理系统框架。首先搭建Zigbee无线传感器网络,把终端节点的属性描述到网页并进行服务器部署,其中用微数据来描述每一个传感器的静态属性,用Js文件描述动态属性,然后采用Web自动化测试框架Watir,通过Css Selector定位技术实现对动态页面数据的实时采集,将实时采集的数据通过预处理后添加事件处理,提取关键和有效的事件数据并保存。同时利用Watir对多个事件条件下不同平台的物联网网页进行测试,结果表明基于Watir的物联网Web事件处理方法能准确和高效地获取事件数据。  相似文献   

15.
Web信息抽取技术一直是信息技术领域的研究热点。而且,近年来,DIV+CSS的网页布局方法开始普遍应用于网页设计中。基于此,提出了一种较为简单和实用的基于正文特征和网页结构的新闻网页正文抽取方法。首先识别和提取网页正文内容块,然后利用正则表达式滤除内容块中的HTML标记并提取网页正文。实验结果表明,该方法对正文抽取具有较高的通用性与准确率。  相似文献   

16.
基于网络设备的网页过滤的设计   总被引:1,自引:1,他引:0  
为实现统一高效的网页内容过滤,提出了一种在网络设备上对网页进行过滤的方法。采用URL(Uniform Resource Location)过滤与内容过滤相结合的方式;通过设置黑白名单和老化机制,来改进URL过滤;考虑网页的结构化特性,通过改进特征的权值的计算公式,并采用K近邻(KNN)分类算法,改进内容过滤。实例的分析表明:该方法能够在满足用户延迟要求的情况下,对网页进行比较精确的过滤。  相似文献   

17.
Web网页的访问控制是保证网页信息安全性的重要途径。通过对ASP(Active Server Pages)页面结构的分析,研究了ASP页面中资源的分类并给出了各类资源的表示格式,设计了面向ASP页面资源的细粒度授权策略,基于ASP的页面结构提出了一种细粒度访问控制方法。实验结果表明该方法能有效的控制用户对ASP页面资源的访问,为授权提供方便,具有较好的通用性。  相似文献   

18.
19.
李慧  施荣华 《信息技术》2007,31(12):73-76
网页过滤系统旨在帮助用户屏蔽不健康的网页。提出了基于混合模式的网页过滤模型,将传统的基于网址过滤和敏感词过滤的方法与基于文本分类的过滤方法结合起来。重点讨论了特征量选取、网页结构化信息利用等方面的改进措施。实验表明这种模型在保持易于实现的特点的同时,在速度和准确度方面都有不同程度的提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号