首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
侯小静  王黎明 《微机发展》2005,15(3):142-144
互联网的Web网页中蕴藏着内容广泛、形式各异的信息资源,通过网页的自动分类可以更好地对其内容进行组织和管理,加快信息检索的速度。在训练网页分类器时,对网页样本集进行有效地筛选有可能改善分类器的性能。文中利用HTML文档的结构特点,基于标签对网页样本集进行筛选,从中去除索引型和表格型网页,实验表明,这种方法有一定的可行性。  相似文献   

2.
姜福成 《软件》2012,(7):22-26
网络地理信息系统(WebGIS)综合应用网络与网页服务,应用ArcGIS软件相对标准地图完成加工设计,系统需要的地理数据库和地理数据处理过程进行分类概述。超文本标识语言(HTML)第5版加强和提高网络和网页软件应用开发的技术标准,优化网页结构基础元素,也是网页地图设计的基础编程语言。运用HTML和JAVASCRIPT对网页地图模块进行程序设计,并测试网页应用功能和模块操作应用。深入分析网页地图命令工具和应用功能,表明网页服务开发地理信息的可行性。  相似文献   

3.
姜福成 《计算机应用》2014,(Z2):364-367
HTML5(超文本标识语言第5版)新类型网页元素提高了应用服务设计水平及扩展性,可以利用HTML5和CSS3(层叠样式表3版)等新元素开发可移动网页地图浏览器的软件外观与框架结构并增强网页地图服务功能,实现应用功能与结构升级的目的。通过模块集成方法完成主体框架结构设计,即三部分主要模块结构:图标命令工具模块、容器结构模块和预置的网页地图模块部分和可缩放触柄与状态栏模块。其最大空间结构是盛装网页内容的容器模块,所装载的网页地图或网页内容同步更新功能以及内置可重复调用坐标输入对话框。经反复测试能完全实现设计功能,截图说明其效果。该地图浏览器既能应用网页地图操作服务又可浏览互联网IP网页。  相似文献   

4.
基于HTML标签的信息隐藏模型   总被引:5,自引:0,他引:5  
通过仔细分析HTML标签的各种性质,提出了几种新的基于标签的隐藏信息的方法.在此基础上,提出并实现了一个基于HTML标签的信息隐藏模型.该模型具有隐藏容量高、隐蔽性、鲁棒性和安全性较好,并且具有弹性,能自动调节隐藏算法的参数,使得在满足容量的前提下,尽量提高隐蔽性.  相似文献   

5.
随着因特网的普及.如何有效地分类HTML文档成为一个热点话题。提出一个基于标签加权的HTML文档分类算法,该算法使用词干分析方法进行数据预处理,同时使用LSI对特征向量降维。然后使用人工神经网络反向传播算法作为主分类器。通过实验表明,对HTML文档的标签加权.有助于提高分类的准确性。  相似文献   

6.
分析HTML文档的结构和特点,对当前基于超文本实现信息隐藏所采用的技术进行了分析,提出一种对超文本文档修改较少且不影响页面显示效果,同时可以实现较大信息量隐藏的新方法.经试验证明,该方法具有较好的不可见性和较高的安全性.  相似文献   

7.
层次标签文本分类是自然语言处理领域中一项具有挑战性的任务,每个文档需要被正确分类到对应具有层次结构的多个标签中。然而在标签集中,由于标签包含的语义信息不充分,同时被归类到深层次标签的文档数量过少,深层次标签训练不充分,导致显著的标签训练不平衡问题。基于此,提出了深层次标签辅助分类任务的层次标签文本分类方法(DLAC)。该方法提出了一种深层次标签辅助分类器,在标签语义增强的基础上有效利用文本特征与深层次标签对应的父标签结点(即浅层次标签的丰富特征)来提升深层次标签的分类性能。与11种算法在三个数据集上的对比实验结果表明,模型能够有效提升深层次标签的分类性能,并取得良好效果。  相似文献   

8.
9.
主题网页标签树邻接矩阵识别算法研究   总被引:1,自引:0,他引:1  
随着Web编程技术的发展,同类主题网页可以采用不同的Html标签展示出视觉特征相同的网页信息,导致需要匹配Html标签名称的现有网页结构相似性算法无法准确识别同类主题网页。因此,提出一种主题网页标签树邻接矩阵识别算法,通过构造主题网页标签树邻接矩阵,并利用邻接矩阵的结构特征来计算网页之间的结构相似度以实现同类主题网页识别。实验结果表明,该算法的最佳性能达到查全率100%、查准率96%,平均性能达到查全率97%、查准率89%。  相似文献   

10.
基于自动分类的网页机器人   总被引:2,自引:0,他引:2  
康平波  王文杰 《计算机工程》2003,29(21):123-124,127
随着互联网的普及和发展,网络上的信息资源越来越丰富,它需要高效智能的工具来完成信息资源的采集。WWW上的网页抓取器,又称Robot讨论了抓取器与文本自动分类器相结合,对用户要求领域网页的收集。抓取器找到相关链接进行抓取,而避免对非相关链接的抓取。这样可以节省硬件、网络资源和提高抓取器的效率。  相似文献   

11.
目前W3C推荐的网页格式标准是XML1.0[1],但要求为数众多的已有站点直接采用XML还为时过早。因此,用XML对HTML进行扩展,得到了XHTML。但多数Web开发人员仍习惯用HTML语法写XHTML网页,导致代码不被识别或显示效果不佳。通过对比研究XHTML与HTML的细致区别,阐明了XHTML文档的结构特征及独特的语法要求,目的在于帮助Web开发人员适应这种技术的变化,顺利地完成Web开发任务。  相似文献   

12.
针对基于链接关系的网页分类算法中存在噪声邻域网页干扰分类结果的问题,提出利用网页间的相似度进行优化的方法。为不同关系的满足相似度阈值的邻域网页分别设置不同的权值,同时结合支持向量机对网页的分类结果,计算得到网页的类别。实验表明,本文算法准确率、召回率和F1值均有所提高。   相似文献   

13.
基于标记树表示方法的页面结构分析   总被引:16,自引:1,他引:15  
页面内容结构分析在WEB信息检索、分类和抽取等方面有重要作用。文章从页面布局和内容之间关系出发,根据WEB文件中标记之间关系,用标记树表示页面文件,采用自底向上的算法,抽取出具有不同语义的页面内容,提出用树形层次结构表示它们之间关系的方法。在此基础上,通过模仿人们浏览页面的习惯,成功地将其应用于页面的计算机屏读系统,实现自动朗读页面主题的功能。  相似文献   

14.
文章从WEB文档的特点出发,指出有必要对 WEB文档进行模糊特征向量抽取,并给出了对向量进行模糊化的隶属函数。以此为基础实现了将BIRCH聚类算法应用到文本分类,取得了很好效果。  相似文献   

15.
基于RSOM-Bayes的网页分类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对向量空间模型的网页分类计算复杂度高、不适用于大规模场景问题,该文采用RSOM和BAYES相结合的方法实现网页分类,利用RSOM 神经网络树实现网页特征词的自动索引,利用Bayes实现网页的自动分类。结果证明其在特征空间维数、检索效率、样本容量及检索精度方面都具有良好的性能。  相似文献   

16.
袁亦韧 《计算机工程》2001,27(10):177-179
用HTML编写工具和Domino Designer结合可以便捷地设计出既美观、又有价值的商用Web站点。介绍了Lotus公司提供的组件DDC与DIS。并用一个实例来说明如何利用它来结合Web站点编写工具建立Domino Web站点。  相似文献   

17.
基于HTML标记和长句提取的网页去重算法   总被引:1,自引:0,他引:1  
提出了一种高效的算法来去除互联网上的重复网页。该算法利用HTML标记过滤网页中的干扰信息,然后提取出能表征一张网页的长句作为网页的特征。通过分析两张网页所共享长句的数量,来判断两张网页是否重复。该算法还利用红黑树对网页的长句进行索引,从而把网页去重过程转换为一个搜索长句的过程,减小了算法的时间复杂度。实验结果表明该算法能够高效,准确地去除重复的网页。  相似文献   

18.
现在的互联网中存在网页重复的问题,这些问题将会使数据挖掘,搜索的复杂度加大。现有技术一些不足之处,针对互联网中的重复网页采用基于Bloom Filter的网页去重算法。使用了现有的网页去杂算法,对网页进行预处理,同时利用Bloom Filter结构大大降低了网页去重算法的时间复杂度和空间复杂度。从网页中提炼出表示网页特征的一些长句,从而把网页去重过程转换为一个搜索长句的过程,使用Bloom Filter减小了算法的时间复杂度。  相似文献   

19.
Web分类是在分析了网页的内容后,按照一定的规则将它分到一个或者多个合适的类别中去.支持向量机是在统计学习理论基础上发展起来的一种新的非常有效的机器学习方法.由于其出色的学习性能,该技术已成为分类领域新的研究热点.将支持向量机的理论应用到Web分类中,首先对网页进行了预处理,然后对网页文本进行特征提取和向量表示,最后将二叉树多分类支持向量机应用到Web分类中.通过实验对算法进行了验证,结果表明取得了良好的分类效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号