共查询到19条相似文献,搜索用时 46 毫秒
1.
互联网的Web网页中蕴藏着内容广泛、形式各异的信息资源,通过网页的自动分类可以更好地对其内容进行组织和管理,加快信息检索的速度。在训练网页分类器时,对网页样本集进行有效地筛选有可能改善分类器的性能。文中利用HTML文档的结构特点,基于标签对网页样本集进行筛选,从中去除索引型和表格型网页,实验表明,这种方法有一定的可行性。 相似文献
2.
网络地理信息系统(WebGIS)综合应用网络与网页服务,应用ArcGIS软件相对标准地图完成加工设计,系统需要的地理数据库和地理数据处理过程进行分类概述。超文本标识语言(HTML)第5版加强和提高网络和网页软件应用开发的技术标准,优化网页结构基础元素,也是网页地图设计的基础编程语言。运用HTML和JAVASCRIPT对网页地图模块进行程序设计,并测试网页应用功能和模块操作应用。深入分析网页地图命令工具和应用功能,表明网页服务开发地理信息的可行性。 相似文献
3.
HTML5(超文本标识语言第5版)新类型网页元素提高了应用服务设计水平及扩展性,可以利用HTML5和CSS3(层叠样式表3版)等新元素开发可移动网页地图浏览器的软件外观与框架结构并增强网页地图服务功能,实现应用功能与结构升级的目的。通过模块集成方法完成主体框架结构设计,即三部分主要模块结构:图标命令工具模块、容器结构模块和预置的网页地图模块部分和可缩放触柄与状态栏模块。其最大空间结构是盛装网页内容的容器模块,所装载的网页地图或网页内容同步更新功能以及内置可重复调用坐标输入对话框。经反复测试能完全实现设计功能,截图说明其效果。该地图浏览器既能应用网页地图操作服务又可浏览互联网IP网页。 相似文献
4.
基于HTML标签的信息隐藏模型 总被引:5,自引:0,他引:5
通过仔细分析HTML标签的各种性质,提出了几种新的基于标签的隐藏信息的方法.在此基础上,提出并实现了一个基于HTML标签的信息隐藏模型.该模型具有隐藏容量高、隐蔽性、鲁棒性和安全性较好,并且具有弹性,能自动调节隐藏算法的参数,使得在满足容量的前提下,尽量提高隐蔽性. 相似文献
5.
Michael Williams 《电脑与微电子技术》2012,(14):11-13,31
随着因特网的普及.如何有效地分类HTML文档成为一个热点话题。提出一个基于标签加权的HTML文档分类算法,该算法使用词干分析方法进行数据预处理,同时使用LSI对特征向量降维。然后使用人工神经网络反向传播算法作为主分类器。通过实验表明,对HTML文档的标签加权.有助于提高分类的准确性。 相似文献
6.
7.
层次标签文本分类是自然语言处理领域中一项具有挑战性的任务,每个文档需要被正确分类到对应具有层次结构的多个标签中。然而在标签集中,由于标签包含的语义信息不充分,同时被归类到深层次标签的文档数量过少,深层次标签训练不充分,导致显著的标签训练不平衡问题。基于此,提出了深层次标签辅助分类任务的层次标签文本分类方法(DLAC)。该方法提出了一种深层次标签辅助分类器,在标签语义增强的基础上有效利用文本特征与深层次标签对应的父标签结点(即浅层次标签的丰富特征)来提升深层次标签的分类性能。与11种算法在三个数据集上的对比实验结果表明,模型能够有效提升深层次标签的分类性能,并取得良好效果。 相似文献
8.
9.
10.
基于自动分类的网页机器人 总被引:2,自引:0,他引:2
随着互联网的普及和发展,网络上的信息资源越来越丰富,它需要高效智能的工具来完成信息资源的采集。WWW上的网页抓取器,又称Robot讨论了抓取器与文本自动分类器相结合,对用户要求领域网页的收集。抓取器找到相关链接进行抓取,而避免对非相关链接的抓取。这样可以节省硬件、网络资源和提高抓取器的效率。 相似文献
11.
目前W3C推荐的网页格式标准是XML1.0[1],但要求为数众多的已有站点直接采用XML还为时过早。因此,用XML对HTML进行扩展,得到了XHTML。但多数Web开发人员仍习惯用HTML语法写XHTML网页,导致代码不被识别或显示效果不佳。通过对比研究XHTML与HTML的细致区别,阐明了XHTML文档的结构特征及独特的语法要求,目的在于帮助Web开发人员适应这种技术的变化,顺利地完成Web开发任务。 相似文献
12.
针对基于链接关系的网页分类算法中存在噪声邻域网页干扰分类结果的问题,提出利用网页间的相似度进行优化的方法。为不同关系的满足相似度阈值的邻域网页分别设置不同的权值,同时结合支持向量机对网页的分类结果,计算得到网页的类别。实验表明,本文算法准确率、召回率和F1值均有所提高。
相似文献
13.
基于标记树表示方法的页面结构分析 总被引:16,自引:1,他引:15
页面内容结构分析在WEB信息检索、分类和抽取等方面有重要作用。文章从页面布局和内容之间关系出发,根据WEB文件中标记之间关系,用标记树表示页面文件,采用自底向上的算法,抽取出具有不同语义的页面内容,提出用树形层次结构表示它们之间关系的方法。在此基础上,通过模仿人们浏览页面的习惯,成功地将其应用于页面的计算机屏读系统,实现自动朗读页面主题的功能。 相似文献
14.
文章从WEB文档的特点出发,指出有必要对 WEB文档进行模糊特征向量抽取,并给出了对向量进行模糊化的隶属函数。以此为基础实现了将BIRCH聚类算法应用到文本分类,取得了很好效果。 相似文献
15.
16.
用HTML编写工具和Domino Designer结合可以便捷地设计出既美观、又有价值的商用Web站点。介绍了Lotus公司提供的组件DDC与DIS。并用一个实例来说明如何利用它来结合Web站点编写工具建立Domino Web站点。 相似文献
17.
18.