首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
随着电子商务和在线交易的增加,网络钓鱼已经成为最严重的一种网络犯罪形式。文章从网页中包含的超链接这一角度出发,给出了网页的身份特征,并结合网页ICP号,版权所有者以及网页行为等对网页特征进行了提取,得到了钓鱼网页的特征向量,为及时准确检测钓鱼网页提供了依据。  相似文献   

2.
纯Java网页的编程技巧   总被引:1,自引:0,他引:1  
本文以网上购物网页为例介绍了如何用Java实现网页元素的定位和超链接及数据库的访问等编程技巧。  相似文献   

3.
超链接是超文本的一个重要特征。网页超级链接类型的不同决定了所选择的路径不同,链接路径的选择在网站设计和站点维护中具有重要的作用。本文着重介绍网页超级链接的几种常见的类型以及每一种类型应该使用哪种路径,为网页制作、网站维护提供参考。  相似文献   

4.
李燕 《福建电脑》2004,(1):42-42,48
本文主要就网页设计中的几个问题进行了探讨,包括网页所采取的形式问题、网页的内容选择问题、网页的风格问题以及网页的超链接运用问题。  相似文献   

5.
在分析网站网页关键词自动超链接应用的基础上,提出了使用ASP.NET技术实现关键词超链接的解决方案,为使程序具有通用性,所有实现都通过类来完成。详细介绍了实现步骤和设计ASP.NET程序,实现了网页关键词自动超链接。  相似文献   

6.
随着Internet在国内的风靡,越来越多的电脑网络用户已开始用HTML(超文本标记语言)制作自己的网页,以便使自己的信息奔驰在信息高速公路上。但在网页的制作过程中经常需要显示广告、标语、提示等信息量较少的文字,而将其放在页面中显示不仅会破坏页面的整体效果,而且在制作上也比较繁  相似文献   

7.
基于潜在链接分析的FTSVM网页分类   总被引:1,自引:0,他引:1  
王晔  黄上腾 《计算机工程》2006,32(10):12-14
回顾,模糊直推式模糊支持向量机(FTSVM)的不足,并提出了一种基于潜在链接分析并结合网页权重信息的FTSVM网页分类方法。新方法提高了分析网页超链接信息的效率,避免了经验参数的影响,充分考虑了网页权重的贡献。试验表明,提出的方法在网页基准测试数据上取得了优于FTSVM的分类效果。  相似文献   

8.
超链接是超文本的一个重要特征。网页超级链接类型的不同决定了所选择的路径不同,链接路径的选择在网站设计和站点维护中具有重要的作用。本文着重介绍网页超级链接的几种常见的类型以及每一种类型应该使用哪种路径,为网页制作、网站维护提供参考。  相似文献   

9.
基于超链接和标记文本的信息检索算法   总被引:6,自引:0,他引:6  
在HITS超链接主题查找算法的基础上提出了一种检索改进算法,该算法首先通过网页之间的链接关系计算出每一网页的出度值和入度值,并将查询条件与超链接上的标记文本或网页全文内容进行相似度匹配。得出每一网页的权值,综合权值与出度或入度值,将检索结果进行排序输出。实验结果表明,与HITS、TF*IDF算法相比,该信息检索方法在相同查全率的条件下具有更好的查准率。  相似文献   

10.
网页文本信息提取及结果评价   总被引:1,自引:0,他引:1  
由于HTML本身在自描述上的缺陷,网页信息中不可避免地存在大量的噪音信息。文章在分析了网页的HTML文档结构和噪音类型的基础上,给出了网页文本信息提取、对噪声抑制的方法,以及实现的过程。并尝试性地使用信噪比的概念作为评判文本信息提取去噪结果优劣的依据,实验结果显示,抽取去噪效果明显;同时实验表明,信噪比可以作为网页信息去噪结果优劣的评判标准。  相似文献   

11.
根据网页文本信息的存储特点,提出一种网页文本信息抽取策略,有效地实现了对文本丰富型网页中主要文本信息的抽取工作.该抽取方法具有较强的空阃适应性和时间适应性.  相似文献   

12.
目前,绝大多数网页都是用超文本标记语言HTML描述,并通过浏览器进行浏览,这是一种基于论文阅读的网页浏览方式。该文提出了一种基于幻灯片播放方式的网页标记语言HPML及其浏览器,它能够实现将网页中的文字图像内容以幻灯片的形式自动播放,并通过文本-语音转换器(TextToSpeechEngine)将幻灯片中某些文本形式的内容转换成语音形式,同时能够实现幻灯片图像和语音的同步播放。这种方式极大地放松了对显示器屏幕的尺寸和网络带宽的要求,因此特别适合于移动环境下的网页浏览。  相似文献   

13.
信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法,具有简单,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值。  相似文献   

14.
基于统计的网页正文信息抽取方法的研究   总被引:47,自引:6,他引:47  
为了把自然语言处理技术有效的运用到网页文档中,本文提出了一种依靠统计信息,从中文新闻类网页中抽取正文内容的方法。该方法先根据网页中的HTML 标记把网页表示成一棵树,然后利用树中每个结点包含的中文字符数从中选择包含正文信息的结点。该方法克服了传统的网页内容抽取方法需要针对不同的数据源构造不同的包装器的缺点,具有简单、准确的特点,试验表明该方法的抽取准确率可以达到95%以上。采用该方法实现的网页文本抽取工具目前为一个面向旅游领域的问答系统提供语料支持,很好的满足了问答系统的需求。  相似文献   

15.
基于页面结构的信息提取是Web数据挖掘中三大研究领域之一。该研究的关键技术是如何识别Web页面的组织形式,从中挖掘所需要的页面信息。文中基于页面的语义分块(Block)给出一个新的块主题提取算法,与传统的以页面为单位的Web信息提取相比,更符合实际情况,粒度优势明显。该算法针对页面中不同分块的重要性给予不同的权值,依据权值大小取舍页面信息提供给用户。针对该算法进行了模拟实验,从实验结果可以看出该算法具有一定的实用性和有效性。  相似文献   

16.
谢方立  周国民  王健 《计算机科学》2016,43(Z11):31-34, 49
提出一种基于DOM节点类型标注的网页主题信息抽取的方法。首先依据网页中噪声存在的形式,将DOM节点划分为4种类型:文本型、图片型、链接型和可忽略型,并给出节点内聚度的计算方法。通过给DOM节点添加类型和内聚度两个属性,在正文提取阶段选取内聚度大于阈值的文本型节点,最后整合成网页主题信息。将该方法与另外3款网页正文提取工具做对比实验,结果显示 该方法 在F1指标上为95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%。  相似文献   

17.
文章提出一种基于静态网页特征的文本信息抽取方法。该方法首先根据静态网页的URL特征判断其是否是静态网页,然后根据静态网页的结构特征和内容特征对标题和正文文本内容进行抽取.再按照统一规范将结果顺序存储便于再处理。实验结果表明,网页内容信息抽取的查全率和查准率分别为96.2%和95.9%,该方法计算量小、抽取速度快、正确率高,可实际应用于大规模的网页内容安全分析。  相似文献   

18.
www上的信息极大丰富,搜索引擎存在精确度低的问题。为准确地从搜索到的网页中提取有用信息,发展一个自动的过滤器已成为当务之急。本文提出的基于自然语言处理的网页过滤方法,从语法、语义和语境三个方面上分析网页的自然语言。实验表明,该方法在一定程度上提高了搜索引擎的精确度。  相似文献   

19.
网页标题的正确抽取,在Web文本信息抽取领域有着重大意义。本文提出一种网页标题实时抽取方法。首先通过对目录型网页进行实时解析,接着采用基于超链接遍历的方法,并利用标题与发布时间的对应关系,最终获取对应目录型网页的URL及锚文本。若获得锚文本不是网页正文的标题,则获取主题型网页的HTML源码并构建网页DOM树。在此基础上,结合网页标题的视觉特点,深度优先遍历DOM树,正确提取网页正文标题。实验结果表明,本文提出的Web网页标题实时抽取方法,具有实现简单,准确率高等优点。   相似文献   

20.
针对Web中数据密集型的动态页面,文本数据少,网页结构化程度高的特点,介绍了一种基于HTML结构的web信息提取方法。该方法先将去噪处理后的Web页面进行解析,然后根据树编辑距离计算页面之间的相似度,对页面进行聚类,再对每一类簇生成相应的提取规则,对Web页面进行数据提取。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号