首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
目前Web数据挖掘技术已得到广泛应用,通过对Web挖掘分类和挖掘基本理论的分析,提出网络爬虫原理内容挖掘方法,深入分析这种方法的原理和工作流程。爬虫原理的应用可满足特定用户的需求,实现高效、快捷、针对性强的查询。  相似文献   

2.
胡晟 《软件》2012,(7):145-147
本文首先分析了Web挖掘的实际必要性,介绍了数据挖掘体系结构中的关键技术和运行原理。并且介绍了一般爬虫所实现的功能,在此之上给出了一种网络爬虫设计,重点论述了此爬虫的原理、实现、性能以及该爬虫的优点。最后,经实验证明,设计的爬虫能够高效地获取互联网上的各种信息资源。  相似文献   

3.
社交网络的兴起为人们提供了一个新的情感空间,但是在网络中出现心理健康问题的人们通常得不到应有的关注和帮助,甚至受到其他网民的恶意攻击。为便于在网络空间向需要的人群提供及时有效的心理辅导和救助,提出一个基于爬虫技术的网络负面情绪挖掘系统CyberCare。在Scrapy爬虫框架下,对目标网络进行周期性的自动抓取,对网页内容的负面情绪进行度量,并为心理工作者的及时介入提供接口。针对国内数个知名网站的实验结果显示,CyberCare能够将心理工作者的关注范围缩小到网站新帖的千分之一左右,显著提高了工作效率。对于情感类特定版块,实验结果的精度和召回率分别达到60%和80%,显示了该系统的有效性。  相似文献   

4.
WEB日志挖掘实现网站优化   总被引:6,自引:0,他引:6  
挖掘用户访问网站的web日志记录,得到用户访问的页面和访问路径,将页面和路径抽象为点和线,构造有权有向图。由算法找出有向图最佳的访问路径和访问点,实现网站的优化。  相似文献   

5.
因特网技术的发展和普及使得信息的发布和获取的方式发生了根本性的变化,Web成为了当前信息传播的主要载体之一.如何在Web这个全球最大的数据集合中发现数据已成为了数据挖掘研究的热点.本文简单分析了Web数据挖掘的基本概念、分类、应用.  相似文献   

6.
一种Deep Web爬虫的设计与实现   总被引:1,自引:0,他引:1  
随着World Wide Web的快速发展,Deep Web中蕴含了越来越多的可供访问的信息.这些信息可以通过网页上的表单来获取,它们是由Deep Web后台数据库动态产生的.传统的Web爬虫仅能通过跟踪超链接检索普通的Surface Web页面,由于没有直接指向Deep Web页面的静态链接,所以当前大多数搜索引擎不能发现和索引这些页面.然而,与Surface Web相比,Deep Web中所包含的信息的质量更高,对我们更有价值.本文提出了一种利用HtmlUnit框架设计Deep Web爬虫的方法.它能够集成多个领域站点,通过分析查询表单从后台数据库中检索相关信息.实验结果表明此方法是有效的.  相似文献   

7.
网络爬虫是目前比较流行的一种网页检索工具,其设计和实现也需要不断优化和改进。通过描述网络爬虫设计与实现中所碰到的问题,提供解决这些问题的方法,并给出实现这些目标的网络爬虫设计方法,提供该设计的Java语言版实现。  相似文献   

8.
Web上的数据量急剧膨胀使得进行Web数据挖掘成为数据挖掘技术研究的热点.而XML能够为Web挖掘提供半结构化的数据模型,解决了Web挖掘中的数据源问题.介绍了XML的和Web文本挖掘的概念,提出了一种基于XML的Web文本挖掘模型,剖析了该模型的各个组成部分,给出了该模型的特点.  相似文献   

9.
基于爬虫的XSS漏洞检测工具设计与实现   总被引:4,自引:2,他引:2  
沈寿忠  张玉清 《计算机工程》2009,35(21):151-154
通过对XSS漏洞的研究,剖析其产生、利用的方式,在此基础上针对XSS漏洞的检测机制进行进一步的分析和完善。结合网络爬虫的技术,研究设计并实现了一款XSS漏洞的检测工具(XSS-Scan),并与当前比较流行的一些软件做了分析比较,证明利用该工具可以对Web网站进行安全审计,检测其是否存在XSS漏洞。  相似文献   

10.
信息技术的快速发展为各行业领域注入了新鲜的活力,然而伴随而来的不良网络信息问题又成为网络文化安全面临的重要挑战.以Web信息搜索与数据挖掘为例,可考虑引网络爬虫,利用其进行信息资源的获取,对网络文化内容管理与监测能够发挥重要作用.本次研究将对网络爬虫原理做简单介绍,并结合Web信息搜索与数据挖掘实际,分析网络爬虫在其中的具体应用.  相似文献   

11.
基于主题的Web信息采集系统的设计与实现   总被引:13,自引:0,他引:13  
基于主题的Web信息采集是信息检索领域内一个新兴且有实用价值的方向,也是信息处理技术中的一个研究热点。文章分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。  相似文献   

12.
一种通用Web信息采集系统的设计与实现   总被引:5,自引:0,他引:5  
吴丽辉  王斌  余智华 《计算机工程》2005,31(3):123-124,194
介绍了一种通用的Web信息采集系统,给出了系统总体结构,分析了信息采集器、采集控制服务器和信息发布服务器,讨论了系统实际的应用。实践证明,该系统能够对Internet信息进行自动采集,并对今后的应用提供充分的支持,具有良好的通用性。  相似文献   

13.
由于互联网上存在大量的信息资源,Web挖掘已成为数据挖掘的热点。本文介绍Web数据挖掘技术,比较HTML和XML的不同,充分利用XML的优越性,提出一种基于XML的数据挖掘模型,并详细论述该模型的特点及用途。  相似文献   

14.
Web使用模式研究中的数据挖掘   总被引:46,自引:3,他引:43  
Web使用模式挖掘是利用Web使用数据的高级手段,是对Web使用数据的深层次分析,从而挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的知识,以帮助管理决策。综述了Web使用模式的数据挖掘研究技术的内容、现状和研究的方向。  相似文献   

15.
基于Web的植物志数据库管理系统的设计与实现   总被引:2,自引:0,他引:2  
根据植物的分类、特点以及植物志检索等要求,采用ASP技术设计并实现了Web植物志数据库管理系统。针对数据查询要求,使用了查询结果缓存技术和多字段匹配关键字查询的方法。系统具有专业服务和科普两方面的功能。  相似文献   

16.
基于Heritrix的商品信息搜索的网络爬虫系统的设计   总被引:1,自引:0,他引:1  
探讨以开源软件Heritrix体系构建的获取商品信息爬虫系统,针对Heritrix开源爬虫项目存在的问题和商品采集的特点,项目设计了定向抓取包含某一特定内容的网页的类,从而改进Heritrix,并引入ELFHash算法进行URL散列中,以提高抓取效率,为面向商品的搜索系统以及数据挖掘提供可靠的数据源。  相似文献   

17.
基于Web的电子商务系统的设计与实现   总被引:2,自引:0,他引:2  
随着Internet的迅速发展和普及,电子商务已经成为现代企业进行商务活动的必然趋势。文章采用J2EE架构作为开发模式,运用Enterprise Java Beans(EJB)和Java Servlet,设计实现了基于Web的电子商务系统,以满足企业对电子商务活动的需求。  相似文献   

18.
基于Web的毕业设计选题系统的设计与实现   总被引:1,自引:0,他引:1  
基于Web,利用ASP和数据库技术,采用B/S模式,设计并实现了一个毕业设计选题系统。该系统界面友好、功能丰富、稳定可靠。通过该系统可以实现毕业设计题目的在线报送、审核和选择,既方便了教师和学生,又提高了工作效率,最重要的是提高了选题操作的实时性、透明性和公平性。  相似文献   

19.
在对Web Services组件进行全面介绍的基础上,提出了一种基于Web Services的ERP系统的网络架构,对其实现进行了技术说明,并给出了解决其安全性的方案.  相似文献   

20.
基于移动爬虫的专用Web信息收集系统的设计   总被引:3,自引:0,他引:3  
搜索引擎已经成为网上导航的重要工具。为了能够提供强大的搜索能力,搜索引擎对网上可访问文档维持着详尽的索引。创建和维护索引的任务由网络爬虫完成,网络爬虫代表搜索引擎递归地遍历和下载Web页面。Web页面在下载之后,被搜索引擎分析、建索引,然后提供检索服务。文章介绍了一种更加有效的建立Web索引的方法,该方法是基于移动爬虫(MobileCrawler)的。在此提出的爬虫首先被传送到数据所在的站点,在那里任何不需要的数据在传回搜索引擎之前在当地被过滤。这个方法尤其适用于实施所谓的“智能”爬行算法,这些算法根据已访问过的Web页面的内容来决定一条有效的爬行路径。移动爬虫是移动计算和专业搜索引擎两大技术趋势的结合,能够从技术上很好地解决现在通用搜索引擎所面临的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号