首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
时下用FLV文件播放的视频分享网站、播客越来越多了,如youtube、5Show、56、优酷等,这对正处在多媒体资源稀缺中的广大一线教师和教育工作者来说无疑是一个福音.但是这些网站并不提供直接的资源链接,只能在线浏览,无法用普通的方法下载该格式视频.  相似文献   

2.
刘晓峰 《计算机安全》2012,(7):61-62,65
随着网络技术的发展和新技术运用的日趋成熟,视听节目在网络文化内容中占据的比重越来越大,视听节目传播技术也不断更新,近几年通过QVOD(快播)技术传播的视听节目越来越多,而一些违规网站也利用其大肆传播淫秽色情、暴力低俗等内容,因此对QVOD视听节目的监测必须要有相应的技术手段。在研究了QVOD技术和传播特点的基础上,提出基于特征分析技术实现QVOD视听节目监测的方法,QVOD视听节目监测效果。  相似文献   

3.
FLV在线视频的下载方法   总被引:1,自引:0,他引:1  
时下用FLV文件播放的视频分享网站、播客越来越多了,如youtube、5Show、56、优酷等,这对正处在多媒体资源稀缺中的广大一线教师和教育工作者来说无疑是一个福音。但是这些网站并不提供直接的资源链接,只能在线浏览,无法用普通的方法下载该格式视频。为此,笔者摸索、总结了如下几种下载方式并进行了简单的对比,供大家参考。  相似文献   

4.
使用联合链接相似度评估爬取Web资源   总被引:1,自引:0,他引:1  
如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接相似度评估的爬行算法,该算法在评估链接的主题相似度时,联合使用了关于链接主题相似度的直接证据和间接证据.直接证据通过计算链接的锚链文本的主题相似度来获得,而间接证据则是通过一个基于Q学习的Web链接图增量学习算法获取.该算法首先利用聚焦爬行过程中得到的结果页面,建立起一个Web链接图.然后通过在线学习Web链接图,获取链接和链接主题相似度之间的映射关系.通过对链接进行多属性特征建模,使得链接评估器能够将当前链接映射到Web链接图的链接空间中,从而获得当前链接的近似主题相似度.在3个主题域上对该算法进行了实验,结果表明,该算法可以显著提高爬行结果的精度和召回率.  相似文献   

5.
大量的网页资源和网页的动态特性突出了基于网页信息搜索系统的不断支持和升级的要求.搜索引擎系统中的爬行虫就是为搜集网页中的信息而设计的.爬行虫通过网页中的超链接方便了某个特殊网页快照的自动下载.讨论的根本是与爬行虫的内部架构发展相关.论文首先分析Web信息采集系统模型和爬行虫的搜索策略,给出一个适合中小型网站网页具体信息获取的爬行虫算法,并使用C++ Builder工具实现程序.本文也给出了一些与主题搜索相关的程序说明.  相似文献   

6.
基于链接路径预测的聚焦Web实体搜索   总被引:1,自引:1,他引:0  
实体搜索是一个有前景的研究领域,因为它能够为用户提供更为详细的Web信息.快速、完全地收集特定领域实体所在的网页是实体搜索中的一个关键问题.为了解决这个问题,将Web网站建模为一组互连的状态构成的图,提出一种链接路径预测学习算法LPC,该模型能够学习大型网站中从主页通向目标网页的最优路径,从而指导爬虫快速定位到含有Web实体的目标网页.LPC算法分为两个阶段:首先,使用概率无向图模型CRF,学习从网站主页通往目标网页的链接路径模型,CRF模型能够融合超连接和网页中的各种特征,包括状态特征和转移特征;其次,结合增强学习技术和训练的CRF模型对爬行前端队列的超链接进行优先级评分.一种来自增强学习的折扣回报方法通过利用路径分类阶段学习的CRF模型来计算连接的回报值.在多个领域大量真实数据上的实验结果表明,所提出的适用CRF模型指导的链接路径预测爬行算法LPC的性能明显优于其他聚焦爬行算法.  相似文献   

7.
针对传感器网络数据的表示和传输标准不统一以及单一数据资源无法满足应用程序的需求问题,提出将传感器网络数据发布为链接传感器数据的方法。在分析已有链接传感器数据发布方法的基础上,首先利用本体标注技术为传感器网络数据添加语义信息,然后提出基于继承关系概念组集的关联数据查询处理方法以找到相关Web数据集(RWD)和基于启发式属性的图相似性比较方法实现传感器网络数据与相关Web数据的链接,最后构建了一种链接传感器数据发布系统(LSDPS)。通过与其他经典链接传感器数据发布系统比较,表明本系统将建立与相关数据的链接的准确率提高了9%。将传感器网络数据发布为链接传感器数据,使得应用程序不仅可以理解和利用传感器网络数据,而且可以根据链接传感器数据集间的资源描述框架(RDF)链接获得更多相关资源。  相似文献   

8.
一种新的面向主题的爬行算法*   总被引:1,自引:0,他引:1  
虽然通用网络爬行器已经给人们提供了极大的便利,但由于它的综合性不具备面向专业的特点,在准确性和速度等方面存在不足;面向主题的爬行器能弥补这些不足。主要研究面向主题网络爬行器两个方面的问题,即如何充分地定义主题和有效地排序爬行器待下载链接队列中的链接,使得只需访问很少的不相关页面就能够得到很多相关的页面链接。结合网页的半结构化信息特征,提出了一种新的基于内容的爬行策略,实验结果显示是一种寻找主题相关页面很有效的方法。  相似文献   

9.
刘徽  黄宽娜  余建桥 《计算机工程》2012,38(11):284-286
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页 面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件。实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率。  相似文献   

10.
专家警告称,MySpace.com的一段恶意录像能够修改用户档案,增添指向欺诈网站的链接。当被播放时,这段恶意录像会将自己添加到用户的MySpace网页上,用指向钓鱼式攻击网站的链接取代用户档案中的链接。  相似文献   

11.
深网数据源的动态性、自治性和体量使第三方应用难以完全爬取所有Web数据.文中研究查询类型(仅允许Top-k查询)和查询资源约束下深网数据源爬取问题,提出基于Top-k查询约束的深网增量爬取方法,结合历史数据和领域知识,优化总体数据质量.首先基于查询树获得有效查询,利用历史数据和领域知识估计查询变化和查询代价.然后,基于估计的查询代价和数据质量,近似选择最优的查询子集最大化总体数据质量.实验表明文中方法较好地提高动态Web数据库爬取的效率和数据质量.  相似文献   

12.
2016年10月水利部门户网站启动改版工作,2017年7月正式上线运行。本文介绍了新版水利部门户网站的改版背景、改版原则、改进目标,系统分析了原有网站存在的不足和突出问题,形象展示了改版后的栏目设置和网站页面,对水利部机关司局、直属单位和各地水利系统网站栏目规划、页面设计和建设管理具有指导和借鉴意义。  相似文献   

13.
网页抓取器是爬虫系统的一个重要部分,其性能的好坏直接影响着搜索引擎的性能.网页抓取器可以分为网络层和应用层,而网络层是关键.基于选取样本页面、定义规则和网页抓取的三个步骤,在linux下使用epoll技术实现了多线程的网页抓取,方法快速有效.  相似文献   

14.
The information in government web sites, which are widely adopted in many countries, must be accessible for all people, easy to use, accurate and secure. The main objective of this study is to investigate the usability, accessibility and security aspects of e-government web sites in Kyrgyz Republic. The analysis of web government pages covered 55 sites listed in the State Information Resources of the Kyrgyz Republic and five government web sites which were not included in the list. Analysis was conducted using several automatic evaluation tools. Results suggested that government web sites in Kyrgyz Republic have a usability error rate of 46.3 % and accessibility error rate of 69.38 %. The study also revealed security vulnerabilities in these web sites. Although the “Concept of Creation and Development of Information Network of the Kyrgyz Republic” was launched at September 23, 1994, government web sites in the Kyrgyz Republic have not been reviewed and still need great efforts to improve accessibility, usability and security.  相似文献   

15.
We have developed a method for analysis and design of web-based information systems (WBISs), and tools to support the method, WebArchitect and PilotBoat. The method and the tools focus on architectures and functions of web sites, rather than on appearance of each web resource (page), such as graphics and layouts. Our goal is to efficiently develop WBISs that best support particular business processes at least maintenance cost. Our method consists of two approaches, static and dynamic. We use the entity relation (E-R) approach for the statis aspects of WBISs, and use scenario approach for the dynamic aspects. The E-R analysis and design, based on relationship management methodology (RMM) developed by Isakowitz et al., defines what are entities and how they are related. The scenario analysis defines how web resources are accessed, used, and changed by whom. The method also defines attributes of each web resource, which are used in maintaining the resource. WebArchitect enables designers and maintainers to directly manipulate meta-level links between web resources that are represented in a hierarchical manner. PilotBoat is a web client that navigates and lets users collaborate through web sites. We have applied our approaches to the WWW6 proceedings site.  相似文献   

16.
周文彬 《现代计算机》2006,253(2):27-30
基于对本体搜索的分析,本文从多个方面对聚焦搜索的链接评价方法进行改进,同时介绍了新方法实现中的多个关键步骤.  相似文献   

17.
The Texas Natural Resources Information System (TNRIS) is a mechanism in Texas state government which links together the users of natural resources and related data with those organizations which collect and store the data. TNRIS is an extension of the Texas Water Oriented Data Bank which began in 1967. It provides access to data in six major categories—water, socioeconomic, biological, meteorological, geologic and land, and base data to users in government, education and the non-public sector. Data indexing, online data access, interface with other systems, and development of computer software are areas of major TNRIS involvement. Accesses to data and information files available through TNRIS numbered 4706 during the State's 1980 fiscal year.  相似文献   

18.
搜索引擎中网络蜘蛛的研究与实现   总被引:1,自引:0,他引:1  
网络蜘蛛程序是搜索引擎工作的基础和关键,实现了抓取网络资源的网络蜘蛛程序,通过入口网址下载网络资源,并对其分析,获得包含的其他链接,利用这些链接向整个网络扩散,下载其他资源。测试了蜘蛛程序抓取网页的能力,并对多线程实现的利弊进行讨论,总结了常用的算法搜索策略,提出了后续的研究方向。  相似文献   

19.
本文主要阐述了目前Web站点在从WindowsNT平台到UNIX平台迁移的过程中的存在问题及解决方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号