首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 725 毫秒
1.
王斌 《计算机仿真》2004,21(5):95-99
近些年对internet的使用提供了获取大量信息的方法。但是,在单个网页中或者多个网页间缺少信息结构,成为获取网络数据的障碍。因此为了有效地搜索网络信息,迫切需要结构化网页有效的管理方法。该文提出的结构化网页的管理方法基于以下两个方面:第一步把HTML转化为XML,第二步建立导航层次结构。同时也学习如何用结构化的网页管理方法进行有效的数据查询,用户可以按照网站的导航层次浏览整个网站,包括互联的网页或者内部的网页,并且可以搜索感兴趣的信息。  相似文献   

2.
从小偷踩点获取藏金信息中受到启发,提出了一种互联网信息智能搜索新方法。能够从已经分好类的特定领域网站中,准确高效地搜索出隐藏于其内部的目标网页。把所有的搜索网页根据检索信息分成两类:一类是信息点,一类是信息路径。采用信息路径特征与信息点信息量特征描述有机结合而形成的一种新的搜索知识表示方法。基于这种知识表示方法,智能搜索方法不仅能够对网站中网页进行深度优先的智能搜索,而且还能够通过对其搜索过程和结果的自学习来获取更多更好的搜索知识。  相似文献   

3.
一种互联网信息智能搜索新方法   总被引:10,自引:1,他引:9  
提出了一种互联网信息智能搜索新方法。该方法能够从组织结构和内容描述类似的同类网站中,准确有效搜索出隐藏于其内部的目标网页。为此它采用了将网页间相互关联特征与网页内容特征描述有机结合而形成的一种新的搜索知识表示方法。基于这种知识表示方法及其所表示的知识;该智能搜索方法不仅能够对风站中网页进行深度优先的智能搜索,而且还能够通过对其搜索过程和结果的自学习来获取更多更好的搜索知识。初步实验结果表明,这种智能搜索新方法在对同类型网站的目标网页搜索中具有很强的深度网页搜索能力。  相似文献   

4.
基于关键词聚类和节点距离的网页信息抽取   总被引:2,自引:0,他引:2  
大部分网页信息抽取方法都针对特定的网站,例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时,必须人为地增加抽取规则或者提供新的训练网页集。而且,当网站的模版改变时,也要重新设计这些规则或重新输入训练网页集。这些方法难以维护,因此不能应用到从大量不同的网站上进行信息抽取。本文提出了一种新的网页信息抽取方法,该方法基于特定主题的关键词组和节点距离,能够不加区分地对不同的网站页面信息自动抽取。对大量网站的网页进行信息抽取的实验显示,该方法能够不依赖网页的来源而正确和自动地抽取相关信息,并且已经成功应用到电子商务智能搜索和挖掘系统中。  相似文献   

5.
大量的网页资源和网页的动态特性突出了基于网页信息搜索系统的不断支持和升级的要求.搜索引擎系统中的爬行虫就是为搜集网页中的信息而设计的.爬行虫通过网页中的超链接方便了某个特殊网页快照的自动下载.讨论的根本是与爬行虫的内部架构发展相关.论文首先分析Web信息采集系统模型和爬行虫的搜索策略,给出一个适合中小型网站网页具体信息获取的爬行虫算法,并使用C++ Builder工具实现程序.本文也给出了一些与主题搜索相关的程序说明.  相似文献   

6.
Internet上有成千上万个网站,内容包罗万象,但如何准确迅速地找到自己需要的网页,就不是件容易的事了,这时需要借助于网上搜索工具。网上搜索工具的分类常用的上网工具可分为四大类:万维网目录服务网站、搜索引擎网站、集成搜索工具类网站及其软件。万维网目录服务类网站的搜索方式是先将各种网站按类别进行分组,然后通过逐步缩小搜索范围来指引用户找到他所要查找的网页,它们通过人工对信息分类的处理来建立和维护自己庞大的站点信息数据库,用户查找时显示的分类目录就是它们数据库中的信息。万维网目录服务类网站除了能提…  相似文献   

7.
结合农村综合信息网站的数据需求,设计了一个面向农业领域、基于垂直搜索技术搜索引擎的农村信息采集平台模型,并重点讨论了该模型中网页采集、分析及网页分类的运行原理和具体实现过程.运行实践表明,该模型对于农业信息网站,相关性和准确性都较好.  相似文献   

8.
大型网站是网络信息的核心,其信息规模之大,更新速度之快是中小型网站不可比拟的,对大型网站网页搜索的好坏直接影响搜索引擎的整体性能。本文在分析分类网页更新策略的基础上,根据大型网站本身的特点提出了一种增量式信息更新方法。实验分析表明,这种增量式信息更新方法很大程度上提高了大型网站搜索引擎网页的更新效率。  相似文献   

9.
大型网站是网络信息的核心,其信息规模之大,更新速度之快是中小型网站不可比拟的,对大型网站网页搜索的好坏直接影响搜索引擎的整体性能.本文在分析分类网页更新策略的基础上,根据大型网站本身的特点提出了一种增量式信息更新方法.实验分析表明,这种增量式信息更新方法很大程度上提高了大型网站搜索引擎网页的更新效率.  相似文献   

10.
网页自动分类是解决互联网信息检索困难的有效方法.虽然有很多自动分类算法和系统,但是大部分此类算法注重如何将网页准确分到某个独立的类别里面,却忽略类别之间所组成的体系结构本身也具备的一些隐藏分类信息.同时,一般的分类算法每次分类都需要搜索所有的类别.针对这些缺点,提出了一种基于结构的单路径层次化网页分类算法,该分类方法利用类别之间具有树状结构这一特点,对类别中存在父子关系的类别间进行信息传递,使得每次分类只需要搜索树中一条路径而不用遍历所有树节点.实验结果证明,这种单路径搜索技术与相关的算法相比,在减少搜索节点的同时可以提高6%的准确度.  相似文献   

11.
Web挖掘及其应用研究   总被引:7,自引:0,他引:7  
Web挖掘就是利用数据挖掘技术,从Web文档和Web活动中提取感兴趣的,潜在的有用模式和隐藏的信息,本文详细阐述了Web的特点,Web挖掘的分类及应用。  相似文献   

12.
本文分析了Web信息抽取的概念、特点,总结了Web信息抽取技术的分类、技术发展现状及其应用。描述了Web信息抽取的知识来源,并对Web信息抽取的几类典型方法进行了详细描述。  相似文献   

13.
本文分析了Web信息抽取的概念、特点,总结了Web信息抽取技术的分类、技术发展现状及其应用。描述了Web信息抽取的知识来源,并对Web信息抽取的几类典型方法进行了详细描述。  相似文献   

14.
Web网站安全技术研究   总被引:5,自引:0,他引:5  
卜胜贤  李鹰 《微机发展》2004,14(5):87-89
信息安全是网络应用中的一个重要问题。网站是信息的发布中心,其数据库中存放有大量的供用户共享的重要信息,因此,网站的安全是网站建设和运行过程中应该充分考虑的重要问题。针对微软的因特网信息服务器(IIS)系统,该文从网站上运行的操作系统、信息发布平台(Web服务器)及信息之源(数据库)等几个方面研究了基于IIS的Web网站的安全问题,并结合目前的技术手段,阐述了构建Web网站应该采取的一些安全措施。在构建Web网站的实践中证明,这些安全措施是行之有效的。  相似文献   

15.
The Web has become a ubiquitous tool for distributing knowledge and information and for conducting businesses. To exploit the huge potential of the Web as a global information repository, it is necessary to understand its dynamics. These issues are particularly important for news Web sites as they are expected to provide fresh information on current world events to a potentially large user population. This paper presents an experimental study aimed at characterizing and modeling the evolution of a news Web site. We focused on the MSNBC Web site as it is a good representative of its category in terms of structure, news coverage and popularity. Specifically, we analyzed how often and to what extent the content of this site changed and we identified models describing its dynamics. The study has shown that the rate of page creations and updates was characterized by some well defined patterns that varied as a function of time of day and day of week. On the contrary, the content of individual pages changed to a different extent. Most updates involved a very small fraction of their content, whereas very few were more extensive and spread over the whole page. By taking into accounts all these aspects, we derived analytical models able to accurately capture and reproduce the evolution of the news Web site.  相似文献   

16.
Web站点的超链结构挖掘   总被引:11,自引:0,他引:11  
WWW是一个由成千上万个分布在世界各地的Web站点组成的全球信息系统,每个Web站点又是一个由许多Web页构成的信息(子)系统。由于一个文档作者可以通过超链把自己的文档与任意一个已知的Web页链接起来,而一个 Web站点上的信息资源又通常是由许多人共同提供的, 因此 Web站点内的超链链接通常是五花八门、各种各样的,它们可以有各种含义和用途。文章分析了WWW系统中超链的使用特征和规律,提出了一个划分超链类型、挖掘站点结构的方法,初步探讨了它在信息收集和查询等方面的应用。  相似文献   

17.
随着网络的快速发展与普及,大量有用的网络信息给人们生活、工作和学习带来了便利。与此同时网络中还存在着许多无用的信息,如何从浩如烟海的数据海洋中,快速准确的查找数据,成为了当今社会不可忽视的问题。Web数据挖掘技术,正是解决这一问题的关键。该文从Web数据挖掘技术的角度,阐述Web数据挖掘的概念、分类、过程及常见的Web数据挖掘算法。  相似文献   

18.
Interuet上有大量的页面是由后台数据库动态产生的,传统的搜索引擎搜索不出这部分页面,我们称之为深网,其中大部分深网信息是结构化的。将这些结构化的深网数据库按所属领域进行分类是获得深网信息的一个关键问题。本文针对已有深网数据库分类方法实现成本高昂、效率低下的问题,提出了一种基于Web日志粒度化的深网数据库分类算法,并通过实验检验了方法的分类效果。  相似文献   

19.
吴小兰  王忠群  刘涛  王勇 《计算机应用》2006,26(10):2430-2432
在线零售业务中,用户须浏览许多无关页面,才能找到所需商品。解决该问题的一个思路是,建立隐马尔可夫模型(HMM)实现站点根据用户访问购买情况进行自适应。在隐马尔可夫模型初始化基础上,利用扩展元胞自动机理论,同样能实现站点自适应,且时间更短;并为基于扩展元胞自动机解决站点自适应问题提供了一个新思路。  相似文献   

20.
Deep Web查询接口的判定技术研究   总被引:1,自引:0,他引:1  
互联网的飞速发展,给人类带来了海量的可供访问信息,但是,现今搜索引擎索引的绝大部分是表层Surface Web网的信息,限于一些技术原因,搜索引擎几乎无法索引到Deep Web网中的信息。由于查询接口是Deep Web的唯一入口,但并非所有的网页表单都是查询接口,为了能充分利用Deep Web后台数据库信息,首先要找到进入Deep Web后台数据库的入口,所以对查询接口的正确判定至关重要。文中介绍了利用决策树CA.5分类算法自动判定网页表单是否为Deep Web查询接口的方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号