首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
用户进行Web信息检索时,网络往往返回大量的近似网页(可看作重复网页)。针对搜索引擎查询Web信息所存在的局限性,考虑到基于关键词匹配的搜索引擎系统的特点,结合使用网页的向量空间模型,采用以下算法快速、有效地发现WWW上的重复或相似网页,提高检索效率。首先采用MD5算法(信息-摘要算法)提取返回文本的信息摘要。MD5将整个文件当作一个大文本信息,通过其不可逆的字符串变换算法,产生了一个唯一的MD5信息摘要。MD5以512位分组来处理输入的信息,且每一分组又被划分为16个32位子分组,经过了一系列的处理后,算法的输出由四个32位分组组…  相似文献   

2.
针对传统方法不能很好地处理网页中简短域和用户查询之间的相关性排序问题,提出一种改进的编辑距离(MED)排序算法,在编码和计算过程中引入查询词分布的位置、顺序和距离等信息,将查询和简短域之间的相关性问题转化为编码字符串的相似性问题。仿真实验结果表明,与传统的相关性排序算法相比,该算法可以提高网页搜索中简短网页域的相关性排序性能。  相似文献   

3.
基于网络资源与用户行为信息的领域术语提取   总被引:1,自引:0,他引:1  
领域术语是反映领域特征的词语.领域术语自动抽取是自然语言处理中的一项重要任务,可以应用在领域本体抽取、专业搜索、文本分类、类语言建模等诸多研究领域,利用互联网上大规模的特定领域语料来构建领域词典成为一项既有挑战性又有实际价值的工作.当前,领域术语提取工作所利用的网络语料主要是网页对应的正文,但是由于网页正文信息抽取所面临的难题会影响领域术语抽取的效果,那么利用网页的锚文本和查询文本替代网页正文进行领域术语抽取,则可以避免网页正文信息抽取所面临的难题.针对锚文本和查询文本所存在的文本长度过短、语义信息不足等缺点,提出一种适用于各种类型网络数据及网络用户行为数据的领域数据提取方法,并使用该方法基于提取到的网页正文数据、网页锚文本数据、用户查询信息数据、用户浏览信息数据等开展了领域术语提取工作,重点考察不同类型网络资源和用户行为信息对领域术语提取工作的效果差异.在海量规模真实网络数据上的实验结果表明,基于用户查询信息和用户浏览过的锚文本信息比基于网页正文提取技术得到的正文取得了更好的领域术语提取效果.  相似文献   

4.
在《中国河流水质信息系统》中应用了以CGI方式集成数据库系统与Web这一网络化技术,实现了信息系统的网页查询及网页地图查询功能。文章分析了该系统的集成环境和技术路线,解释其数据库结构设计、地理信息和属性信息的表示。  相似文献   

5.
传统搜索引擎仅可以索引浅层Web页面,然而在网络深处隐含着大量、高质量的信息,传统搜索引擎由于技术原因不能索引这些被称之为Deep Web的页面。由于查询接口是Deep Web的唯一入口,因此要获取Deep Web信息就需判定哪些网页表单是Deep Web查询接口。文中介绍了一种利用朴素贝叶斯分类算法自动判定网页表单是否为Deep Web查询接口的方法,并实验验证了该方法的有效性。  相似文献   

6.
一个面向Internet数据管理的系统模型   总被引:2,自引:0,他引:2  
1.引言随着Internet的发展,查询网上信息变得越来越重要,常用的方法是使用诸如Yahoo,Infoseek等搜索引擎来查询信息。一旦用户提出需要查询内容的关键词,搜索引擎就根据关键词来确定查询的内容。不足之处是因为搜索引擎忽略了网页的内部结构,所以会导致用户不能获得准确的信息。许多搜索引擎有如下明显的缺点:(1)网页中较为具体的信息不能直接获取。(2)查询语言描述能力差。鉴于上述缺陷,研究人员借鉴一些数据库技术进行WWW上信息的查询。但它的不足之处是:WWW上的数据差异大,数据结构不规则,因此关系数据库或面向对象数据库缺乏足够的灵活性来表示WWW上的数据。  相似文献   

7.
Deep Web查询接口的自动判定   总被引:5,自引:1,他引:5  
传统搜索引擎仅可以索引浅层Web页面.然而在网络深处隐含着大量、高质量的信息,传统搜索引擎由于技术原因不能索引这些被称之为Deep Web的页面。由于查询接口是Deep Web的唯一入口,因此要获取Deep Web信息就需判定哪些网页表单是Deep Web查询接口。文中介绍了一种利用朴素贝叶斯分类算法自动判定网页表单是否为Deep Web查询接口的方法,并实验验证了该方法的有效性。  相似文献   

8.
正我们需要判别某些照片是否被修改,单纯依靠EXIF信息并不能准确提供被修改的信息。好在网络上有不少查询图片是否被修改的网站,izitru就是其中之一。由达特茅斯学院(Dartmouth)的Hany Farid教授所研发网页,在操作上比较简单,对普通用户来说只要按照下面的方法操作即可。访问http://www.izitru.com/,点击页面顶端的"Upload image…"按钮,  相似文献   

9.
随着计算机网络的迅速发展,信息以计算机网络的方式进行传播已经成为当前的主要趋势。在信息时代,如何有效、快速地获取有用、有价值的信息是关键。本文主要介绍了python编程语言及其特点,利用Python语言设计程序,通过网络爬虫技术打破搜索引擎的传统方式,提取网页中的古诗信息,并通过Python接口进行外部查询提取的古诗信息。  相似文献   

10.
基于链接的方法进行Web信息检索的TREC实验研究   总被引:1,自引:0,他引:1  
本文通过TREC实验研究基于链接信息的检索对Web信息检索的影响,包括使用链接描述文本,链接结构以及将基于链接的方法和传统基于内容检索的方法合并。得到如下结论:首先,链接描述文档对网页主题的概括有高度的精确性,但是对网页内容的描述有极大的不完全性;其次,与传统检索方法相比,使用链接文本在网页定位的任务上能够使系统性能提高96% ,但是在信息查询任务上没有帮助;最后,将基于链 接信息的检索与传统的基于内容检索技术合并,在网页入口定位任务上总能将系统性能提高48%到124.8% ,而对特定信息查询任务也能在一定程度上改善检索效果。  相似文献   

11.
基于颜色Petri网的Web服务组合建模及应用*   总被引:1,自引:0,他引:1  
给出了用颜色Petri网来对Web服务及服务组合建模,在描述服务内部控制结构的同时兼顾了数据流的描述,而且还给出了模拟Web服务执行的引发规则,从静态、动态两方面描述了Web服务及服务组合,最后还给出了一个应用颜色Petri网建模的实例。  相似文献   

12.
传统的主题抽取方法单纯依靠分析网页内容的来自动获取网页主题,其分析结果并不十分精确.在WWW上,网页之间通过超链接来互相联系,而链接关系紧密的网页趋向于属于同一主题、基于这一思想,本文提出了一种利用Web链接结构信息来对主题抽取结果进行求精的方法,其通过所链接网页对本网页的影响来修正本网页的主题权值.本文还通过一个实际应用例子,分析了这一方法的特点。  相似文献   

13.
Our current understanding of Web structure is based on large graphs created by centralized crawlers and indexers. They obtain data almost exclusively from the so-called surface Web, which consists, loosely speaking, of interlinked HTML pages. The deep Web, by contrast, is information that is reachable over the Web, but that resides in databases; it is dynamically available in response to queries, not placed on static pages ahead of time. Recent estimates indicate that the deep Web has hundreds of times more data than the surface Web. The deep Web gives us reason to rethink much of the current doctrine of broad-based link analysis. Instead of looking up pages and finding links on them, Web crawlers would have to produce queries to generate relevant pages. Creating appropriate queries ahead of time is nontrivial without understanding the content of the queried sites. The deep Web's scale would also make it much harder to cache results than to merely index static pages. Whereas a static page presents its links for all to see, a deep Web site can decide whose queries to process and how well. It can, for example, authenticate the querying party before giving it any truly valuable information and links. It can build an understanding of the querying party's context in order to give proper responses, and it can engage in dialogues and negotiate for the information it reveals. The Web site can thus prevent its information from being used by unknown parties. What's more, the querying party can ensure that the information is meant for it.  相似文献   

14.
Web表格信息抽取模型的设计与实现   总被引:1,自引:0,他引:1  
Web表格作为一种简洁有效的数据信息表达方式,已广泛应用于Web页面中.现提出一种基于表格结构的Web表格信息抽取模型,该模型主要有表格定位模块、表格结构预处理模块和表格信息抽取与重构模块三个模块组成,根据Web表格的结构标记和自定义的启发式规则来抽取表格信息.实验结果表明该模型能够很好地应用于Web表格信息的抽取.  相似文献   

15.
为了更加合理地组织Web服务器的结构,使用户能及时快速地浏览到自己所需的网页信息,借鉴专家系统的不确定性推理方法——主观Bayes方法,提出了网页链接的可信度思想,并给出了网页链接的可信度因子模型。该模型可以定期、定时地根据Internet用户浏览的Web日志记录,动态地改善Web服务器的结构,从而实现基于用户浏览兴趣的网页链接结构的改进。  相似文献   

16.
该文提出了一种中小企业构建经济简便的Intranet内部网的具体实施办法,对系统总体结构、Web服务器的建立、静态信息的发布以及Web服务器与数据库的连接等问题作了详细阐述。对于中小型企业建设Intranet内部网有一定的参考价值。  相似文献   

17.
熊忠阳  蔺显强  张玉芳  牙漫 《计算机工程》2013,(12):200-203,210
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。  相似文献   

18.
Web hyperlink structure analysis algorithm plays a significant role in improving the precision of Web information retrieval. Current link algorithms employ iteration function to compute the Web resource weight. The major drawback of this approach is that every Web document has a fixed rank which is independent of Web queries. This paper proposes an improved algorithm that ranks the quality and the relevance of a page according to users' query dynamically. The experiments show that the current link analysis algorithm is improved.  相似文献   

19.
分析了软件维护当中的问题,提出了一种针对Web系统的逆向工程方法.该方法以Web站点为输入分析页面的源码,从页面链接和交互进行逆向,构建出站点的部署和任务模型,从而直观地表示出对维护人员有帮助的系统信息,同时介绍了笔者自行开发的逆向工程辅助工具.通过该方法,维护人员能够直接得到系统信息, 而不必去分析源代码,克服了缺乏设计文档的困难.通过一个Web站点的逆向实例,演示了这种方法.  相似文献   

20.
石佑红  赵宏  乔敏 《微机发展》2006,16(9):136-138
基于Web挖掘,提出了一种新的个性化远程教育模型。它能充分利用用户Web访问记录,同时结合用户与站点的交互数据进行挖掘,以此来发现学习者的浏览(学习)兴趣,从而改进页面的设计,优化站点结构,更好地满足学习者的个性化需求,提升个性化远程教育的质量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号