首页 | 本学科首页   官方微博 | 高级检索  
 共查询到20条相似文献,搜索用时 109 毫秒
Web页面相似度搜索对于网络新闻推荐、近似查询等研究领域具有重要作用。SimRank是经典的相似度计算模型,但其预计算时间和空间开销非常巨大,不适用大规模Web页面网络。利用SimRank快速收敛的特点,在SimRank基础上提出高效Web页面相似度搜索方法(WSR),预计算1步迭代相似度矩阵,根据预计算的1步迭代相似度矩阵在线计算给定查询页面和其他页面的2步迭代相似度。通过对Web网络进行静态剪枝,进一步提高预计算和在线查询处理的效率。实验结果显示,WSR显著降低了存储开销和预计算时间开销,且具有较高精确度和快速查询响应时间。  相似文献   

基于页面Block的Web档案采集和存储   总被引:1,自引:0,他引:1  
提出了基于页面Block对Web页面的采集和存储方式,并详细表述了该方法如何完成基于布局页面分区、Block主题的抽取、版本和差异的比较以及增量存储的方式.实现了一个Web归档原型系统,并对所提出的算法进行了详细的测试.理论和实验表明,所提出的基于页面Block的Web档案(Web archive)采集和存储方法能够很好地适应Web档案的管理方式,并对基于Web档案的查询、搜索、知识发现和数据挖掘等应用提供有利的数据资源.  相似文献   

Web页面信息的视觉搜索行为特征的研究   总被引:2,自引:0,他引:2  
网页是非常重要的人机界面,网页信息如何有效、合理地布局以引导人们的视觉行为,进而提高视觉搜索效率是网页设计者重点考虑的问题。从认知科学角度研究人们在Web页面上进行设计视觉信息搜索时的视觉行为特性,同时探讨浮动广告对于视觉搜索行为的影响。实验结果显示:无论是否有浮动广告,Web页面周边区域的注视时间和注视次数都显著大于中心区域。实验结果表明,Web页面视觉性搜索信息时,更多地注视周边区域,呈现视觉搜索的周边特性;而浮动广告对于视觉搜索行为没有显著影响。实验结果说明:(1)从视觉搜索角度来看,对于具有超级链接性质的标题信息,放置在周边区域比在中心区域更有利于人们的视觉搜索行为;(2)浮动广告的广告效应不明显。  相似文献   

网络钓鱼Web页面检测算法   总被引:4,自引:0,他引:4       下载免费PDF全文
网络钓鱼(Phishing)攻击在电子商务和电子金融中普遍存在。该文分析Phishing页面敏感特征,提出一种防御Phishing攻击的Web页面检测算法。该算法通过分析Web页面的文档对象模型来提取Phishing敏感特征,使用BP神经网络检测页面异常程度,利用线性分类器判断该页面是否为Phishing页面。该算法成功过滤了Phishing页面,有效地阻止了Phishing攻击。  相似文献   

李树成  田学东 《微机发展》2005,15(8):145-147
提出了一种结合最新TDT技术、基于增强学习的优先Web环境主题搜索策略,并以此设计主题搜索器系统。该系统通过引入基于领域知识的TDT文本分类技术,大大改进了基于关键字的Naive Bayes模型主题相似性判别的准确性;通过引入基于增强学习的页面评估函数特征化主题Web环境,有效地提高了稀有信息的搜索能力。试验结果表明,该系统具有较高的实用性。  相似文献   

提出了一种结合最新TDT技术、基于增强学习的优先Web环境主题搜索策略,并以此设计主题搜索器系统.该系统通过引入基于领域知识的TDT文本分类技术,大大改进了基于关键字的Naive Bayes模型主题相似性判别的准确性;通过引入基于增强学习的页面评估函数特征化主题Web环境,有效地提高了稀有信息的搜索能力.试验结果表明,该系统具有较高的实用性.  相似文献   

移动终端Web页面的优化处理研究   总被引:2,自引:0,他引:2  
移动终端的多样性及用户的个性化要求是传统Web页面遇到的挑战。为获得与电脑相一致的浏览效果,提出一个服务器端的Web页面自适应方法,通过优化系统处理生成自适应页面。该方法通过用户为设备设置Web页面上项的优先级,系统对页面项进行重新排序、显示和删除处理。测试结果表明,系统及自适应页面具有可用性。  相似文献   

基于Web的多媒体数据挖掘技术研究   总被引:1,自引:0,他引:1  
提出了一个基于Web的多媒体数据挖掘系统的框架结构模型,一种联合查询的优化方案和一种多媒体数据挖掘算法。该模型首先通过多媒体概念检索技术智能化地在Internet上搜索Web页面,通过向量空间模型进行多媒体信息检索,最后将检索的结果传送给用户。  相似文献   

Web数据库技术进展   总被引:8,自引:0,他引:8  
一、引言 WWW是目前Internet上发展最快的领域,也是Internet网上最重要的信息检索手段。早期的Web页面(Home Page)主要用来传递静态HTML文档,后来由于CGI接口,特别是Java和JavaScript语言的引入,使得Web页面可以方便地传播动态信息。借助Java和JavaScript语言,可以设计出具有动画、声音、图形/图像和各种特殊效果的Web页面。 WWW的主要内容包括超文本传输协议(HTTP)、超文本标记语言(HTML)、通用网关接口(CGI)、Java和JavaScript语言等。 HTTP(Hyper Text Transfer Protocol),是一个专门为Web服务器和Web浏览器之间交换数据而设计的网络协议。它通过规定通用资源定位符(UBLs)使客户端的浏览器与服务器的Web资源建立链接关系,从而奠定  相似文献   

具有相似功能的Web应用,其页面样式和布局往往存在很大的相似性。针对当前Web页面开发复杂度高且效率低的情况,提出一种挖掘现有页面布局结构和样式属性的方法来实现Web页面自动化设计。该方法充分利用Web网页布局结构上的特点,采用分级处理的方式,首先利用页面分块算法思想通过相似度计算挖掘出具有相似性的代码块,其次通过结合RoSunday方法解析样式文件快速匹配出节点集合对应的样式表并建立文档模型树结构,各个子模块之间的相互组合可以实现页面的自动化设计。通过应用实例表明,该方法能动态地设计并生成页面,有效提升Web页面开发效率。  相似文献   

Time plays important roles in Web search, because most Web pages contain temporal information and a lot of Web queries are time-related. How to integrate temporal information in Web search engines has been a research focus in recent years. However, traditional search engines have little support in processing temporal-textual Web queries. Aiming at solving this problem, in this paper, we concentrate on the extraction of the focused time for Web pages, which refers to the most appropriate time associated with Web pages, and then we used focused time to improve the search efficiency for time-sensitive queries. In particular, three critical issues are deeply studied in this paper. The first issue is to extract implicit temporal expressions from Web pages. The second one is to determine the focused time among all the extracted temporal information, and the last issue is to integrate focused time into a search engine. For the first issue, we propose a new dynamic approach to resolve the implicit temporal expressions in Web pages. For the second issue, we present a score model to determine the focused time for Web pages. Our score model takes into account both the frequency of temporal information in Web pages and the containment relationship among temporal information. For the third issue, we combine the textual similarity and the temporal similarity between queries and documents in the ranking process. To evaluate the effectiveness and efficiency of the proposed approaches, we build a prototype system called Time-Aware Search Engine (TASE). TASE is able to extract both the explicit and implicit temporal expressions for Web pages, and calculate the relevant score between Web pages and each temporal expression, and re-rank search results based on the temporal-textual relevance between Web pages and queries. Finally, we conduct experiments on real data sets. The results show that our approach has high accuracy in resolving implicit temporal expressions and extracting focused time, and has better ranking effectiveness for time-sensitive Web queries than its competitor algorithms.  相似文献   

Most Web pages contain location information, which are usually neglected by traditional search engines. Queries combining location and textual terms are called as spatial textual Web queries. Based on the fact that traditional search engines pay little attention in the location information in Web pages, in this paper we study a framework to utilize location information for Web search. The proposed framework consists of an offline stage to extract focused locations for crawled Web pages, as well as an online ranking stage to perform location-aware ranking for search results. The focused locations of a Web page refer to the most appropriate locations associated with the Web page. In the offline stage, we extract the focused locations and keywords from Web pages and map each keyword with specific focused locations, which forms a set of <keyword, location> pairs. In the second online query processing stage, we extract keywords from the query, and computer the ranking scores based on location relevance and the location-constrained scores for each querying keyword. The experiments on various real datasets crawled from nj.gov, BBC and New York Time show that the performance of our algorithm on focused location extraction is superior to previous methods and the proposed ranking algorithm has the best performance w.r.t different spatial textual queries.  相似文献   

Deep Web查询接口是Web数据库的接口,其对于Deep Web数据库集成至关重要。本文根据网页表单的结构特征定义查询接口;针对非提交查询法,给出界定Deep Web查询接口的一些规则;提出提交查询法,根据链接属性的特点进行判断,找到包含查询接口的页面;采用决策树C4.5算法进行分类,并用Java语言实现Deep Web查询接口系统。  相似文献   

加速评估算法:一种提高Web结构挖掘质量的新方法   总被引:13,自引:1,他引:13  
利用Web结构挖掘可以找到Web上的高质量网页,它大大地提高了搜索引擎的检索精度,目前的Web结构挖掘算法是通过统计链接到每个页面的超链接的数量和源结点的质量对页面进行评估,基于统计链接数目的算法存在一个严重缺陷:页面评价两极分化,一些传统的高质量页面经常出现在Web检索结果的前面,而Web上新加入的高质量页面很难被用户找到,提出了加速评估算法以克服现有Web超链接分析中的不足,并通过搜索引擎平台对算法进行了测试和验证。  相似文献   

针对日益突出的网页访问问题,设计了一种新型分布式Web Spider.该分布式Web Spider采用中央控制节点来协调各个web spider的行为,利用宽度优先搜索来获得高质量的网页,通过对DNS缓存来提高访问web server的速度,以增加并行线程数量的方式来增加网页下载速度,并能动态地加入web spider节点和子中央控制节点,具有很强的灵活性和扩张能力.实验结果表明该分布式Web Spider作为搜索引擎的前端能够快速有效地下载网页,具有较好的性能.  相似文献   

Usability and visual impact in Web pages are not necessarily compatible ideals. This paper investigates the effect of colour on the presentation of information in a navigation bar, and aims to contribute towards design guidelines for the use of colour on the Web. We studied the effect of the combination of text and background colour on visual search performance and subjective preference. Twenty-nine participants carried out a visual search task using mock Web pages. Analysis showed that higher contrasts between text and background colour led to faster searching and were rated more favourably. The results are discussed in terms of visual search processes and design recommendations are given.  相似文献   

Queries to Web search engines are usually short and ambiguous, which provides insufficient information needs of users for effectively retrieving relevant Web pages. To address this problem, query suggestion is implemented by most search engines. However, existing methods do not leverage the contradiction between accuracy and computation complexity appropriately (e.g. Google's ‘Search related to’ and Yahoo's ‘Also Try’). In this paper, the recommended words are extracted from the search results of the query, which guarantees the real time of query suggestion properly. A scheme for ranking words based on semantic similarity presents a list of words as the query suggestion results, which ensures the accuracy of query suggestion. Moreover, the experimental results show that the proposed method significantly improves the quality of query suggestion over some popular Web search engines (e.g. Google and Yahoo). Finally, an offline experiment that compares the accuracy of snippets in capturing the number of words in a document is performed, which increases the confidence of the method proposed by the paper. Copyright © 2010 John Wiley & Sons, Ltd.  相似文献   

一种互联网信息智能搜索新方法   总被引:10,自引:1,他引:9  
提出了一种互联网信息智能搜索新方法。该方法能够从组织结构和内容描述类似的同类网站中,准确有效搜索出隐藏于其内部的目标网页。为此它采用了将网页间相互关联特征与网页内容特征描述有机结合而形成的一种新的搜索知识表示方法。基于这种知识表示方法及其所表示的知识;该智能搜索方法不仅能够对风站中网页进行深度优先的智能搜索,而且还能够通过对其搜索过程和结果的自学习来获取更多更好的搜索知识。初步实验结果表明,这种智能搜索新方法在对同类型网站的目标网页搜索中具有很强的深度网页搜索能力。  相似文献   

智能化搜索是当今商务网站制作搜索引擎的一个发展方向 ,它的特点就是迎合每个用户的兴趣 ,将尽量精确的有关网页页面展现在用户面前。粗糙集理论是一种处理含糊和不精确性问题的新型数学工具 ,特别对于数据挖掘和知识发现更是提供了一个完备的理论基础。本文首先对Rough集理论中上、下近似集和近似精度的基本概念进行了描述 ,然后引用了Rough集中的上、下近似集及其近似精度的理论 ,利用简化的WWW模型 ,将所搜索到的网页形成一棵用户兴趣树 ,再对此棵树上的网页结点进行约简 ,从而能够使展现在用户面前的网页页面尽量准确  相似文献   

搜索引擎的Web Robot技术与优化   总被引:4,自引:0,他引:4  
崔泽永  常晓燕 《微机发展》2004,14(4):99-102
针对目前如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求,文中对搜索引擎作了概述,重点阐述了搜索引擎的Web Robot搜索器的搜索策略、文档提取以及搜索优化措施,提出了改进搜索引擎的Web Rohot的方法,改进后的Web Robot能够更有效地发现和搜集信息。为搜索引擎进行信息搜集,高效、稳定的Web Rohot保证了为用户提供的网上信息的全面性和实时性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号