首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 328 毫秒
1.
为了适应Internet信息量的快速增长,搜索引擎采用分布式技术搜集信息。采用分布式搜集技术的具体应用中主要存在两个关键问题:URL匹配和系统负载平衡。针对现有的几种分布式信息搜集系统的设计中存在的一些不足,提出了利用URL分级散列进行定位和匹配的方法。根据中文网络信息的特点,分析了几个对字符串散列较好的函数,设计了两种URL散列函数,应用于分布式中文信息搜集系统中。实验表明,系统在减少URL匹配的资源消耗和提高系统负载的均衡性方面有很好的效果。  相似文献   

2.
Web集群服务的请求分配算法大多使用Hash方法对请求URL进行散列,并按一定规则对请求内容进行负载均衡调度.提出了一种基于URL词典排序及全部URL按其词典序列分为k*n个集合的URLALLOC算法.该算法通过对URL进行词典序排序并将全部URL按其词典序列分为k*n个集合,依访问流量排序及分段互补等一系列方法将Web负载尽可能均匀地分布到多个后端服务器中.仿真实验结果表明:URLALLOC算法比现有的URL散列方法具有更好的负载均衡能力.  相似文献   

3.
搜索引擎在采用分布式技术的信息搜集中存在URL匹配和系统负载平衡的问题。针对现有的几种分布式信息搜集系统设计的不足,提出了对URL分级散列进行定位和匹配的方法,给出了两种适用于中文信息搜集的URL散列函数,并进行了实验分析。  相似文献   

4.
在Web信息处理的研究中,不少情况下需要对很大的URL序列进行散列(hashing)操作.本文提出了一个针对URL数据集合的均匀哈希函数,它是ELFhash函数的变型.通过对天网搜索引擎采集的1亿多个URL集合的抽样实验表明:它能有效使得URL集在哈希表中均匀散布.并通过与MD5和SHA-1的对比,认为它是实用的.最后,指出了进一步的研究方向.  相似文献   

5.
结合双混沌系统以及传统散列函数的优点,提出一种新的带密钥单向散列函数的构造方法。该方法将帐篷映射和Logistic混沌映射结合组成双混沌系统生成混沌序列,作为动态参数代替传统散列算法中的固定参数参与轮函数的运算并生成散列摘要。结果表明,所提方法具有较大的密钥空间,很好的单向性,初值和密钥敏感性。  相似文献   

6.
一种快速的基于URL的垃圾邮件过滤系统   总被引:2,自引:0,他引:2  
垃圾邮件是当前Internet上关注一个焦点问题,随着垃圾邮件的伪装技术的不断更新,以前主要的几种垃圾邮件过滤技术面临着新的挑战。针对目前垃圾邮件大都含有要宣传网站的URL地址的特点,我们构建了一个基于URL的垃圾邮件过滤系统,通过查询邮件中是否含有URL黑名单中的URL地址,来识别垃圾邮件。在URL地址查询过程中,采用Hplf散列函数来加速查询。通过试验测试,该系统能有效地减少垃圾邮件的数量。  相似文献   

7.
《计算机工程》2017,(12):165-172
针对机器无法理解Web表格语义信息的问题,传统的实体列发现方法通常依靠表头信息和知识库发现实体列,不适用于没有表头的Web表格。为此,提出一种基于列值间近似依赖关系和规范化的Web表格实体列发现算法,对无表头或者无法恢复出完整表头的表格甚至多实体列表格进行实体列标注。由Web表格中的属性值探测出Web表格属性间内在的近似函数依赖关系,根据Web表格的特点对噪声函数依赖进行删减,通过函数依赖集进行规范化,得到Web表格的实体列。与利用知识库进行实体列探测的算法相比,该算法不依赖表头信息,召回率和精确度均提高了3%~5%,适用性更强。  相似文献   

8.
Web日志的高效多能挖掘算法   总被引:76,自引:0,他引:76  
通过对Web服务器日志文件和客户交易数据进行分析,可以发现相似客户群体、相关Web页面和频繁访问路径,提出了一种新颖的Web日志挖掘算法。在该算法中,首先以Web站点URL为行、以UserID为列建立URL-UserID关联矩阵、元素值为用户的访问次数,然后,在列向量进行相似性分析得到相似客户群体,对行向量进行相似性度量获得相关Web页面,对后者再进一步还可以发现频繁访问路径。实验结果表明了算法的有效性。  相似文献   

9.
针对Web文本分类的低效率问题,利用Web文本URL的特性,提出了一种混合URL及文本语义进行高速Web文本流的快速近似分类方法.首先通过学习训练样本和专家指定等方式得到使用URL和不使用URL进行分类的两个集合:肯定集合和否定集合.在分类过程中,得到Web文本的URL,从中提取和剥离出URL的关键特性对其进行建模,而后使用根据模型所属集合选择分类算法进行分类.定时对两个集合进行回归测试,根据误差及时更新两个集合以保证分类精度.实验表明,与传统文本分类方法、混合Link-Based和Content-Based的方法及纯URL-Based方法相比,该方法在不影响精度的前提下,可大幅度提高分类的性能.  相似文献   

10.
基于SPI与VSM的Web访问控制与过滤系统的研究与设计   总被引:1,自引:0,他引:1  
对用户请求的Web文本信息进行实时控制与过滤是信息安全的一个重要研究分支.基于Winsock SPI技术实现了一个Web访问控制与过滤系统.系统利用VSM模型计算网页间的相似度,采用URL规则和Web页内容审计的混合策略进行过滤.系统既能过滤新Web页,又能自动维护URL规则库,经多次测试效果良好.  相似文献   

11.
Web信息采集中的哈希函数比较   总被引:4,自引:0,他引:4  
在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、Hflp、hf和Strhash的一阶和二阶哈希冲突率.实验结果表明,Strhash和Tianlhash的性能较佳,值得推荐.并且,ELFhash的测试性能要优于HHp和hf.采用二阶哈希后的天罗Web信息采集系统,占用几兆的内存空间,大大提高了采集速度,并降低了数据库的负荷.  相似文献   

12.
Web Science has favoured macroscopic approaches which have revealed much about the Web's structural patterns. We argue that contextualised knowledge about hyperlinks on the Web has not advanced at the same rate and that complementary intermediate and micro-scale investigations are essential for a better understanding of the motivations, functions and meanings of these links.

We present an investigation that attempted to overcome the shortcomings of current theoretical frameworks and methodological techniques. The focus of this article lies in the demonstration of the viability of studying the web at different scales of analysis without loss of coherence guided by the assumption of the Web as media.

Results of our quali-quantitative, multi-scale and study of the international connectivity of websites registered in Brazil are presented. At the macro-scale, previous indications of high international connectivity are confirmed. Intermediate (meso) and micro-scale analyses focused on the connectivity between Brazilian and German websites and contradicted the conclusions about the meanings and functions of hyperlinks commonly associated with structural analysis. Links between Brazilian and German websites were shown to derive from a large number of formal and generic links, challenging the prevalent association that large quantities of incoming links are an indication of high relevance.  相似文献   

13.
在城市风暴潮灾害辅助决策系统中,存在大量的Web Services作为数据或功能接口供用户调用。针对Web Services的管理和使用性能的实时监控问题,采用Web Services和Flex技术构建一个基于B/S架构的服务管理监控平台,Web Services结合J2EE来处理系统的业务逻辑,提供数据接口,而Flex则为系统的页面展示提供了必要的技术支撑。系统运行结果表明,该系统可以有效地对Web服务进行分类展示和增、删、改、查处理,以及对Windows、Solaris和Linux操作系统进行CPU、内存使用率等信息的实时获取和监控展示。  相似文献   

14.
Web服务软件由于其强大的功能和良好的特性得到了越来越广泛的应用,但针对Web服务测试方法和技术的研究还处于初级阶段.通过对Web服务软件的特点的分析,归纳了近年来一些典型的Web服务测试方法和技术,并对当前较为有代表性的研究工作进行了总结,探讨了若干研究方向.  相似文献   

15.
Deep Web contents are accessed by queries submitted to Web databases and the returned data records are enwrapped in dynamically generated Web pages (they will be called deep Web pages in this paper). Extracting structured data from deep Web pages is a challenging problem due to the underlying intricate structures of such pages. Until now, a large number of techniques have been proposed to address this problem, but all of them have inherent limitations because they are Web-page-programming-language-dependent. As the popular two-dimensional media, the contents on Web pages are always displayed regularly for users to browse. This motivates us to seek a different way for deep Web data extraction to overcome the limitations of previous works by utilizing some interesting common visual features on the deep Web pages. In this paper, a novel vision-based approach that is Web-page-programming-language-independent is proposed. This approach primarily utilizes the visual features on the deep Web pages to implement deep Web data extraction, including data record extraction and data item extraction. We also propose a new evaluation measure revision to capture the amount of human effort needed to produce perfect extraction. Our experiments on a large set of Web databases show that the proposed vision-based approach is highly effective for deep Web data extraction.  相似文献   

16.
周敏  张为群  林已杰  石莹 《计算机科学》2010,37(5):127-129183
随着Web服务技术的广泛使用,从多个功能相似的Web服务中选取较合适的Web服务成了亟需解决的问题。对Web服务本体Owl-S进行扩展,给Web服务添加加费用、时间、可靠性等服务质量指标。从多个方面获取并规范度量指标,根据这些服务质量指标建立评价模型,根据评价模型得到功能相似Web服务的综合服务质量排序,为服务选取提供依据。  相似文献   

17.
基于隐马尔可夫模型的在线零售站点的自适应   总被引:6,自引:1,他引:5  
开展在线零售业务存在的问题是,群体用户必须浏览许多无关的页面,才能最终找到自己所需要的商品.解决该问题的一个思路是:建立一个隐马尔可夫模型,通过关联规则发现算法发现关联购买集合;然后通过Viterbi算法求出从首页到一个关联购买集合中心的具有最大被购买概率的一些路径;在这些路径上标注关联购买集合;当处理完所有的关联购买集合之后,通过竞争来决定出现在导航页面上的物品集,最终将导航页合理地变成导航购买页.即站点可以自动根据群体用户的访问购买情况进行自适应.此外,该方法也是一种很好的通过建立隐马尔可夫模型来分析  相似文献   

18.
Web应用服务器:新一代中间件   总被引:4,自引:0,他引:4  
Web应用服务器是Web计算环境下产生的新一代中间件,为创建、部署、运行、集成和管理事务性Web应用提供一个跨平台运行环境,是我国企业信息化的基础软件设施。诸多国际知名IT企业纷纷推出其各自的Web应用服务器产品和系统。本文全面系统地对Web应用服务器进行综述,主要包括传统中问件的发展及其挑战,Web应用服务器的定义、主要功能、分类、研究内容和评测标准。根据评测标准,对若干主流Web应用服务器从功能和性能两个方面进行分析和比较。此外,指出了Web应用服务器目前存在的不足以及未来发展趋势。  相似文献   

19.
随着GIS与RS的集成、数字地球、信息共享等研究工作的深入开展,如何实现遥感影像在Internet环境下的快速发布就成为一项迫切的研究工作。目前比较成功的影像发布方法是将影像重采样、分层切割进而建立影像金字塔存储模型。网络环境下遥感影像的切割算法是解决上述影像金字塔问题的有效途径。首先讨论了以JNIOava Native Interface)技术为基础实现Java与C++联合编程的一些关键问题。进而,以Java与C++联合编程为基础,实现了面向Internet网络环境的、基于B/S架构的遥感影像切割算法。这种实现方法结合了C++语言在图像处理方面的高效性和Java语言在网络编程方面的优越性,从而为遥感影像的网络快速发布提供了保障。实践证明该方案可行,且算法稳定可靠、易于操作。  相似文献   

20.
针对现有Web社会关系评估方法准确率较低的问题,提出一种结合网页与语句共现的Web社会关系评估方法。根据人名对在Web中的网页共现和页面内语句共现情况,综合评估2个人之间社会关系的强弱,设计相应的关系评估函数。实验结果表明,该评估方法能准确地度量Web社会关系的强弱,并且在度量关系权重时,语句共现比网页共现对评估结果的准确性起到更重要的决定作用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号