首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
通过分析运用搜索引擎查找网站漏洞,篡改网页、发现隐私信息和发布黄色敏感信息的方法,引入元搜索引擎技术,对网站篡改攻击进行发现,提出元搜索引擎在过滤敏感词、解决隐私泄露等网络监察中的应用方法。  相似文献   

2.
由于信息技术的不断提升,互联网技术的发展也是日新月异,越来越多的人们开始体验互联网所能带来的一些福利的同时,也参与到其中,成为网络信息的发布者和传播者。所以,传统搜索引擎的局限性也将体现出来,针对与这一问题,垂直搜索引擎在特定的领域进行了细化和延伸,以此来弥补传统搜索引擎所带来的不足,它利用主题爬虫技术对网络上某个或者多个主题的相关信息进行爬取、信息整合并且索引,这样就可以有效的采集页面信息,与此同时也节省了网络资源和系统资源。  相似文献   

3.
由于传统系统在实际应用中无法准确计算出网络信息与检索词之间的关联性,导致系统的调和中数数值较低,为此提出基于元搜索引擎的网络信息智能检索系统设计。在系统硬件方面设计了元搜索引擎和检索器,利用元搜索引擎收集海量网络信息,由检索器实现系统网络信息检索功能;在系统软件方面,利用MySQL数据库对系统信息进行存储,并且采用空间向量方式存储网络信息,根据检索词的区分能力以及检索词在网络信息文档出现频率,计算出检索词与网络信息文档的相关度,结合计算结果对检索信息文档进行排序和合并,将合并后的网络信息作为系统最终的检索结果。经实验证明,设计系统调和中数高于传统系统。  相似文献   

4.
元搜索引擎在网络信息检索中的应用   总被引:1,自引:0,他引:1  
张丽丽  武振毅 《信息技术》2007,31(5):178-180
在介绍元搜索引擎的基础上,对其特点和工作原理进行了说明,阐述了元搜索引擎在网络信息检索中的应用,同时对元搜索引擎的发展趋势进行了描述。  相似文献   

5.
基于关联规则的网络行为分析   总被引:1,自引:0,他引:1  
网络用户访问网站的过程中,产生了大量的用户浏览网页的相关记录,隐含着用户在上网过程中的行为习惯。但其中潜在的用户信息难以发现。因此,急需有效的方法提取这些数据中的信息,数据挖掘应用而生。其中,关联规则技术是应用广泛的技术之一。文中利用Apriori算法对Web结构数据进行关联规则挖掘,所得到的规则反映出页面之间的链接关系。分析挖掘结果可得到用户访问的行为规律,为相关网站的安全性和优化改进提供有效的决策依据。  相似文献   

6.
基于概念格的查询扩展词推荐   总被引:1,自引:0,他引:1  
概念格是一种擅长描述层次关系的数学工具,在规则提取和数据分析中有广泛的应用.引入概念格理论对页面——概念形式背景建立了数学模型,在概念格基础上提出了一种查询扩展词生成算法.利用概念格Hasse图以及关联规则置信度以较高的效率生成扩展词作为二次搜索关键词,使信息搜索达到更好的效果.该算法在Diggol智能元搜索引擎上予以实现,取得了良好的效果.  相似文献   

7.
所有的搜索引擎产品,都可以归结为下载、索引和排序三个步骤,即自动下载海量的网页;建立快速有效的索引;对网页进行公平准确的排序。互联网错综复杂,本质是一张图,每个页面都是一个节点,超链接是连接网页的弧,而自动抓取网络信息的程序就是爬虫。索引是基于数据库的,搜索引擎会自动将用户的查询语句转换成布尔代数进行处理。一个搜索引擎对网页的排序很大程度上决定了搜索引擎的质量。  相似文献   

8.
《信息技术》2019,(3):96-101
网络爬虫是近些年来较为热门的技术之一,它被广泛应用于搜索引擎技术,现今技术不断发展成熟,爬虫不仅仅应用于搜索引擎的信息搜集,更多应用于定向信息的采集,比如房价、招聘信息、用户信息等等。文中以Python及其框架Scrapy环境为基础,以知乎网站为例,来爬取用户信息。通过使用Scrapy框架实现爬虫,分析整个爬取的原理,了解爬取的运行流程,特别对反爬虫策略进行优化,实现程序在远程服务器的部署,将信息存储到时下较为流行的No-SQL数据库中,最后对爬取数据进行分析与展示。  相似文献   

9.
Deep Web指无法简单地通过搜索引擎或网络爬虫能够检索到的隐藏在后台数据库中,而往往这些内容具有丰富的信息和数据.获取Deep Web所蕴含的丰富信息的有效方法是构建Deep Web集成框架,而查询接口作为Deep Web的唯一访问接口,所以Deep Web集成系统的关键就是构建Deep Web集成接口.研究的目标是通过自动构建特定领域的本体来表示Deep Web接口信息,从而能够自动识别该领域Deep Web接口来建立索引,提取数据库中丰富的资源.在没有人为干预的情况下展开整个过程.本文的方法能完全自动地提取Deep Web接口信息并派生领域本体,并通过本体贝叶斯网络识别新Deep Web接口,进行匹配.在特定领域,通过一种新的自动从Deep Web接口中提取属性方法,通过WordNet构建成本体语义树,运用得到的领域语义本体树结合贝叶斯网络完成领域分类,并在分类后进行查询接口与集成接口的模式匹配.本文提出的方法通过对比人工提取属性构成的语义树在分类和模式匹配的结果进行对比,验证了该方法的可用性和适用性.  相似文献   

10.
徐想 《信息通信》2016,(4):156-157
针对传统搜索引擎在用户个性化需求方面存在的不足,提出了一种个性化的搜索引擎。利用个性化信息采集系统收集和提取用户的个性化信息,为用户提供个性化和人性化的信息搜索服务。同时在分析现有技术优劣的基础上,设计实现了一套具有高度系统灵活性和扩展性的网络信息自动搜索系统,同时实现了个性化搜索信息的自动保存。  相似文献   

11.
对搜索引擎中评分方法的研究   总被引:1,自引:1,他引:0       下载免费PDF全文
韩立新 《电子学报》2005,33(11):2094-2096
针对搜索引擎评分较为困难的问题,文中提出了一种评分方法.该方法使用协同过滤技术,在同一兴趣组中各用户所提供的搜索结果集的基础上,采用文中提出的并行关联规则算法对各用户的局部有向图进行预处理,找出兴趣组中各成员都感兴趣的页面.然后对这些页面的内容和超链接附近出现的文本以及链接结构进行分析.计算权威页面和引导页面,以找到虽不包括在检索结果中,但相关的页面.此外,在对所获得的页面进行评价时,除考虑Web页自身的链接结构和兴趣组中查询用户对页面的评价,还考虑兴趣组中其它成员对页面的评价和所有成员对页面的使用情况等因素,从而使推荐给用户的页面排序更加合理.  相似文献   

12.
Search engine plays an irreplaceable role in web information organizing and accessing. It is very common for Internet users to query a search engine when retrieving web information. Sensitive data about search engine user’s intentions or behavior can be inferred from his query phrases, the returned results pages, and the webpages he visits subsequently. In order to protect contents of communications from being eavesdropped, some search engines adopt HTTPS by default to provide bidirectional encryption. This only provides an encrypted channel between user and search engine, the majority of webpages indexed in search engines’ results pages are still on HTTP enabled websites and the contents of these webpages can be observed by attackers once the user click on these links. Imitating attackers, we propose a novel approach for attacking secure search through correlating analysis of encrypted search with unencrypted webpages. We show that a simple weighted TF–DF mechanism is sufficient for selecting guessing phrase candidates. Imitating search engine users, by querying these candidates and enumerating webpages indexed in results pages, we can hit the definite query phrases and meanwhile reconstruct user’s web-surfing trails through DNS-based URLs comparison and flow feature statistics-based network traffic analysis. In the experiment including 28 search phrases, we achieved 67.86% hit rate at first guess and 96.43% hit rate within three guesses. Our empirical research shows that HTTPS traffic can be correlated and de-anonymized through HTTP traffic and secured search of search engines are not always secure unless HTTPS by default enabled everywhere.  相似文献   

13.
一种评价搜索引擎信息覆盖率的模型及其验证   总被引:4,自引:0,他引:4  
孟涛  闫宏飞  李晓明 《电子学报》2003,31(8):1168-1172
搜索引擎的网页搜集子系统通常以WWW的网页构成的有向图结构为依据,循着网页间的链接进行搜集从而扩大信息覆盖面.本文针对这种信息覆盖能力,建立量化模型从多个角度考察搜集系统对WWW信息资源的覆盖程度.文章首先分析了网页搜集不完全性的若干因素,在指出信息覆盖率的研究意义后提出了三类重要的信息覆盖率概念,然后围绕其中的数量和质量覆盖率展开研究工作.在建立"采样-权值计算-验证"的覆盖率评测模型之后,以北大"燕穹"网页信息博物馆为考察对象并获得其网页数据,用不同的方式对中国Web进行采样;然后分别采用PageRank和HITS两种网页权值算法算出其中的重要网页作为样本,从量和质的角度考察"燕穹"系统的信息覆盖率,得到合理的数量和质量覆盖率值,从而验证了"燕穹"系统信息覆盖率结论的合理性和该信息覆盖率评测模型的可靠性.  相似文献   

14.
仲兆满  李存华  刘宗田  管燕 《电子学报》2014,42(12):2352-2358
本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系.在原子规则之间关系的基础上,设计了针对内置搜索和通用搜索不同的原子规则分配策略,这样做一方面提高主题信息采集的准确率,另一方面减少搜索采集的次数.针对原子规则直接搜索结果的准确率不高的问题,提出了基于句群的主题与信息相关性的过滤方法.设置138条主题规则(拆分后的原子规则为8223条),14个内置搜索引擎和4个通用搜索引擎,在单位时间内采集到的信息总条数与采集到的相关信息的条数两个方面进行了实验比较.结果表明,所提方法在信息采集数目及相关信息采集数目方面均具有较好的性能.  相似文献   

15.
Traditional World Wide Web search engines, such as AltaVista.com, index and recommend individual Web pages to assist users in locating relevant documents. As the Web grows, however, the number of matching pages increases at a tremendous rate. Users are often overwhelmed by the large answer set recommended by the search engines. Also, if a matching document is a hypertext, the document structure is destroyed and the individual pages that compose the document are returned instead. The logical starting point of the hyperdocument is thus hidden among the large basket of matching pages. Users need to spend a lot of effort browsing through the pages to locate the starting point, a very time consuming process. This paper studies the anchor point indexing problem. The set of anchor points of a given user query is a small set of key pages from which the larger set of documents that are relevant to the query can be easily reached. The use of anchor points helps solve the problems of huge answer set and low precision suffered by most search engines by considering the hyperlink structures of the relevant documents, and by providing a summary view of the result set.  相似文献   

16.
随着互联网的快速发展,网络日益成为人们查找有用数据的重要手段.由于WWW上的信息很多存储在HTML 页面上,网页分类就显得十分必要.利用各种开源软件,详细设计并实现了一个中文网页分类模型,同时利用元搜索技术实现数据采集,有效地提高了采集的广度和深度.在进行中文分词时利用了专业词库,此方法提高了分词的准确率,在建立VSM时提出了一种基于相似度曲线的网页特征抽取方法,此方法能有效解决特征提取的高维问题,并对提高特征区分度,缩小运算量具有良好的效果.  相似文献   

17.
文章在概念抽取算法基础上,提出一种基于概念的元搜索引擎体系结构。这种体系结构提供统一的用户界面.通过查询适配可以同时使用多个独立搜索引擎的高级搜索功能。并且通过概念抽取对搜索结果进一步分析。使其更为准确和详细。系统提供了概念图这种独特的结果显示方式,引导用户细化搜索范围以得到更为精确的结果。  相似文献   

18.
近似镜像网页检测算法的研究与评价   总被引:7,自引:0,他引:7       下载免费PDF全文
王建勇  谢正茂  雷鸣  李晓明 《电子学报》2000,28(Z1):130-132,129
当前在WWW上有众多的近似镜像web页面,如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一.为基于关键词匹配的搜索引擎系统提出了5种近似镜像网页检测算法,并利用“天网”系统对这5种算法进行了实际评测.另外还将它们与现有的方法进行了对比分析.本文所论述的近似镜像检测算法已成功地被用于消除“天网”系统的重复网页,同时也可广泛应用于数字化图书馆的搭建.  相似文献   

19.
李玎  林伟 《电子与信息学报》2022,44(5):1763-1772
搜索引擎中的增量式搜索服务通过发送实时请求为用户更新建议列表。针对搜索加密流量存在的信息泄露,该文提出一种面向中文搜索的侧信道分析方法,利用搜索请求数据包长度增量和时间间隔的可区分性,构建了3阶段的分析模型以实现对用户输入查询的识别。实验结果表明,该方法在4个常用中文搜索引擎中的识别性能均达到理论量化值,对包含1.4×105查询监控集的综合识别准确率达到76%。最后通过评估4种针对性的缓解机制,证明了通过阻断信息泄露来源可有效防御侧信道分析。  相似文献   

20.
Discovery of Web communities, groups of Web pages sharing common interests, is important for assisting users' information retrieval from the Web. This paper describes a method for visualizing Web communities and their internal structures. visualization of Web communities in the form of graphs enables users to access related pages easily, and it often reflects the characteristics of the Web communities. Since related Web pages are often co-referred from the same Web page, the number of co-occurrences of references in a search engine is used for measuring the relation among pages. Two URLs are given to a search engine as keywords, and the value of the number of pages searched from both URLs divided by the number of pages searched from either URL, which is called the Jaccard coefficient, is calculated as the criteria for evaluating the relation between the two URLs. The value is used for determining the length of an edge in a graph so that vertices of related pages will be located close to each other. Our visualization system based on the method succeeds in clarifying various genres of Web communities, although the system does not interpret the contents of the pages. The method of calculating the Jaccard coefficient is easily processed by computer systems, and it is suitable for visualization using the data acquired from a search engine.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号