首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
经过对大量维吾尔文网站的调查与分析,该文从多语种混合网页中针对维吾尔文网页识别进行了研究,这对维吾尔语信息处理工作起着关键作用。首先该文探讨了维吾尔文不规范网页的字符编码转换规则及原理,以此对不规范维吾尔文字符进行了相应的处理,之后介绍了基于修改的N-Gram方法和基于维吾尔语常用词特征向量的两种方法,其中后者融合了维吾尔文常用候选词语料库及向量空间模型(Vector Space Model)。使用三种不同类型的维吾尔文网页文本作为本研究的数据集,在此基础上验证了该文提出的网页识别方法,以及采用不同的方法进行了网页识别的实验。实验结果表明,基于N-Gram的方法对正文较长的新闻或论坛网页的识别性能最佳,反而基于常用词特征向量的方法对短文本的网页识别性能优越N-Gram。所提方法对维吾尔文网页识别的整体性能达到90%以上,并验证了这两种方法的有效性。  相似文献   

2.
为用后缀树聚类算法对维吾尔文网页进行聚类,通过分析可扩展后缀树和维吾尔文的特点设计了维吾尔文后缀树构造算法。实验结果证明该方法能够在线性的时间范围内构造维吾尔文后缀树,并用它来对维吾尔文网页进行聚类。  相似文献   

3.
提出一种解决信息检索中信息过载问题的方案.通过对用户搜索习惯分析,发现用户对网页的选取主要依据搜索返回的网页摘要信息.分析摘要信息,运用人工智能中实例学习理论,推断用户的搜索目的.通过实例证明,该方案应用于搜索引擎,可以提高搜索引擎的查准率和智能性.  相似文献   

4.
网页去重方法研究   总被引:2,自引:0,他引:2  
随着互联网技术的高速发展,网络中网站的数量成倍增长,这些网站提供了大量的信息,但不同的网站中存在着大量的重复信息,这些信息被搜索引擎反复的索引,因此在用户使用搜索引擎检索信息的时候就会发现有很多是来自不同网站的相同信息。采用信息抽取技术提取网页正文内容,利用加密技术对文本字符串进行转换并形成唯一的数字串,通过对数字串对比,标记出具有相同内容的网页,以此来提高搜索引擎的效率和质量。  相似文献   

5.
吕月娥  李信利 《福建电脑》2007,(2):99-99,122
随着web技术的发展,Web网页越来越多.目前的搜索引擎都是根据用户所给出查询词串的逻辑组合机械地找出一系列匹配网页,这就造成了垃圾信息过多.这篇论文考虑了网页信息类别、网页更新时间和用户点击数,提出了一种基于信息类别的网页过滤算法.这个算法能很好大优化查询结果,提高搜索引擎的性能.  相似文献   

6.
针对传统的主题爬虫对网页信息缺乏在知识层面上的处理和理解的问题进行了研究,提出了一种面向增量同生主题的维吾尔文爬虫,通过建立一个增量主题词库优化传统的主题模型,来描述维吾尔文关键词的应用语境及场景,提高了计算网页相关度的准确率。用改进的IC主题敏感算法来预测子页面优先级,过滤无关的网页地址。依据上述方法编写爬虫系统,用构建的维吾尔文语料库进行实验,表明了基于此模型的爬虫具有更好的稳定性和准确度。  相似文献   

7.
本文论述了侨务信息网络搜索引擎 的设计,该搜索引擎主要通过下载网页,分解网页信息,分词,侨务特征提取等方法自动识别侨务信息,为侨务信息的收提供了一种新的途径。  相似文献   

8.
夏斌  徐彬 《电脑开发与应用》2007,20(5):16-17,20
针对目前搜索引擎返回候选信息过多从而使用户不能准确查找与主题有关结果的问题,提出了基于超链接信息的搜索引擎检索结果聚类方法,通过对网页的超链接锚文档和网页文档内容挖掘,最终将网页聚成不同的子类别。这种方法在依据网页内容进行聚类的同时,充分利用了Web结构和超链接信息,比传统的结构挖掘方法更能体现网站文档的内容特点,从而提高了聚类的准确性。  相似文献   

9.
垃圾网页在利益的驱使下采用作弊手段欺骗搜索引擎获得更高的排名,干扰了用户对信息的获取.通过分析网页内容特征及其分布,提出了结合内容特征信息与TrustRank算法的方法对垃圾网页进行检测.实验结果表明,结合了内容特征信息的TrustRank算法能够有效的检测出垃圾网页.  相似文献   

10.
大型网站是网络信息的核心,其信息规模之大,更新速度之快是中小型网站不可比拟的,对大型网站网页搜索的好坏直接影响搜索引擎的整体性能.本文在分析分类网页更新策略的基础上,根据大型网站本身的特点提出了一种增量式信息更新方法.实验分析表明,这种增量式信息更新方法很大程度上提高了大型网站搜索引擎网页的更新效率.  相似文献   

11.
基于Nutch的XML网站全文搜索引擎实现   总被引:2,自引:0,他引:2       下载免费PDF全文
吴敏琦  丁岳伟 《计算机工程》2008,34(15):95-96,1
普通搜索引擎的网页抓取程序只能理解常见HTML标签,无法对XML网站的内容做有效解析。该文建立一个包含动态自定义标签的纯XML网站,提出借助XSL样式信息帮助网页抓取程序理解XML网页标签含义的方案,实现了基于Nutch的XML网站全文搜索引擎。  相似文献   

12.
介绍网站与搜索引擎之间的关系,从而引入网站制作对搜索引擎的影响,深入地从网页的命名、标题、题头标签的作用等几个方面描述如何建设一个便于搜索引擎的好网站。当搜索引擎收录访问网站时,能够迅速地抓住网页的要领,完整地将网页的信息带走,让用户在搜索信息时可以得到更多与网站相关的内容。  相似文献   

13.
介绍网站与搜索引擎之间的关系,从而引入网站制作对搜索引擎的影响,深入地从网页的命名、标题、题头标签的作用等几个方面描述如何建设一个便于搜索引擎的好网站。当搜索引擎收录访问网站时,能够迅速地抓住网页的要领,完整地将网页的信息带走,让用户在搜索信息时可以得到更多与网站相关的内容。  相似文献   

14.
本文针对传统搜索引擎在搜索引擎的查全率和查准率方面的弱点,分析了站内搜索的重要性,提出了一种基于网站站内的机器人搜索引擎,并具体阐述了基于机器人综合式搜索引擎的网站站内搜索引擎的技术实现方式.该搜索引擎能够快速查找用户所需的信息,最大程度地满足用户需求.  相似文献   

15.
站内搜索引擎是针对某个网站内部的全文检索服务,具备信息检索的核心技术。提出在文件系统上构建的解决方案,使用全文检索开发工具包——Lucene,实现站内搜索引擎系统。不仅针对关系数据库的数据,还对服务器文件系统上的各种非结构化文档数据进行加工、信息抽取,并创建索引文件进行搜索,最终实现对站内被检索数据的导航浏览,关键字高亮提示,筛选排序等。经过测试,检索效率较高,效果良好。  相似文献   

16.
网络蜘蛛WebLech是一种优秀的Web站点下载开源工具。该文分析WebLech的特点和工作流程,完善WebLech的起始地址设置,并丰富其链接和所获取的网页类型。使用改进后的WebLech设计了一款能在用户设置的IP范围内进行搜索的基于内容的搜索引擎。  相似文献   

17.
18.
Web搜索引擎框架研究   总被引:43,自引:1,他引:42  
Web搜索引擎是Internet上非常有用的信息检索工具,但是由于目前搜索引擎检索出的信息量庞大,且一个特定的搜索引擎主要包含某一特定领域的信息,这使得用户很难从某一个搜索引擎获得准确的导航信息。文中提出一个新的Web搜索引擎框架GSE,并提出了一个适合于Web信息获取与处理的语言WERPL。通过WIRPL可以将多个Web搜索引擎结合起来,为用户提供一个一致、高效、准确的Web搜索引擎。  相似文献   

19.
搜索引擎的Web Robot技术与优化   总被引:4,自引:0,他引:4  
崔泽永  常晓燕 《微机发展》2004,14(4):99-102
针对目前如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求,文中对搜索引擎作了概述,重点阐述了搜索引擎的Web Robot搜索器的搜索策略、文档提取以及搜索优化措施,提出了改进搜索引擎的Web Rohot的方法,改进后的Web Robot能够更有效地发现和搜集信息。为搜索引擎进行信息搜集,高效、稳定的Web Rohot保证了为用户提供的网上信息的全面性和实时性。  相似文献   

20.
搜索引擎是Internet信息服务的主体,搜索引擎的设计是各网站建设的重要部分。介绍了搜索引擎的分类和各类搜索引擎的工作过程。在此基础上,指出了蜘蛛程序是由网页下载和网页内容分析及信息提取两部分组成,并结合用C Builder作为开发工具给出了这两部分的源代码示例。最后介绍了蜘蛛程序设计要注意的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号