共查询到20条相似文献,搜索用时 93 毫秒
1.
经过对大量维吾尔文网站的调查与分析,该文从多语种混合网页中针对维吾尔文网页识别进行了研究,这对维吾尔语信息处理工作起着关键作用。首先该文探讨了维吾尔文不规范网页的字符编码转换规则及原理,以此对不规范维吾尔文字符进行了相应的处理,之后介绍了基于修改的N-Gram方法和基于维吾尔语常用词特征向量的两种方法,其中后者融合了维吾尔文常用候选词语料库及向量空间模型(Vector Space Model)。使用三种不同类型的维吾尔文网页文本作为本研究的数据集,在此基础上验证了该文提出的网页识别方法,以及采用不同的方法进行了网页识别的实验。实验结果表明,基于N-Gram的方法对正文较长的新闻或论坛网页的识别性能最佳,反而基于常用词特征向量的方法对短文本的网页识别性能优越N-Gram。所提方法对维吾尔文网页识别的整体性能达到90%以上,并验证了这两种方法的有效性。 相似文献
2.
为用后缀树聚类算法对维吾尔文网页进行聚类,通过分析可扩展后缀树和维吾尔文的特点设计了维吾尔文后缀树构造算法。实验结果证明该方法能够在线性的时间范围内构造维吾尔文后缀树,并用它来对维吾尔文网页进行聚类。 相似文献
3.
提出一种解决信息检索中信息过载问题的方案.通过对用户搜索习惯分析,发现用户对网页的选取主要依据搜索返回的网页摘要信息.分析摘要信息,运用人工智能中实例学习理论,推断用户的搜索目的.通过实例证明,该方案应用于搜索引擎,可以提高搜索引擎的查准率和智能性. 相似文献
4.
5.
随着web技术的发展,Web网页越来越多.目前的搜索引擎都是根据用户所给出查询词串的逻辑组合机械地找出一系列匹配网页,这就造成了垃圾信息过多.这篇论文考虑了网页信息类别、网页更新时间和用户点击数,提出了一种基于信息类别的网页过滤算法.这个算法能很好大优化查询结果,提高搜索引擎的性能. 相似文献
6.
针对传统的主题爬虫对网页信息缺乏在知识层面上的处理和理解的问题进行了研究,提出了一种面向增量同生主题的维吾尔文爬虫,通过建立一个增量主题词库优化传统的主题模型,来描述维吾尔文关键词的应用语境及场景,提高了计算网页相关度的准确率。用改进的IC主题敏感算法来预测子页面优先级,过滤无关的网页地址。依据上述方法编写爬虫系统,用构建的维吾尔文语料库进行实验,表明了基于此模型的爬虫具有更好的稳定性和准确度。 相似文献
7.
本文论述了侨务信息网络搜索引擎 的设计,该搜索引擎主要通过下载网页,分解网页信息,分词,侨务特征提取等方法自动识别侨务信息,为侨务信息的收提供了一种新的途径。 相似文献
8.
针对目前搜索引擎返回候选信息过多从而使用户不能准确查找与主题有关结果的问题,提出了基于超链接信息的搜索引擎检索结果聚类方法,通过对网页的超链接锚文档和网页文档内容挖掘,最终将网页聚成不同的子类别。这种方法在依据网页内容进行聚类的同时,充分利用了Web结构和超链接信息,比传统的结构挖掘方法更能体现网站文档的内容特点,从而提高了聚类的准确性。 相似文献
9.
垃圾网页在利益的驱使下采用作弊手段欺骗搜索引擎获得更高的排名,干扰了用户对信息的获取.通过分析网页内容特征及其分布,提出了结合内容特征信息与TrustRank算法的方法对垃圾网页进行检测.实验结果表明,结合了内容特征信息的TrustRank算法能够有效的检测出垃圾网页. 相似文献
10.
大型网站是网络信息的核心,其信息规模之大,更新速度之快是中小型网站不可比拟的,对大型网站网页搜索的好坏直接影响搜索引擎的整体性能.本文在分析分类网页更新策略的基础上,根据大型网站本身的特点提出了一种增量式信息更新方法.实验分析表明,这种增量式信息更新方法很大程度上提高了大型网站搜索引擎网页的更新效率. 相似文献
11.
12.
余光华 《电脑与微电子技术》2011,(12):56-58
介绍网站与搜索引擎之间的关系,从而引入网站制作对搜索引擎的影响,深入地从网页的命名、标题、题头标签的作用等几个方面描述如何建设一个便于搜索引擎的好网站。当搜索引擎收录访问网站时,能够迅速地抓住网页的要领,完整地将网页的信息带走,让用户在搜索信息时可以得到更多与网站相关的内容。 相似文献
13.
介绍网站与搜索引擎之间的关系,从而引入网站制作对搜索引擎的影响,深入地从网页的命名、标题、题头标签的作用等几个方面描述如何建设一个便于搜索引擎的好网站。当搜索引擎收录访问网站时,能够迅速地抓住网页的要领,完整地将网页的信息带走,让用户在搜索信息时可以得到更多与网站相关的内容。 相似文献
14.
本文针对传统搜索引擎在搜索引擎的查全率和查准率方面的弱点,分析了站内搜索的重要性,提出了一种基于网站站内的机器人搜索引擎,并具体阐述了基于机器人综合式搜索引擎的网站站内搜索引擎的技术实现方式.该搜索引擎能够快速查找用户所需的信息,最大程度地满足用户需求. 相似文献
15.
16.
17.
18.
Web搜索引擎框架研究 总被引:43,自引:1,他引:42
Web搜索引擎是Internet上非常有用的信息检索工具,但是由于目前搜索引擎检索出的信息量庞大,且一个特定的搜索引擎主要包含某一特定领域的信息,这使得用户很难从某一个搜索引擎获得准确的导航信息。文中提出一个新的Web搜索引擎框架GSE,并提出了一个适合于Web信息获取与处理的语言WERPL。通过WIRPL可以将多个Web搜索引擎结合起来,为用户提供一个一致、高效、准确的Web搜索引擎。 相似文献
19.
搜索引擎的Web Robot技术与优化 总被引:4,自引:0,他引:4
针对目前如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求,文中对搜索引擎作了概述,重点阐述了搜索引擎的Web Robot搜索器的搜索策略、文档提取以及搜索优化措施,提出了改进搜索引擎的Web Rohot的方法,改进后的Web Robot能够更有效地发现和搜集信息。为搜索引擎进行信息搜集,高效、稳定的Web Rohot保证了为用户提供的网上信息的全面性和实时性。 相似文献