首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
基于链接的方法进行Web信息检索的TREC实验研究   总被引:1,自引:0,他引:1  
本文通过TREC实验研究基于链接信息的检索对Web信息检索的影响,包括使用链接描述文本,链接结构以及将基于链接的方法和传统基于内容检索的方法合并。得到如下结论:首先,链接描述文档对网页主题的概括有高度的精确性,但是对网页内容的描述有极大的不完全性;其次,与传统检索方法相比,使用链接文本在网页定位的任务上能够使系统性能提高96% ,但是在信息查询任务上没有帮助;最后,将基于链 接信息的检索与传统的基于内容检索技术合并,在网页入口定位任务上总能将系统性能提高48%到124.8% ,而对特定信息查询任务也能在一定程度上改善检索效果。  相似文献   

2.
基于链接描述文本及其上下文的Web信息检索   总被引:20,自引:0,他引:20  
文档之间的超链接结构是Web信息检索和传统信息检索的最大区别之一,由此产生了基于超链接结构的检索技术。描述了链接描述文档的概念,并在此基础上研究链接文本(anchor text)及其上下文信息在检索中的作用。通过使用超过169万篇网页的大规模真实数据集以及TREC 2001提供的相关文档及评价方法进行测试,得到如下结论:首先,链接描述文档对网页主题的概括有高度的精确性,但是对网页内容的描述有极大的不完全性;其次,与传统检索方法相比,使用链接文本在已知网页定位的任务上能够使系统性能提高96%,但是链接文本及其上下文信息无法在未知信息查询任务上改善检索性能;最后,把基于链接描述文本的方法与传统方法相结合,能够在检索性能上提高近16%。  相似文献   

3.
张彬  蒋涛 《计算机与数字工程》2007,35(10):80-82,103
文档分类是Web信息抽取一个基础性的问题.尽管Web文档是超链接的,然而大部分提出的分类技术很少利用链接结构信息,主要依靠文本特征信息.讨论Web内容分类、链接分析等基本概念,提出一个基于链接的分类方法,可以单独使用也可以结合基于文本的分类技术一起使用.  相似文献   

4.
传统的主题抽取方法单纯依靠分析网页内容的来自动获取网页主题,其分析结果并不十分精确.在WWW上,网页之间通过超链接来互相联系,而链接关系紧密的网页趋向于属于同一主题、基于这一思想,本文提出了一种利用Web链接结构信息来对主题抽取结果进行求精的方法,其通过所链接网页对本网页的影响来修正本网页的主题权值.本文还通过一个实际应用例子,分析了这一方法的特点。  相似文献   

5.
随着网络信息内容的激增,为Web信息挖掘带来了一系列的困难。目前的Web检索主要在网页的内容上展开,往往忽视了网页结构蕴含的丰富信息。该文提出的网页视觉结构本体的构建,摆脱了以往领域本体仅在网页内容上辅助挖掘的局限,充分地挖掘了网页的视觉信息和结构信息,结合视觉重要性判定的领域知识本体来辅助Web检索,同时结合OWL语言达到机器理解的目的和知识级上的共享。  相似文献   

6.
Web数据挖掘系统的设计及实现研究   总被引:9,自引:4,他引:9  
在全球信息化进程中,信息超载已经成为一个大问题。Web上信息虽多,但想找到需要的信息却很困难。人们通过点击和搜索引擎与Web进行交互,但是都不能从中准确快捷地获取需要的信息,Web数据挖掘技术就是解决此问题的好方法。讲述了Web数据挖掘的基本理论,根据挖掘对象的不同将其划分为Web内容挖掘、Web链接结构挖掘和Web访问信息挖掘;利用HTML网页的特殊结构性质,提出了一种Web数据挖掘系统的通用框架,并讨论了一些实现的具体技术。  相似文献   

7.
一种篇章结构指导的中文Web文档自动摘要方法   总被引:29,自引:0,他引:29  
“摘要”、“关键词”是对文档内容提供简要概括的元数据,在Web信息检索中起着重要作用。针对Web信息检索的需求和Web文档的特点,采用拟人思维,提出了一种以篇章结构为指导的自动摘要方法。该方法对段落之间的内容语义关系进行分析,进而划分出文档的主题层次,得到文档的篇章结构;在篇章结构的指导下,使用统计方法和启发式规则来提取文档的关键词、关键句,生成文档的摘要。在实验评估中,该方法取得了令人满意的摘要质量和速度。  相似文献   

8.
基于主观Bayes方法对Web使用挖掘的研究   总被引:1,自引:0,他引:1  
为了更加合理地组织Web服务器的结构,使用户能及时快速地浏览到自己所需的网页信息,借鉴专家系统的不确定性推理方法——主观Bayes方法,提出了网页链接的可信度思想,并给出了网页链接的可信度因子模型。该模型可以定期、定时地根据Internet用户浏览的Web日志记录,动态地改善Web服务器的结构,从而实现基于用户浏览兴趣的网页链接结构的改进。  相似文献   

9.
为了更加合理地组织Web服务器的结构,使用户能及时快速地浏览到自己所需的网页信息,借鉴专家系统的不确定性推理方法——主观Bayes方法,提出了网页链接的可信度思想,并给出了网页链接的可信度因子模型。该模型可以定期、定时地根据Internet用户浏览的Web日志记录,动态地改善Web服务器的结构,从而实现基于用户浏览兴趣的网页链接结构的改进。  相似文献   

10.
加速评估算法:一种提高Web结构挖掘质量的新方法   总被引:13,自引:1,他引:13  
利用Web结构挖掘可以找到Web上的高质量网页,它大大地提高了搜索引擎的检索精度,目前的Web结构挖掘算法是通过统计链接到每个页面的超链接的数量和源结点的质量对页面进行评估,基于统计链接数目的算法存在一个严重缺陷:页面评价两极分化,一些传统的高质量页面经常出现在Web检索结果的前面,而Web上新加入的高质量页面很难被用户找到,提出了加速评估算法以克服现有Web超链接分析中的不足,并通过搜索引擎平台对算法进行了测试和验证。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号