共查询到20条相似文献,搜索用时 93 毫秒
1.
基于目前对用户搜索意图的分类,进一步分析了每种用户意图的信息需求,提出了基于用户搜索意图的
Web 网页动态泛化模型,为搜索的Web 网页动态地建立文档片段、关键词、导航类型、文档格式之间的概念层次,
通过网页内容、类型和格式的泛化为不同的访问意图提供进一步的搜索导航,从而返回与搜索意图更相关的结果.
与相关工作对比,重点并非获取用户意图,也不是对用户意图分类,而是基于用户搜索意图的Web 网页动态泛化模型
的建立及Web 网页泛化过程的实现.实验结果表明,该泛化模型不仅能够通过导航自动获取用户搜索意图,而且能够
基于该意图提供相关搜索结果以及进一步的搜索导航. 相似文献
2.
基于Web的信息过滤机制 总被引:12,自引:0,他引:12
林鸿飞 《计算机工程与应用》2002,38(2):190-192
信息过滤目的在于依据用户兴趣进行动态信息搜索以满足用户的需求。文章给出了基于Web的信息过滤机制。它根据用户信息需求,建立公共模板,利用搜索引擎获取信息源;然后利用文档与用户模板的匹配机制,将相关文档推送给用户。在文档结构分析和相关反馈的基础上,提出了特征抽取和权重分配算法;将布尔模型和向量空间模型相结合,提出了文档与用户模板匹配算法。 相似文献
3.
基于用户查询意图识别的Web搜索优化模型 总被引:2,自引:1,他引:1
在对用户查询意图进行分析分类的基础上,提出了一种Web搜索优化模型。该模型通过识别用户查询意图来查询意图特征词和内容主题词的双重约束,再结合用户查询行为获得查询目标,既保证了用户查询意图的准确匹配,又自动过滤和屏蔽了不相关信息。与相关工作对比,其重点在于准确获取用户查询意图,提高用户满意度。实验结果表明,该模型在实现信息搜索准确性和用户对查询结果满意度方面比传统搜索方法有明显改善。 相似文献
4.
5.
6.
针对传统的基于关键词的搜索与数据检索存在的弊端,本文提出基于本体的Web信息抽取框架。该框架首先获取Web页面,将其转换为格式良好的HTML文档,然后利用HTML解析器将该文档转化为DOM树,再根据XPath表达式获取用户感兴趣的数据块,由此生成抽取规则,最后通过OntPMatch算法实现数据的抽取,并以RDF数据格式储存信息。本文以棉花信息为研究对象加以实证研究,实现Web生物信息数据抽取原型系统,为方便用户发现有价值的Web生物信息资源提供一个有效的工具。 相似文献
7.
在电子商务环境中,实现个性化服务,理解用户兴趣就成了提供个性化服务的关键任务。因此,建立用户兴趣模型和构建推荐库就成为个性化推荐系统的实现基础。论文通过网络爬虫获取到相关的网页,进行预处理后,采用SVM(支持向量机)分类文档建立推荐库。通过对用户访问路径、搜索关键字等分析,获取用户兴趣,采用向量空间模型表示用户兴趣,利用机器学习构建用户兴趣模型。在推荐库和用户兴趣模型的基础上,加入推荐引擎,实现了基于电子商务的个性化推荐系统。 相似文献
8.
聚类技术能将大规模数据按照数据的相似性划分成用户可迅速理解的簇.从而使用户更快地了解大量文档中所包含的内容。因此.聚类技术成为搜索引擎中不可或缺的部分和研究热点。Web上的AJAX应用和PowerPoint文件等弱链接文档由于缺乏足够的超链接信息,导致搜索该类文档时.排序结果不佳。针对该问题.给出一个弱链接文档的搜索引擎框架,并重点描述一个基于网页搜索结果的弱链接文档排序算法.基于聚类的弱链接文档排序算法利用聚类算法从高质量的网页搜索结果中提取与查询相关的主题.并根据主题的相关网页的排名确定该主题的重要性.根据识别的带权重的主题计算弱链接文档的排序值。实验结果表明该算法能够为弱链接文档产生较好的排序结果. 相似文献
9.
针对目前如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求,文中对搜索引擎作了概述,重点阐述了搜索引擎的Web Robot搜索器的搜索策略、文档提取以及搜索优化措施,提出了改进搜索引擎的Web Robot的方法,改进后的Web Robot能够更有效地发现和搜集信息.为搜索引擎进行信息搜集,高效、稳定的Web Robot保证了为用户提供的网上信息的全面性和实时性. 相似文献
10.
该文设计并实现了一个基于本体的动态信息收集Agent系统,该系统基于本体知识对文档进行领域本体分类和规范用户的检索请求,对信息收集的结果进行主题相关的链接分析,抽取出信息源组织结构知识,并根据获取的知识控制系统搜索策略,从而能够有效地处理动态信息收集。 相似文献
11.
基于DOM模型扩展的Web信息提取 总被引:5,自引:0,他引:5
提出了一种基于DOM模型扩展的Web信息提取方法.将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容.该方法不要求对网页的结构有预先认识,具有自动和通用的特点.提取结果除可以直接用于Web浏览外,还可用于互联网数据挖掘、基于主题的搜索引擎等应用中. 相似文献
12.
有很多不同的分块算法都可以对web网页进行分块.研究分块的1/1的是为了相关领域进一步研究的需要。例如通过页面块内容的重要程度研究基于块的搜索、定位网页的重要主题或内容,研究网页主要内容或主题的抽取,以及基于Web页面分块的Web存档等。首先给出Web页面分块问题定义和分类,并对几种典型的分块算法进行原理剖析,为进一步研究web页面分块问题提供一些有益的参考。 相似文献
13.
基于Web中文检索系统SEARCH2000的设计与实现 总被引:3,自引:0,他引:3
本文详细介绍Search 2000中文检索系统的设计思想及实现方法。与传统的全文检索系统相比,基于WEB的信息检索系统,具有许多全新的特征。页面为半结构化文档、页面通过超链接相互关联、页面的内容覆盖不同应用领域并且拥有大量专有名词和缩略词汇,这些特性成为影响查询精度的主要因素。针对Web的上述特性设计的Search2000全文检索系统,使用智能化的页面相关分析、评分技术,以及高效数据存取、压缩算法和知识库的支持,使其具有使用方便、查询时间短、查询精度高等特点。 相似文献
14.
随着Web技术的迅速发展,动态和个性化网页的比重日益增加,而传统缓存一般只适用于静态内容,难以减少获取动态网页所需的流量和延时代价。为了更有效地分发动态网页,人们提出了各种动态内容加速方案。文中研究了典型的动态网页分发加速方法,并对相关的加速技术进行了分析和比较。针对ESI和CDE这两种技术的优缺点,提出基于共享片段的动态网页分发加速模型。实验结果表明,与ESI和CDE相比,该模型可以节省更多的带宽,减少更多的延时。 相似文献
15.
基于关键词聚类和节点距离的网页信息抽取 总被引:2,自引:0,他引:2
大部分网页信息抽取方法都针对特定的网站,例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时,必须人为地增加抽取规则或者提供新的训练网页集。而且,当网站的模版改变时,也要重新设计这些规则或重新输入训练网页集。这些方法难以维护,因此不能应用到从大量不同的网站上进行信息抽取。本文提出了一种新的网页信息抽取方法,该方法基于特定主题的关键词组和节点距离,能够不加区分地对不同的网站页面信息自动抽取。对大量网站的网页进行信息抽取的实验显示,该方法能够不依赖网页的来源而正确和自动地抽取相关信息,并且已经成功应用到电子商务智能搜索和挖掘系统中。 相似文献
16.
在对Web站点进行优化时,为了降低成本,往往需要在不改变硬件和网络配置的情况下提高网站的性能.此时,对构成网站的网页的修改就成为提高站点性能的主要途径.对网页的访问速度的测量已有很多成熟的方法,但是如何根据测试的结果指定合理的优化策略,却鲜有论述.本文使用FCM算法对测试结果和网站日志进行聚类分析,从而得到一个良好的优化策略. 相似文献
17.
网页正文抽取是很多互联网应用的基础工作和必须解决的问题。目前的主流方法是基于DOM树结构,此方法需要解析出网页的DOM树结构。对于目前互联网上的网页来源众多、结构众多的情形,基于DOM树的处理方法除了性能不足以外,还会遇到抽取精度上的问题。针对这些问题,该文提出了一个网页正文抽取的新方法,该方法不依赖DOM树,而是考虑人们编写网页的方式形成一些启发式规则,并结合相关的统计规律,以逻辑行为基本处理单位,基于最大接纳距离进行网页正文抽取。实验表明,论文的方法能够高效、高精度地抽取出网页正文。 相似文献
18.
Deep Web蕴藏丰富的、高质量的信息资源,为了获取某Deep Web站点的页面,用户不得不键入一系列的关键词集。由于没有直接指向Deep Web页面的静态链接,目前大多数搜索引擎不能发现这些页面。该文提出的Deep Web爬虫爬行策略,可以有效地下载Deep Web页面。由于该页面只提供一个查询接口,因此Deep Web爬虫设计面对的主要挑战是怎样选择最佳的查询关键词产生有意义的查询。实验证明文中提出的一种基于不同关键词相关度权重的选择方法是有效的。 相似文献
19.
网页信息指网页的正文、标题、发布时间、媒体等,每个信息都存在于HTML文档特定的标签中,自动获取这些标签可以实现在相同模板下的网页信息自动提取,对于大规模抓取网页内容有很大帮助。由于在相同模板下不同网页之间结构一致,网页信息有一定统计特征,提出了一种基于结构对比和特征学习的网页信息标签自动提取算法。该算法包含三个步骤:网页对比、内容识别和标签提取。在51个模块下对1?620个网页进行测试,实验结果表明,通过提取标签获取网页信息不仅速度快,而且抓取的内容更加准确。 相似文献
20.
基于Bayes概率的用户兴趣发现 总被引:2,自引:0,他引:2
本文结合网页结构,充分考虑用户在网页的滞留时间和页面切换,基于Bayes概率提出了一种能挖掘出优良的用户兴趣迁移模式及感兴趣的页面。采用本文提出的思想及算法,再结合人工智能策略,将能更好地辅助网站设计,并为电子商务的决策提供充分依据。 相似文献