共查询到20条相似文献,搜索用时 15 毫秒
1.
主题划分是多主题文档自动摘要中的一个重要问题,提出了一种以网页结构为指导,利用页面对应DOM树中节点的自然分割功能以及相邻边界节点语义相似度的比较进行网页主题划分的方法.实验结果表明该方法具有较高的划分准确率,在此基础上抽取的网页摘要可显著增加文摘内容对原文的覆盖率、有效解决Web文档摘要分布不平衡问题. 相似文献
2.
3.
一种利用链接信息检索关键资源的算法 总被引:2,自引:0,他引:2
随着互联网的发展,基于Web的信息处理技术越来越受到人们的重视,也是当前研究的前沿课题。本文探讨的是如何在现有检索技术的基础上,利用Web网页的链接信息,自动地得到更高质量的检索结果——关键资源。本文提出一种同时利用Web网页的结构和内容信息以及链接信息的新方法:先结合网页的结构信息和内容评分得到网页的文档评分,然后基于网页出链的文档评分计算网页的链接评分。实验表明,本文的方法减少了无用链接的干扰,比单纯利用链接信息的效果好得多。 相似文献
4.
为提高搜索引擎文档索引库有效性验证的效率,本文提出了一种综合考虑网页更新频度、用户兴趣度及其内容重要程度诸因素相结合以确定文档索引库更新队列的算法。算法将用户的检索率、点击率、网页的Page Rank位和更新频度作为一个特征向量,与不同种类的网页的特征权值组成的矩阵相乘,求得网页的类型向量,依据类型向量实现对文档索引库更新队列的优化,算法改进了统一更新策略周期长、单一更新策略可能产生改变频繁而非常重要的网站长期叉得不到更新的问题。 相似文献
5.
《电脑编程技巧与维护》2001,(6):4-4
Adok Aerohat,这种流行软件的最新版本可为内容创作者提供更多的安全性能,并可对网页文档进行操控。对于大多数人来说,他们认为Adobe Acrobat就是一种免费的程序,可以使你在网页游览器上显示出超格式化文档。并且它可以对可移植文档格式(PDF)进行精确输出打印。但是要使用Acrobat的全版本,你就必须得支付费用,这对于文档分类来说是一种功能强大的商用工具,可以在公司内办公使用, 相似文献
6.
7.
聚类技术能将大规模数据按照数据的相似性划分成用户可迅速理解的簇.从而使用户更快地了解大量文档中所包含的内容。因此.聚类技术成为搜索引擎中不可或缺的部分和研究热点。Web上的AJAX应用和PowerPoint文件等弱链接文档由于缺乏足够的超链接信息,导致搜索该类文档时.排序结果不佳。针对该问题.给出一个弱链接文档的搜索引擎框架,并重点描述一个基于网页搜索结果的弱链接文档排序算法.基于聚类的弱链接文档排序算法利用聚类算法从高质量的网页搜索结果中提取与查询相关的主题.并根据主题的相关网页的排名确定该主题的重要性.根据识别的带权重的主题计算弱链接文档的排序值。实验结果表明该算法能够为弱链接文档产生较好的排序结果. 相似文献
8.
在使用Word的过程中,常常碰到须要处理一些网页复制文档的情况。从Internet网页上复制的内容,在粘贴至Word2003时,文档格式往往会很混乱,要进行调整的话,须综合应用多个命令进行调整。当有大量的文档须要处理时,繁琐的重复操作将会使人不胜其烦,有没有更为简单快捷的方法呢? 相似文献
9.
针对目前搜索引擎返回候选信息过多从而使用户不能准确查找与主题有关结果的问题,提出了基于超链接信息的搜索引擎检索结果聚类方法,通过对网页的超链接锚文档和网页文档内容挖掘,最终将网页聚成不同的子类别。这种方法在依据网页内容进行聚类的同时,充分利用了Web结构和超链接信息,比传统的结构挖掘方法更能体现网站文档的内容特点,从而提高了聚类的准确性。 相似文献
10.
11.
Web集群服务器已被广泛用来提高Web服务器的性能。对于如今内容海量级的大型网站来说,如何在Web集群服务器上组织和分布Web文档是一个急需解决的问题。本文提出了一种Web集群服务器中文档组织和分布的优化策略,其目是减少集群系统的平均响应时间。通过对Web服务器日志的分析,挖掘客户的访问模式,将关联度高的网页聚类成网页簇,然后根据网页簇的负载计算其拷贝份数,最后在集群中优化分布各网页簇的拷贝。以这种方法组织和分布文档,可以减少服务器端的TCP连接迁移开销,可以实现集群内的负载均衡,从而减小集群系统的平均响应时间;且相对于内容全镜像的文档分布方案,节约了存储空间,减少了维护各服务器文档一致性的开销。 相似文献
12.
2012年15期44页《删除Web文章中的空行》一文中,介绍了如何使用“替换”命令来删除从网页上复制到Word文档中的空段落。在实际应用中,从网页复制下来的内容,有时里面还存在着许多空白区域,这同样不利于编辑和排版工作,我们也可以按照原文所述的操作方法,一次性地删除文档中的所有空白区域。 相似文献
13.
一般的搜索引擎仅仅能够搜索网页内容而无法检索网页内附加的文档内容,本文着重阐述了文档内容检索方法,并结合学校实际情况,完成了校园文档全文检索与管理系统的设计。 相似文献
14.
分布式信息检索的文档集合划分方案的评价是一个困难的问题,目前还没有良好的评价标准.从文档集合划分问题本身出发,给出了两个划分模型来刻画文档集合划分问题,从而使这两个模型可以作为文档集合划分的有效评价指标.在此基础上,提出了一种类Huffman编码的模型快速求解算法,可以求出在给定查询测试集情况下的最优文档划分方案,该方案可以作为其他文档划分方案的参考.实验表明,两个文档划分模型可以成为有效的文档集合划分评价标准. 相似文献
15.
一、友好的、人性化的网页界面 网络在线学习的内容是以各种文档形式显示在计算机屏幕上的,计算机屏幕就像课堂授课的黑板,整个学习过程在没有课堂教师的情况下由自己来控制。根据个人的情况,调用自己需要的网络系统资源,彻底改 相似文献
16.
一种篇章结构指导的中文Web文档自动摘要方法 总被引:29,自引:0,他引:29
“摘要”、“关键词”是对文档内容提供简要概括的元数据,在Web信息检索中起着重要作用。针对Web信息检索的需求和Web文档的特点,采用拟人思维,提出了一种以篇章结构为指导的自动摘要方法。该方法对段落之间的内容语义关系进行分析,进而划分出文档的主题层次,得到文档的篇章结构;在篇章结构的指导下,使用统计方法和启发式规则来提取文档的关键词、关键句,生成文档的摘要。在实验评估中,该方法取得了令人满意的摘要质量和速度。 相似文献
17.
通用的网页编辑工具忽视了不同用户在数据需求方面的个性差异,降低了网页编辑工具的使用效率,本文提出了一种基于可视化文档和数据库技术的个性化网页编辑器的新思路,通过对网页编辑器个性化特征的分析,介绍了这一编辑器的结构和功能。并给出利用Borland C Builder的VCL组件实现文档可视化设计的方法。 相似文献
18.
基于概念的网页相似度处理算法研究 总被引:4,自引:0,他引:4
针对海量网页信息,提出适于搜索引擎使用的网页相似度处理算法。算法依据网页抽象形成的概念,在倒排文档基础上建立相似度处理模型。该模型缩小了需要进行相似度计算的网页文档范围,节约大量时间和空间资源,为优化相似度计算奠定了良好基础。 相似文献
19.
现有的视频去重技术多样,但字幕这一与视频内容能高度匹配的重要信息并未被考虑到其中。提出一种针对含内嵌字幕视频进行去重的方法,并在三大视频网页中得到了该方法的再去重效果。首先将相应网页视频中的字幕经过OTC处理将其文档化,再规范文档,最后设定一个界值,对网页进行去重筛选。类比于网页文本的去重方法,基于文本内容的去重工作可以大大改善去重的效果,考虑到视频中人物对话内容的唯一性,我们可以根据视频字幕内容来进行去重,从而得到更为精准的视频去重结果。 相似文献