共查询到20条相似文献,搜索用时 93 毫秒
1.
基于网页文本结构的网页去重 总被引:1,自引:0,他引:1
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。
针对网页重复的特征和网页文本自身的特点,提出了一种动态的网页去重方法。该方法通过将网页的正文表示成目录结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。实验证明,该方法对全文重复和部分重复的网页都能进行准确的检测。 相似文献
2.
基于特征码的网页去重 总被引:5,自引:2,他引:5
网页去重处理是提高检索质量的有效途径,本文给出了一个基于特征码的网页去重算法,介绍了算法的具体实现步骤,采用二叉排序树实现。算法有较高的判断正确率,在信息检索中有较好的应用前景。 相似文献
3.
4.
5.
基于文本相似度的网页消重策略 总被引:1,自引:0,他引:1
刘书一 《计算机应用与软件》2011,28(11)
针对在网页检索结果中经常出现内容相同或相似的问题,提出了一种通过计算网页相似度的方法进行网页消重。该算法通过提取网页特征串,特征串的提取在参考以往特征码提取的基础上,加入了文本结构特征的提取,通过比较特征串之间差异性的基础上得到网页的相似度。经与相似方法比较,结果表明,该方法减少了时间复杂度,具有较高的查全率和查准率,适于大规模网页消重。 相似文献
6.
7.
8.
9.
随着网络技术和电力信息化业务的不断发展,网络信息越发膨胀,将导致互联网和电力信息网中存在海量网页冗余的现象,这类现象将会使数据挖掘、快速检索的复杂度加大,从而对网络设备和存储设备的性能带来了巨大的挑战,因此研究海量网页快速去重是非常有必要的。网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,其中基于同源网页的URL去重的研究已经取得了很大的发,但是针对海量网页去重问题,目前还没有很好的解决方案,本文在基于MD5指纹库网页去重算法的基础上,结合Counting Bloom filter算法的特性,提出了一种快速去重算法IMP-CMFilter。该算法通过减少I/0频繁操作,来提高海量网页去重的效率。实验表明,IMP-CMFilter算法的有效性。 相似文献
10.
11.
基于改进编辑距离的字符串相似度求解算法 总被引:1,自引:0,他引:1
编辑距离(LD)算法在求解两个字符串的相似问题时只考虑了编辑操作次数,未考虑字符串之间的公共子串对相似度的影响。为此,提出一种基于改进编辑距离的字符串相似度求解算法,对字符串相似度度量公式及Levenshtein矩阵计算方法进行改进。在计算编辑距离时,以原有矩阵求出两字符串的最长公共子串及所有LD回溯路径。选取一个单词作为源串,一组与源串不同程度相似的单词为目标串,将改进的相似度度量公式与现有的字符串相似度计算方法进行比较,改进公式减少了进入胜者表的目标串数,相似度的样本极差和标准差分别为0.331和0.150。实验结果表明,改进算法在不改变空间复杂度的情况下,计算字符串相似度的准确性更高,且查询方式更灵活。 相似文献
12.
13.
远程教育通过网络作为教学媒体,其优势不仅在于它是很好的内容载体,可以随时随地访问,还在于它提供了很多交流渠道,为师生之间、学生之间的充分讨论提供了可能,这对于提高教学质量、促进学生智力的开发是十分重要的.总结了现代远程教学系统中常用的交互方式,从功能层面描述了交互性的用途,从技术层面分类讨论了远程教学中交互性实现的几种途径.并且通过实现远程网络教育来进行具体说明. 相似文献
14.
本文给出了一种基于归一化的距离方差的圆检测方法。首先计算每个连续曲线的质心到各曲线边缘特征点的距离方差,归一化后进行比较从而使圆被初步分割;再对每个圆心进行半径累积,求出各个圆的半径。该方法避免了非圆干扰物带来的大量的无效累积计算,相对于传统Hough变换计算量减少。仿真结果表明,该方法在检测复杂图像中的圆时,检测效率、准确度较高。 相似文献
15.
16.
检测网页重要变化,判断页面核心内容是否发生变化,可有效降低数据采集中重复索引的数量,因此,文中提出基于视觉的网页重要变化检测方法,用于检测页面不同语义区域的变化,可将页面压缩表示为一个低维向量.从用户视觉的角度,理解页面不同区块语义重要度的差异.相比现有方法,文中方法独立于基于HTML类基础文档的分析方法,在新媒体,如移动互联网上,也有一定的适用性.实验也验证文中方法的有效性. 相似文献
17.
在社交网络中查找和收集个人信息可以建立一个包含目标履历、生活、爱好以及朋友等属性的信息体系,但是不同社交网络中存在大量同名用户。为了解决同名歧义问题,采用计算用户信息相似度,可以判断2个用户是否属于同一个人。由于文档中描述信息位置颠倒会导致计算机误判,为此,本文通过对莱文斯坦(Levenshtein)和词频相关字符串频率(TFRSF)方法融合计算词频和编辑距离,判断属性值是否相同。实验结果表明,本文提出的计算文本相似度方法在多种评价指标上准确性都有所提高,准确率(Precision)、召回率(Recall)、F1值(F1 Measure)均大于87%。 相似文献
18.
基于Web进行远程教育的优势和实现 总被引:1,自引:0,他引:1
远程教育通过网络作为教学媒体,其优势不仅在于它是很好的内容载体,可以随时随地访问,还在于它提供了很多交流渠道,为师生之间、学生之间的充分讨论提供了可能,这对于提高教学质量、促进学生智力的开发是十分重要的。总结了现代远程教学系统中常用的交互方式,从功能层面描述了交互性的用途,从技术层面分类讨论了远程教学中交互性实现的几种途径。并且通过实现远程网络教育来进行具体说明。 相似文献
19.
20.
复制检测技术在保护知识产权和信息检索中有着重要的作用。本文利用网格计算的思想,提出了一个基于网格的数字文档复制检测系统。该系统把单个海量土档集分割成若干个中小型的文档集,并将其分布在网络中,然后在网络中的多个节点上并行地执行检测操作。通过局域网上的模拟试验表明该系统可以动态地增扩文档集,缩短了检测的时间,并具有很高的性价比。 相似文献