共查询到19条相似文献,搜索用时 62 毫秒
1.
针对载有结构化数据的网页特点,提出了一种新的有效字段发现策略,据此设计了一个基于学习的自动去重方法.对样本网页集进行聚类分析并生成每类网页的包装器,识别出包装器中的有效数据字段;对有效数据字段进行映射,通过计算有效数据字段内容的相似度来判断网页是否重复.实验证明该方法对结构化Web数据的去重有很好的召回率和准确率. 相似文献
2.
3.
4.
基于Rabin指纹方法的URL去重算法 总被引:1,自引:1,他引:1
针对现有URL检索算法占用存储空间较大,对重复率高的URL集合检索速度较慢,使Web Spider的效率降低的问题,提出了一种改进的URL去重算法.此算法基于Rabin指纹方法,以URL的指纹为地址,仅用一位数据标识一条URL,每次检索仅需对相应的一位数据的值做一次判断.实验表明,该算法能有效去除URL集合中重复的URL.提高检索速度. 相似文献
5.
为了提高摄影图像的清晰度,需要对摄影图像进行模糊去重处理.采用当前方法对模糊图像进行去重处理时,存在去重效率低和去重效果差的问题.提出考虑局部自相似性的图像模糊去重方法,在图像退化数学模型的基础上通过数值约束和梯度约束实现摄影图像的边缘提取,利用摄影图像的局部自相似特性,建立训练库映射的一阶回归模型,在一阶回归网络模型... 相似文献
6.
王海滨 《网络安全技术与应用》2021,(4):37-38
在信息技术的进步下,人们的联系也开始变得更加方便,真正地实现了交流方式快捷便利.在这样的背景下,大数据、云计算等领域都得到了大力的提升.大数据规模的逐渐扩大,让数据在被有效地分析、处理中遇到了挑战,而多维数据去重聚类算法的应用使得数据更好地被分析,降低了采样的复杂度并让数据被分析的准确度有所上升.本文对多维数据在大环境... 相似文献
7.
突发事件新闻网页的去重方法研究 总被引:1,自引:0,他引:1
随着人们对突发事件新闻的日益关注,需要对其进行有效地分类、索引、加工、处理.参考传统文本处理技术,结合网页结构特征和特定领域文本特征,提出在提取主题内容的基础上,根据突发事件特有的重复规律实现网页去重.实验结果表明,该方法能有效地提高网页去重准确率. 相似文献
8.
9.
介绍布隆过滤器的相关理论,对MD5哈希算法进行较为详细的分析,对GPU和CPU的结构及运算特点进行分析比较,提出一种基于布隆过滤器并使用GPU进行URL的MD5计算的网页搜索去重方法。 相似文献
10.
《计算机应用与软件》2016,(5)
数据去重能消除备份中的冗余数据,节省存储资源和网络带宽,因而成为当前数据存储领域的研究热点。针对常用的块级数据去重技术指纹查询开销高、系统吞吐率低等问题,提出一种批处理块级数据去重方法,通过内存缓冲区对指纹进行排序,实现磁盘索引的顺序查询。同时文件以一种双指针有向无环图的结构存储在系统中,以消除文件读时引起的随机磁盘I/O开销。实验结果表明,该方法有效克服了指纹查询的磁盘I/O瓶颈,提高了数据去重时的系统读写性能。 相似文献
11.
基于任务复制的调度是一种新的调度方法,现已有许多基于任务复制的调度算法在任务满足某些条件时能产生最优调度,但也存在一些不足.因此,针对一些算法存在的问题,提出一种新调度算法,该算法既考虑合并其它父任务以减少通讯时间,同时尽可能少的合并祖先任务,从而尽量减小任务的启动时间,因而能产生更短的调度.大量实验数据表明,该算法的性能明显优于其它算法。 相似文献
12.
13.
针对区间值模糊软集信息测度难以精确定义的问题,提出了区间值模糊软集的距离测度、相似度、熵、包含度、子集度的公理化定义,给出了区间值模糊软集的信息测度公式,并讨论了它们的转换关系。然后提出了一个基于相似度的聚类算法,该算法结合区间值模糊软集的特性,着重对给出评价对象的具有相似知识水平的专家进行聚类,同时讨论了算法的计算复杂度。最后通过实例说明该算法能有效地处理专家聚类问题。 相似文献
14.
15.
针对知识化制造系统自重构中知识网检索方法过于主观以及重复检索和运算等问题, 提出基于信息粒度的知识网的模糊分类和检索方法.知识网复杂度解决了自重构运算导致的知识网存在多样性的问题. 相似度考虑知识网在“质”、“量”和复杂性等方面的差异,具有反映知识网运算规律的特征.知识网模糊聚类方法不需要确定分类数, 并且能够同时获得关于目标知识网的排序. 以各聚类中心为中心确定的检索空间实现了问题由细粒度空间转化为粗粒度空间. 相似文献
16.
在许多应用中,很多数据集都具有数值型和分类型数据的混合特征,k-prototype是针对这类数据聚类的经典方法之一,该方法是一种基于k-means和k-mode的聚类方法。在研究了现有的混合属性数据聚类方法之后,引入了一种新算法用于混合型数据聚类,不仅改进了prototype的选取方法,而且提出了一种新的针对混合型数据的相似度度量方式,基于此又提出了一种不同于k-prototype的数据到prototype的分配方式,采用类似层次聚类中凝聚聚类的思想进行聚类,通过在四个真实的混合型数据集上测试发现:与传统算法相比,算法提高了聚类的精度和稳定性。 相似文献
17.
18.
针对智能信息处理中Dempster组合规则不能处理高度冲突的问题, 从内、外证据不确定性分析的角度深入揭示了证据冲突产生的原因, 即证据的冲突性不仅仅根源于证据间的矛盾, 也与证据自身的不确定性密切相关, 提出了一种同时考虑证据自冲突和外部冲突的相似性测度, 然后利用新测度计算证据的众信度, 对证据源进行修正;与此同时, 根据原始证据间的聚类特性, 利用迭代自组织数据分析技术(Iterative selforganizing data analysis techniques algorithm, ISODATA)聚类方法进行聚类, 然后利用Dempster组合规则合成每一聚类中所有证据为证据代表, 并综合众信度和证据在该聚类的频度计算可靠度, 最后, 利用统一组合规则合成证据代表.并通过大量的算例, 同其他方法和自身改进前后进行深入比较, 优势比较明显, 有效地解决了冲突证据合成出现的问题. 相似文献
19.
基于层次与划分方法的聚类算法研究 总被引:3,自引:1,他引:3
甄彤 《计算机工程与应用》2006,42(8):178-180
针对在层次聚类算法中,一个分裂或合并被执行,就不能修正,其聚类质量受到限制的缺陷,提出了利用簇间相异度及基于信息熵或整体相似度的聚类质量评价标准,在簇分裂过程中动态的进行簇的合并与分裂的算法。仿真实验结果证明,该算法具有使结果簇更紧凑和独立的效果,具有更好的聚类质量。 相似文献