首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
针对载有结构化数据的网页特点,提出了一种新的有效字段发现策略,据此设计了一个基于学习的自动去重方法.对样本网页集进行聚类分析并生成每类网页的包装器,识别出包装器中的有效数据字段;对有效数据字段进行映射,通过计算有效数据字段内容的相似度来判断网页是否重复.实验证明该方法对结构化Web数据的去重有很好的召回率和准确率.  相似文献   

2.
网页去重方法研究   总被引:2,自引:0,他引:2  
随着互联网技术的高速发展,网络中网站的数量成倍增长,这些网站提供了大量的信息,但不同的网站中存在着大量的重复信息,这些信息被搜索引擎反复的索引,因此在用户使用搜索引擎检索信息的时候就会发现有很多是来自不同网站的相同信息。采用信息抽取技术提取网页正文内容,利用加密技术对文本字符串进行转换并形成唯一的数字串,通过对数字串对比,标记出具有相同内容的网页,以此来提高搜索引擎的效率和质量。  相似文献   

3.
网页去重方法研究   总被引:2,自引:1,他引:1       下载免费PDF全文
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于语义的去重方法。该方法通过句子在文本中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度计算,把重复的网页去除。实验证明,该方法对全文重复和部分重复的网页都能进行较准确的检测。  相似文献   

4.
基于Rabin指纹方法的URL去重算法   总被引:1,自引:1,他引:1  
针对现有URL检索算法占用存储空间较大,对重复率高的URL集合检索速度较慢,使Web Spider的效率降低的问题,提出了一种改进的URL去重算法.此算法基于Rabin指纹方法,以URL的指纹为地址,仅用一位数据标识一条URL,每次检索仅需对相应的一位数据的值做一次判断.实验表明,该算法能有效去除URL集合中重复的URL.提高检索速度.  相似文献   

5.
程亮 《计算机仿真》2022,(1):404-407
为了提高摄影图像的清晰度,需要对摄影图像进行模糊去重处理.采用当前方法对模糊图像进行去重处理时,存在去重效率低和去重效果差的问题.提出考虑局部自相似性的图像模糊去重方法,在图像退化数学模型的基础上通过数值约束和梯度约束实现摄影图像的边缘提取,利用摄影图像的局部自相似特性,建立训练库映射的一阶回归模型,在一阶回归网络模型...  相似文献   

6.
突发事件新闻网页的去重方法研究   总被引:1,自引:0,他引:1  
随着人们对突发事件新闻的日益关注,需要对其进行有效地分类、索引、加工、处理.参考传统文本处理技术,结合网页结构特征和特定领域文本特征,提出在提取主题内容的基础上,根据突发事件特有的重复规律实现网页去重.实验结果表明,该方法能有效地提高网页去重准确率.  相似文献   

7.
在信息技术的进步下,人们的联系也开始变得更加方便,真正地实现了交流方式快捷便利.在这样的背景下,大数据、云计算等领域都得到了大力的提升.大数据规模的逐渐扩大,让数据在被有效地分析、处理中遇到了挑战,而多维数据去重聚类算法的应用使得数据更好地被分析,降低了采样的复杂度并让数据被分析的准确度有所上升.本文对多维数据在大环境...  相似文献   

8.
冗余信息去重是信息抽取中的重要任务,对于多元素表示的信息,该文针对以往对各个元素统一处理所存在的问题,将信息元素进行分类,由各类元素的冗余判断难易出发,归纳相似度计算方法,并将各相似度作为特征,通过分类器判断信息间的冗余性。同时对最难判断的命名实体信息元素,该文从其他易判断相似性的信息元素出发,通过同义命名实体的自动扩展,提高信息去重的效果。  相似文献   

9.
介绍布隆过滤器的相关理论,对MD5哈希算法进行较为详细的分析,对GPU和CPU的结构及运算特点进行分析比较,提出一种基于布隆过滤器并使用GPU进行URL的MD5计算的网页搜索去重方法。  相似文献   

10.
数据去重能消除备份中的冗余数据,节省存储资源和网络带宽,因而成为当前数据存储领域的研究热点。针对常用的块级数据去重技术指纹查询开销高、系统吞吐率低等问题,提出一种批处理块级数据去重方法,通过内存缓冲区对指纹进行排序,实现磁盘索引的顺序查询。同时文件以一种双指针有向无环图的结构存储在系统中,以消除文件读时引起的随机磁盘I/O开销。实验结果表明,该方法有效克服了指纹查询的磁盘I/O瓶颈,提高了数据去重时的系统读写性能。  相似文献   

11.
基于任务复制的调度是一种新的调度方法,现已有许多基于任务复制的调度算法在任务满足某些条件时能产生最优调度,但也存在一些不足.因此,针对一些算法存在的问题,提出一种新调度算法,该算法既考虑合并其它父任务以减少通讯时间,同时尽可能少的合并祖先任务,从而尽量减小任务的启动时间,因而能产生更短的调度.大量实验数据表明,该算法的性能明显优于其它算法。  相似文献   

12.
基于Harris的角点匹配算法研究   总被引:4,自引:0,他引:4  
采用Harris算法提取图像中的角点,通过相似测度得到粗匹配点集,然后分析比较预提纯匹配点的简单聚类法和视差梯度约束法,从实验结果看,聚类法明显优于视差梯度约束法,为使之适合实时处理的场合,还需要进一步提高RANSAC算法的效率。  相似文献   

13.
彭新东  杨勇 《计算机应用》2015,35(8):2350-2354
针对区间值模糊软集信息测度难以精确定义的问题,提出了区间值模糊软集的距离测度、相似度、熵、包含度、子集度的公理化定义,给出了区间值模糊软集的信息测度公式,并讨论了它们的转换关系。然后提出了一个基于相似度的聚类算法,该算法结合区间值模糊软集的特性,着重对给出评价对象的具有相似知识水平的专家进行聚类,同时讨论了算法的计算复杂度。最后通过实例说明该算法能有效地处理专家聚类问题。  相似文献   

14.
基于任务复制的分簇与调度算法   总被引:2,自引:0,他引:2  
何琨  赵勇  黄文奇 《计算机学报》2008,31(5):733-740
针对并行与分布式系统中相关任务的静态调度问题,以最小化调度长度为主要目标,以减少资源数为次要目标,对待复制的重要祖先集定义了新的选择策略,提出了基于任务复制的动态关键前驱调度算法.改进了粒度的定义,证明了对任意DAG,算法有优于前人的性能下界.实验结果优于典型任务复制算法,特别是对经典EZ算例的解(调度长度为8)好于前人认为的理论最优解(调度长度为8.5),并证明了新的解为最优解.定义了DAG的补图,讨论了不允许任务复制时树型DAG的2-优度算法.  相似文献   

15.
针对知识化制造系统自重构中知识网检索方法过于主观以及重复检索和运算等问题, 提出基于信息粒度的知识网的模糊分类和检索方法.知识网复杂度解决了自重构运算导致的知识网存在多样性的问题. 相似度考虑知识网在“质”、“量”和复杂性等方面的差异,具有反映知识网运算规律的特征.知识网模糊聚类方法不需要确定分类数, 并且能够同时获得关于目标知识网的排序. 以各聚类中心为中心确定的检索空间实现了问题由细粒度空间转化为粗粒度空间.  相似文献   

16.
在许多应用中,很多数据集都具有数值型和分类型数据的混合特征,k-prototype是针对这类数据聚类的经典方法之一,该方法是一种基于k-means和k-mode的聚类方法。在研究了现有的混合属性数据聚类方法之后,引入了一种新算法用于混合型数据聚类,不仅改进了prototype的选取方法,而且提出了一种新的针对混合型数据的相似度度量方式,基于此又提出了一种不同于k-prototype的数据到prototype的分配方式,采用类似层次聚类中凝聚聚类的思想进行聚类,通过在四个真实的混合型数据集上测试发现:与传统算法相比,算法提高了聚类的精度和稳定性。  相似文献   

17.
在大数据应用过程中,对特征集合进行约简,降低数据维度,有助于提升数据模型的泛化能力.采用随机森林模型选择和相似性度量结合的方式对特征集合进行特征初选,并通过前向搜索策略以距离为评价方式对初选集合进行二次筛选,最终获得特征子集.算法模型采用局部遍历以提高执行效率,同时通过前向选择算法解决传统方法无法确定最优特征数目的问题.实验结果表明,本文提出的方法能更有效地选择特征子集,提高模型的分类准确率.  相似文献   

18.
针对智能信息处理中Dempster组合规则不能处理高度冲突的问题, 从内、外证据不确定性分析的角度深入揭示了证据冲突产生的原因, 即证据的冲突性不仅仅根源于证据间的矛盾, 也与证据自身的不确定性密切相关, 提出了一种同时考虑证据自冲突和外部冲突的相似性测度, 然后利用新测度计算证据的众信度, 对证据源进行修正;与此同时, 根据原始证据间的聚类特性, 利用迭代自组织数据分析技术(Iterative selforganizing data analysis techniques algorithm, ISODATA)聚类方法进行聚类, 然后利用Dempster组合规则合成每一聚类中所有证据为证据代表, 并综合众信度和证据在该聚类的频度计算可靠度, 最后, 利用统一组合规则合成证据代表.并通过大量的算例, 同其他方法和自身改进前后进行深入比较, 优势比较明显, 有效地解决了冲突证据合成出现的问题.  相似文献   

19.
基于层次与划分方法的聚类算法研究   总被引:4,自引:1,他引:3  
针对在层次聚类算法中,一个分裂或合并被执行,就不能修正,其聚类质量受到限制的缺陷,提出了利用簇间相异度及基于信息熵或整体相似度的聚类质量评价标准,在簇分裂过程中动态的进行簇的合并与分裂的算法。仿真实验结果证明,该算法具有使结果簇更紧凑和独立的效果,具有更好的聚类质量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号