首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 828 毫秒
1.
提出一种基于分布式数据库与分布式文件系统相结合的海量图片文件存储去重技术。该技术通过提取图片文件二进制流的特征段计算文件MD5码签名,依据签名对图片文件进行存储去重。结合实验数据分析验证该技术不仅能够准确地去重图片,有较高的删除率,且经对比得到该技术在计算签名时间、上传速度等方面均优于文件级去重和块级去重技术,是对海量图片数据存储的一种优化。同时针对该技术的不足提出了改进方案。  相似文献   

2.
数据库中大量重复图片的存在不仅影响学习器性能,而且耗费大量存储空间。针对海量图片去重,提出一种基于pHash分块局部探测的海量图像查重算法。首先,生成所有图片的pHash值;其次,将pHash值划分成若干等长的部分,若两张图片的某一个pHash部分的值一致,则这两张图片可能是重复的;最后,探讨了图片重复的传递性问题,针对传递和非传递两种情况分别进行了算法实现。实验结果表明,所提算法在处理海量图片时具有非常高的效率,在设定相似度阈值为13的条件下,传递性算法对近30万张图片的查重仅需2 min,准确率达到了53%。  相似文献   

3.
为了在大规模的人脸数据库中准确快速地检索到所需图像,提出一种相似人脸检索方法。提取人脸图片的局部二值模式特征,通过建立投影矩阵将特征从欧几里德空间映射到汉明空间实现降维,再采用改进的多比特编码方法对降维后的特征进行编码,并生成图片签名,以曼哈顿距离取代汉明距离衡量签名之间的相似度,根据图片签名集合构建倒排索引表,通过倒排索引表高效地查找相似图片。包含20万张人脸图片的实验数据集的结果表明,该方法在保证检索精度的前提下,检索时间控制在0.15 s以内,能够满足海量人脸图片检索的准确性与实时性要求。  相似文献   

4.
相似图片搜索是当前搜索技术研究的一大热点。利用相似图片搜索的原理结合Java语言的技术特点,对要进行搜索的图片首先进行图像变换缩小尺寸,然后进行灰度化和二值化的处理计算出对应的哈希值形成图片的指纹,最后计算出图片指纹的海明距离得出图片的相似度,实现了一个简单快速的相似图片搜索模型。  相似文献   

5.
针对现有遍历胶囊内窥镜海量图片的繁重工作,提出一种基于QT的胶囊内窥镜图片分析系统的实现方案。该系统在对海量图片进行分类的基础上依次进行过暗图片筛选、重复图片筛选,并在以上的筛选结果中进行肿物病变的识别。根据实验结果分析,依等级筛选或手动输入筛选比例的筛选方式筛除了大部分的无效和冗余图片数据,极大地提高了医生的阅片速度,同时保证了诊断质量。  相似文献   

6.
新一代测序因其数据量大、数据处理过程复杂、对计算资源要求高等特点,需要通过云计算进行处理。然而,云计算的处理方式要求先将测序数据上传到云平台中。但由于测序过程的随机性,使得同一样本的两次测序、两个相似样本分别测序后所产生的文件在二进制层面会有较大差别。目前已有的去重方法无法有效识别出这样的“重复”测序文件和测序结果中的“重复”内容。重复上传和存储这些重复数据,不仅消耗网络带宽,而且浪费存储空间。针对现存的重复数据删除方法仅仅基于文件的二进制特征,并未有效利用测序结果数据相似性特点的问题,提出一种面向云平台的海量高通量测序数据近似去重方法NPD(Near Probability Deduplication)。该方法对FastQ中的序列和质量信息,使用SimHash计算分块指纹,采用客户端与云平台双布谷过滤器(Cukoo Filter)对指纹值进行快速存在性检测,最后由云平台使用近似算法对指纹值近似去重。实验结果表明,NPD方法在保证高效的同时,大幅提升了去重率,进而减少了网络流量,缩短了数据上传时间,能够支撑海量数据处理,具有良好的实用价值。  相似文献   

7.
针对未知非结构化室内环境中双目视觉机器人路标特征匹配的问题进行了研究,提出了基于改进自组织映射网络(Self-Organizing Map,SOM)的双目视觉特征点快速匹配方法。对双目视觉获取的环境图像提取SIFT特征向量作为改进SOM的输入,利用获胜者计算技术完成对输入SIFT特征点的快速匹配,SOM竞争学习过程中用街区距离与棋盘距离的线性组合作为相似性度量函数。实验结果表明,所提方法在路标特征匹配的时间和效果上优于传统SIFT和SURF特征匹配的方法,且能满足实时性要求。  相似文献   

8.
针对人脸识别中特征的提取,提出了一种基于局部邻域多流形度量的人脸识别方法。针对人脸识别的小样本问题,用特征脸对人脸图像预处理。对预处理后的人脸数据集中每个流形内的数据点采用欧氏距离来选择各数据点的近邻点,由此得到局部权重矩阵,并计算重构数据点与原始数据点之间的误差距离;同时,采用图像集建模流形,用affine hull表示流形对应的数据集信息,计算多流形间的距离度量矩阵。通过最大化流形间距离以及最小化数据点与重构数据点误差距离来寻找投影降维矩阵。在人脸数据集上的大量比较实验,验证了该方法的准确性和有效性。  相似文献   

9.
刘荣  张宁 《计算机科学》2021,48(z1):137-142
计算机深度学习和大数据挖掘技术的发展,使得有效提取海量图片视觉和内容特征成为可能.图片分析已被广泛应用于电子商务研究中.通过对图片分析的相关文献进行梳理,从图片特征提取的方法和应用两个方面展开综述,提出了一个基于图片视觉和内容特征研究与应用的分析框架,系统地阐述了图片分析在电子商务领域的应用现状.通过分析发现,现有相关研究主要关注图片的视觉或内容特征对个体偏好和消费行为的影响作用,它们结合的作用效果仍有待深入探索;并且多数研究集中于社交网站用户发布图片的一般分析,缺少对消费行为的进一步研究.最后总结了图片分析在电子商务领域中未来需要关注的研究和发展方向,为未来的研究提供一定的参考.  相似文献   

10.
针对海量图片给网站带来的访问速度下降、性能压力增大和I/O瓶颈等问题,提出一种海量图片的分布式存储及负载均衡技术。通过把图片数据和网站内容分开部署、在数据库中记录和维护图片服务器状态信息等方法实现图片和页面数据的分离。实验结果表明,该技术能提高网站的访问速度和运行效率,并可动态增加图片服务器的数量满足日益增加的性能需求。  相似文献   

11.
针对分辨率不同、品质不同的同源①图像,提出一种基于Haar小波的图像消冗技术.该技术在Haar小波分解提取图像特征的基础上,利用图像特征向量的1-范数建立B+树索引,在B+树中通过范围查询计算不同图像的曼哈顿距离D1.同时为保证消冗的精确性,当D1≤T时,提取图像特征向量的部分数据构建集合,通过阈值t和不同集合中相同元素的个数v来判断是否进行消冗.实验表明,当t=5,T≤7000,消冗率②达到85%,消冗精度③为100%.  相似文献   

12.
一种基于聚类分组的虚拟机镜像去冗余方法   总被引:1,自引:0,他引:1  
徐继伟  张文博  魏峻  钟华  黄涛 《软件学报》2016,27(2):466-480
随着云计算的兴起,虚拟化技术使用也越来越广泛,虚拟机正逐步取代物理机,成为应用服务的部署环境.出于灵活性、可靠性等方面的需求,虚拟机镜像急剧增长,如何高效地、经济地管理这些镜像文件已成为一个很有挑战性的研究热点.由于虚拟机镜像之间存在大量重复性的数据块,高效的去冗余方法对于虚拟机镜像管理至关重要.然而,传统的去冗余方法由于需要巨大的资源开销,会对平台中托管的虚拟机性能造成干扰,因而并不适用于云环境.提出了一种局部去冗余的方法,旨在优化镜像去冗余过程.其核心思想是:将全局去冗余变成局部去冗余,从而降低去冗余算法的空间复杂度,以达到减少操作时间的目的.该方法利用虚拟机镜像相似性作为启发式规则对虚拟机镜像进行分组,当一个新的镜像到来时,通过统计抽样的方法为镜像选取最为相似的分组进行去冗余.实验结果表明:该方法可以通过牺牲1%左右的存储空间,缩短50%以上的去冗余操作时间.  相似文献   

13.
随着网络技术和电力信息化业务的不断发展,网络信息越发膨胀,将导致互联网和电力信息网中存在海量网页冗余的现象,这类现象将会使数据挖掘、快速检索的复杂度加大,从而对网络设备和存储设备的性能带来了巨大的挑战,因此研究海量网页快速去重是非常有必要的。网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,其中基于同源网页的URL去重的研究已经取得了很大的发,但是针对海量网页去重问题,目前还没有很好的解决方案,本文在基于MD5指纹库网页去重算法的基础上,结合Counting Bloom filter算法的特性,提出了一种快速去重算法IMP-CMFilter。该算法通过减少I/0频繁操作,来提高海量网页去重的效率。实验表明,IMP-CMFilter算法的有效性。  相似文献   

14.
Deduplication is an important technology in the cloud storage service. For protecting user privacy, sensitive data usually have to be encrypted before outsourcing. This makes secure data deduplication a challenging task. Although convergent encryption is used to securely eliminate duplicate copies on the encrypted data, these secure deduplication techniques support only exact data deduplication. That is, there is no tolerance of differences in traditional deduplication schemes. This requirement is too strict for multimedia data including image. For images, typical modifications such as resizing and compression only change their binary presentation but maintain human visual perceptions, which should be eliminated as duplicate copies. Those perceptual similar images occupy a lot of storage space on the remote server and greatly affect the efficiency of deduplication system. In this paper, we first formalize and solve the problem of effective fuzzy image deduplication while maintaining user privacy. Our solution eliminates duplicated images based on the measurement of image similarity over encrypted data. The robustness evaluation is given and demonstrates that this fuzzy deduplication system is able to duplicate perceptual similar images, which optimizes the storage and bandwidth overhead greatly in cloud storage service.  相似文献   

15.
为解决大量数字化艺术图像常规组织和管理复杂低效问题,提出一种基于图像相似性计算的自组织方法,对艺术图像提取了颜色、纹理、空间布局和SIFT等用于相似性计算的视觉特征表示,并根据艺术图像空间布局特点设计计算模型,试验了特征的聚类效果。采用多层版本近邻传播聚类(MLAP)算法为基础,对实验图像库进行层次化聚类,构建图像的层次化浏览结构。实验结果表明,该方法在艺术图像的管理和使用上都有着良好的性能。  相似文献   

16.
为了解决肺结节图像检索中特征提取难度大、检索精度低下的问题,提出了一种深度网络模型——LMSCRnet用于提取图像特征。首先采用多种不同尺寸滤波器卷积的特征融合方法以解决肺结节大小不一引起的局部特征难以获取的问题,然后引入SE-ResNeXt块来得到更高级的语义特征同时减少网络退化,最后得到肺结节图像的高级语义特征表示。为满足现实中大数据量检索任务的需求,将距离计算及排序过程部署到Spark分布式平台上。实验结果表明,基于LMSCRnet的特征提取方法能够更好地提取图像高级语义信息,在肺结节预处理数据集LIDC上能够达到84.48%的准确率,检索精度高于其他检索方法,而且使用Spark分布式平台完成相似度匹配及排序过程使得检索方法能够满足大数据量检索任务需求。  相似文献   

17.
基于图像几何特征的配准方法速度快,应用价值高,但由于几何特征提取的不准确问题使配准易陷入局部极小,而目前常用的全局优化算法又存在收敛速度慢的问题。该文提出了一种以图像边界的平均Haudorff距离作为代价函数,基于多分辨率分析和混合优化策略的图像配准方法,将其用于医学图像配准,并与基于Hausdorff距离的几种传统方法进行分析比较,实验结果显示,在模拟退火算法和Powell算法的混合优化策略下,新方法具有良好的全局优化性能和时间性能。  相似文献   

18.
图像分割是图像分析及图像理解的关键步骤。与其他图像分割算法相比,均值漂移(Mean Shift)算法具有原理简单、无需先验知识、可以处理灰度图像及复杂的自然彩色图像等优点。但该算法需要对图像中每个像素点进行迭代计算,因此分割所需要的时间较长。本文提出了一种快速Mean Shift图像分割算法(Fast mean shift,FMS),将少量像素点作为初始点进行迭代计算,而出现在高维球区域内的其他像素点根据其到已有类中心的距离进行归类,从而减少Mean Shift算法的迭代次数,缩短分割时间。实验结果表明,本文提出的快速Mean Shift图像分割算法可以获得良好的分割结果且具有较高的分割效率。  相似文献   

19.
为了充分挖掘服装图像从全局到局部的多级尺度特征,同时发挥深度学习与传统特征各自在提取服装图像深层语义特征和底层特征上的优势,从而实现聚焦服装本身与服装全面特征的提取,提出基于多特征融合的多尺度服装图像精准化检索算法.首先,为了不同类型特征的有效融合,本文设计了基于特征相似性的融合公式FSF(Feature Similarity Fusion).其次,基于YOLOv3模型同时提取服装全局、主体和款式部件区域构成三级尺度图像,极大减弱背景等干扰因素的影响,聚焦服装本身.之后全局、主体和款式部件三级尺度图像分别送入三路卷积神经网络(Convolutional Neural Network,CNN)进行特征提取,每路CNN均依次进行过服装款式属性分类训练和度量学习训练,分别提高了CNN对服装款式属性特征的提取能力,以及对不同服装图像特征的辨识能力.提取的三路CNN特征使用FSF公式进行特征融合,得到的多尺度CNN融合特征则包含了服装图像从全局到主体,再到款式部件的全面特征.然后,加入款式属性预测优化特征间欧氏距离,同时抑制语义漂移,得到初步检索结果.最后,由于底层特征可以很好的对CNN提取的深层语义特征进行补充,故引入传统特征对初步检索结果的纹理、颜色等特征进行约束,通过FSF公式将多尺度CNN融合特征与传统特征相结合,进一步优化初步检索结果的排序.实验结果表明,该算法可以实现对服装从全局到款式部件区域多尺度CNN特征的充分提取,同时结合传统特征有效优化排序结果,提升检索准确率.在返回Top-20的实验中,相比于FashionNet模型准确率提升了16.4%."  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号