期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

邓茜芸周明全武仲科王醒策《中国图象图形学报》2014,19(9):1324-1331

目的瓦当是珍贵的历史文化遗产。为了进行瓦当的数字化保护和瓦当文字的自动识别,针对瓦当图像高磨损、高噪声和拓扑复杂的特点,提出基于梯度矢量流场改进的level set骨架提取算法。方法算法在传统level set骨架算法的基础上对中间函数进行改进,引入基于修正梯度矢量流场的中间函数替代传统的基于欧氏距离场的中间函数,主要通过两次速度不同的波传播实现,因此提高了算法的自动性和精确性。结果面对构建的标准模型,算法所提骨架线与标准骨架线的平均匹配度为98.03%,骨架均为单像素宽,居中性良好。面对各种噪声,本文算法所提骨架线与不加噪声骨架线的平均匹配度为99.15%,算法的抗噪性强。面对拓扑复杂模型,算法得到的骨架与原图像拓扑一致性、连通性、光滑性良好。结论实验结果表明,本文算法提取的骨架性能良好,算法抗噪性强,对拓扑复杂物体亦有较好结果,是一种有效的骨架提取算法。相似文献

2.

用于驾驶员分心行为识别的姿态引导实例感知学习

下载免费PDF全文

李少凡高尚兵张莹莹《中国图象图形学报》2023,28(11):3550-3561

目的基于图像的驾驶员分心行为识别可认为是一种二级图像子分类问题，与传统的图像分类不同，驾驶员分心识别任务中的各类区别比较微小，如区分一幅图像是在弄头发还是打电话完全取决于驾驶员手上是否有手机这个物体，即图像中的较小区域就决定了该图像的类别。对于那些图像差异较小的类别，通常的图像分类方法无法高精度地区分。因此，为了能够学习到不同驾驶行为之间微小的表征区别，提出了一种姿态引导的实例感知学习网络用于驾驶员行为识别。方法首先利用人体检测器检测到人体框，利用人体姿态估计获取具有辨识性的手部相关区域，将人体和手部区域的特征作为实例级别的特征，以此设计一种实例感知学习模块充分获取不同层级的上下文语义信息。其次利用手部相关特征构建双通道交互模块来对关键空间信息进行表征的同时，对视觉特征进行优化，组建成一个多分支的深度神经网络。最后将不同分支的结果进行融合。结果实验结果表明，本文方法在AUC（American University in Cairo）数据集和自建三客一危数据集上的测试准确率分别达到96.17%和96.97%，相较于未使用实例感知模块和通道交互的模型，准确率显著改善，在复杂数据集下识别效果提升明显。结论本文提出的姿态引导的实例感知学习网络，在一定程度上降低了环境的干扰，准确度高，能辅助驾驶员安全行车，减少交通事故的发生。相似文献

3.

激光—相机系统语义栅格建图和路径规划

下载免费PDF全文

丁梦远郭迟黄凯《中国图象图形学报》2021,26(10):2524-2532

目的 SLAM（simultaneous localization and mapping）是移动机器人在未知环境进行探索、感知和导航的关键技术。激光SLAM测量精确，便于机器人导航和路径规划，但缺乏语义信息。而视觉SLAM的图像能提供丰富的语义信息，特征区分度更高，但其构建的地图不能直接用于路径规划和导航。为了实现移动机器人构建语义地图并在地图上进行路径规划，本文提出一种语义栅格建图方法。方法建立可同步获取激光和语义数据的激光-相机系统，将采集的激光分割数据与目标检测算法获得的物体包围盒进行匹配，得到各物体对应的语义激光分割数据。将连续多帧语义激光分割数据同步融入占据栅格地图。对具有不同语义类别的栅格进行聚类，得到标注物体类别和轮廓的语义栅格地图。此外，针对语义栅格地图发布导航任务，利用路径搜索算法进行路径规划，并对其进行改进。结果在实验室走廊和办公室分别进行了语义栅格建图的实验，并与原始栅格地图进行了比较。在语义栅格地图的基础上进行了路径规划，并采用了语义赋权算法对易移动物体的路径进行对比。结论多种环境下的实验表明本文方法能获得与真实环境一致性较高、标注环境中物体类别和轮廓的语义栅格地图，且实验硬件结构简单、成本低、性能良好，适用于智能化机器人的导航和路径规划。相似文献

4.

全卷积语义分割与物体检测网络

下载免费PDF全文

肖锋芮挺任桐炜王东《中国图象图形学报》2019,24(3):474-482

目的目前主流物体检测算法需要预先划定默认框,通过对默认框的筛选剔除得到物体框。为了保证足够的召回率,就必须要预设足够密集和多尺度的默认框,这就导致了图像中各个区域被重复检测,造成了极大的计算浪费。提出一种不需要划定默认框,实现完全端到端深度学习语义分割及物体检测的多任务深度学习模型（FCDN）,使得检测模型能够在保证精度的同时提高检测速度。方法首先分析了被检测物体数量不可预知是目前主流物体检测算法需要预先划定默认框的原因,由于目前深度学习物体检测算法都是由图像分类模型拓展而来,被检测数量的无法预知导致无法设置检测模型的输出,为了保证召回率,必须要对足够密集和多尺度的默认框进行分类识别;物体检测任务需要物体的类别信息以实现对不同类物体的识别,也需要物体的边界信息以实现对各个物体的区分、定位;语义分割提取了丰富的物体类别信息,可以根据语义分割图识别物体的种类,同时采用语义分割的思想,设计模块提取图像中物体的边界关键点,结合语义分割图和边界关键点分布图,从而完成物体的识别和定位。结果为了验证基于语义分割思想的物体检测方法的可行性,训练模型并在VOC（visual object classes）2007 test数据集上进行测试,与目前主流物体检测算法进行性能对比,结果表明,利用新模型可以同时实现语义分割和物体检测任务,在训练样本相同的条件下训练后,其物体检测精度优于经典的物体检测模型;在算法的运行速度上,相比于FCN,减少了8 ms,比较接近于YOLO（you only look once）等快速检测算法。结论本文提出了一种新的物体检测思路,不再以图像分类为检测基础,不需要对预设的密集且多尺度的默认框进行分类识别;实验结果表明充分利用语义分割提取的丰富信息,根据语义分割图和边界关键点完成物体检测的方法是可行的,该方法避免了对图像的重复检测和计算浪费;同时通过减少语义分割预测的像素点数量来提高检测效率,并通过实验验证简化后的语义分割结果仍足够进行物体检测任务。相似文献

5.

提取全局语义信息的场景图生成算法

下载免费PDF全文

段静雯闵卫东杨子元张煜陈鑫浩杨升宝《中国图象图形学报》2022,27(7):2214-2225

目的场景图能够简洁且结构化地描述图像。现有场景图生成方法重点关注图像的视觉特征,忽视了数据集中丰富的语义信息。同时,受到数据集长尾分布的影响,大多数方法不能很好地对出现概率较小的三元组进行推理,而是趋于得到高频三元组。另外,现有大多数方法都采用相同的网络结构来推理目标和关系类别,不具有针对性。为了解决上述问题,本文提出一种提取全局语义信息的场景图生成算法。方法网络由语义编码、特征编码、目标推断以及关系推理等4个模块组成。语义编码模块从图像区域描述中提取语义信息并计算全局统计知识,融合得到鲁棒的全局语义信息来辅助不常见三元组的推理。目标编码模块提取图像的视觉特征。目标推断和关系推理模块采用不同的特征融合方法,分别利用门控图神经网络和门控循环单元进行特征学习。在此基础上,在全局统计知识的辅助下进行目标类别和关系类别推理。最后利用解析器构造场景图,进而结构化地描述图像。结果在公开的视觉基因组数据集上与其他10种方法进行比较,分别实现关系分类、场景图元素分类和场景图生成这3个任务,在限制和不限制每对目标只有一种关系的条件下,平均召回率分别达到了44.2%和55.3%。在可视化实验中,相比性能第2的方法,本文方法增强了不常见关系类别的推理能力,同时改善了目标类别与常见关系的推理能力。结论本文算法能够提高不常见三元组的推理能力,同时对于常见的三元组也具有较好的推理能力,能够有效地生成场景图。相似文献

6.

关键点图对比图像分类方法

下载免费PDF全文

卢毅陈亚冉赵冬斌刘暴来志超王超楠《智能系统学报》2023,18(1):36-46

深度学习是目前图像分类的主流方法之一,其重视感受野内的局部信息,却忽略了类别的先验拓扑结构信息。本文提出了一种新的图像分类方法,即Key-D-Graph,这是基于关键点的图对比网络方法,在识别图像类别时可以显式地考虑拓扑先验结构。具体地,图像分类需要2个步骤,第一步是基于关键点构建图像的图表达,即采用深度学习方法识别图像中目标类别的可能关键点,并采用关键点坐标生成图像的拓扑图表达;第二步基于关键点的图像图表达建立图对比网络,以估计待识别图与目标类别之间的结构差异,实现类别判断,该步骤利用了物体的拓扑先验结构信息,实现了基于图像全局结构信息的物体识别。特别的,Key-D-Graph的中间输出结果为类别关键点,具有语义可解释性,便于在实际应用中对算法逐步分析调试。实验结果表明,提出的方法可在效率和精度上超过主流方法,且通过消融实验分析验证了拓扑结构在分类中的作用机制和有效性。相似文献

7.

局部关联度最优的手写汉字骨架提取

下载免费PDF全文

周正扬詹恩奇郑建彬胡华成《中国图象图形学报》2017,22(6):833-841

目的研究手写汉字图像时,骨架是最为常见的切入点之一。利用传统细化算法提取手写汉字骨架,容易在笔画交叉等情况复杂的区域产生形变。针对此问题,提出一种基于局部关联度的手写汉字骨架提取算法。方法首先对手写汉字图像进行细化以获取原始骨架,按照端点、普通点和复杂点3种类别标注骨架点;利用8邻域窗口扫描相互连通的复杂点,检测并提取复杂区域;删除复杂区域,将原始骨架拆分为若干简单笔画段,形变部分在此过程中被一并移除;提取局部子段,根据笔画段间的方向差异程度和曲率变化程度,计算局部关联度;制定一种局部关联度最优的连接策略,对满足连接条件的笔画段进行插值补偿,从而修正形变,并得到完整的汉字骨架。结果对于600个实验样本,从骨架直接检测复杂区域所得结果十分接近理想情况,而轮廓法所得数量是理论值的2.5倍;基于局部关联度重组笔画段,绝大多数形变得到修正,重组后的骨架符合真实拓扑结构;以标准骨架为参考,骨架提取准确率达到了98.41%。结论局部关联度最优的手写汉字骨架提取算法,能够有效检测复杂区域,对形变具有良好的修正作用,提取所得骨架能够正确反映复杂笔画间的位置结构关系,是一种实用有效的骨架提取方法。相似文献

8.

融合互补性外形先验信息的改进参数最小割模型

下载免费PDF全文

黄瑞阳朱俊光《中国图象图形学报》2017,22(1):29-38

目的似物性推荐为近年来提出的一种快速物体定位方法,而参数最小割模型作为似物性推荐的一种重要模型受到广泛关注。针对传统的参数最小割模型受颜色分布影响较大的问题,提出融合多个具有信息互补作用的外形先验予以改进。方法首先构造了一种数据驱动的基于形状共享的外形先验,以发现具有相似外形的物体区域;其次,从格式塔完形心理学的角度入手,引出了一种测地星形凸面性的外形先验,约束外形的拓扑结构,生成外形不同的物体区域;最后,结合外形先验、颜色分布、边缘响应强度以及尺度线索,构建能量函数以表征新的模型,从而增强模型对复杂颜色分布的鲁棒性。结果分别在Seg VOC12和BSDS300数据集中进行了外形先验有效性验证、复杂颜色分布下算法鲁棒性分析和前沿似物性推荐算法对比分析等实验,结果表明,本文采用融合互补性外形先验能提高候选区域定位精度,具有更好的颜色分布鲁棒性,当颜色简单性位于[0.7,,08]之间时,算法结合外形先验后平均最佳重叠率最高可达到9.8%的提升,且在与13种具有代表性的似物性推荐算法进行区域级物体定位能力对比实验中,本文算法在不同的重叠率阈值下均达到了相近的查全率。结论本文算法具有更高的前景与背景的区分能力,能够适应各种复杂颜色分布,同时具有较好的物体定位能力。相似文献

9.

个性化编辑的轻量化3维树木模型构建

下载免费PDF全文

董天阳纪磊刘思远范菁熊丽荣《中国图象图形学报》2014,19(7):1074-1084

目的 3维树木几何结构和拓扑结构的复杂性,不仅使得真实感3维树木模型的构建过程十分复杂,而且构建的模型文件包含大量的几何数据。针对3维树木模型的构建过程复杂和模型数据量大的问题,提出一种支持骨架个性化编辑的轻量化3维树木模型构建方法。方法该方法在提取树木模型骨架结构的基础上,通过交互方式对3维树木模型的骨架进行个性化编辑以生成3维树木模型的全新骨架结构,并采用枝干和树冠模型的简化方法实现轻量化3维树木模型的构建。结果该方法不仅能快速创建轻量化的3维树木模型,减少3维树木可视化时的模型绘制时间;而且能通过骨架个性化编辑来设计树木的拓扑结构,有助于增加同一品种树木外部表现形态的多样性。结论通过应用表明,本文轻量化3维树木模型构建方法不仅可以构建具有不同表现形态的3维树木模型,而且简化后的3维树木模型可以在无线网络、移动终端等资源有限情况下进行3维树木可视化。相似文献

10.

融合图像场景及物体先验知识的图像描述生成模型 总被引：1，自引：0，他引：1

下载免费PDF全文

汤鹏杰谭云兰李金忠《中国图象图形学报》2017,22(9):1251-1260

目的目前基于深度卷积神经网络（CNN）和长短时记忆（LSTM）网络模型进行图像描述的方法一般是用物体类别信息作为先验知识来提取图像CNN特征,忽略了图像中的场景先验知识,造成生成的句子缺乏对场景的准确描述,容易对图像中物体的位置关系等造成误判。针对此问题,设计了融合场景及物体类别先验信息的图像描述生成模型（F-SOCPK）,将图像中的场景先验信息和物体类别先验信息融入模型中,协同生成图像的描述句子,提高句子生成质量。方法首先在大规模场景类别数据集Place205上训练CNN-S模型中的参数,使得CNN-S模型能够包含更多的场景先验信息,然后将其中的参数通过迁移学习的方法迁移到CNN_d-S中,用于捕捉待描述图像中的场景信息;同时,在大规模物体类别数据集Imagenet上训练CNN-O模型中的参数,然后将其迁移到CNN_d-O模型中,用于捕捉图像中的物体信息。提取图像的场景信息和物体信息之后,分别将其送入语言模型LM-S和LM-O中;然后将LM-S和LM-O的输出信息通过Softmax函数的变换,得到单词表中每个单词的概率分值;最后使用加权融合方式,计算每个单词的最终分值,取概率最大者所对应的单词作为当前时间步上的输出,最终生成图像的描述句子。结果在MSCOCO、Flickr30k和Flickr8k 3个公开数据集上进行实验。本文设计的模型在反映句子连贯性和准确率的BLEU指标、反映句子中单词的准确率和召回率的METEOR指标及反映语义丰富程度的CIDEr指标等多个性能指标上均超过了单独使用物体类别信息的模型,尤其在Flickr8k数据集上,在CIDEr指标上,比单独基于物体类别的Object-based模型提升了9%,比单独基于场景类别的Scene-based模型提升了近11%。结论本文所提方法效果显著,在基准模型的基础上,性能有了很大提升;与其他主流方法相比,其性能也极为优越。尤其是在较大的数据集上（如MSCOCO）,其优势较为明显;但在较小的数据集上（如Flickr8k）,其性能还有待于进一步改进。在下一步工作中,将在模型中融入更多的视觉先验信息,如动作类别、物体与物体之间的关系等,进一步提升描述句子的质量。同时,也将结合更多视觉技术,如更深的CNN模型、目标检测、场景理解等,进一步提升句子的准确率。相似文献

11.

Automating extrusion design: a case study in geometric and topological reasoning for mechanical design

M. R. Duffey J. R. Dixon 《Computer aided design》1988,20(10):589-596

A model for topological and geometric reasoning about mechanical designs is described and demonstrated by a computer program using the 2D domain of extrusion cross-sections as a case study. The design system uses a feature-based representation and has two stages: first, parametric design, in which a numerical, iterative technique is used to vary existing parameters and second, topological design (the central focus of this research), in which the extrusion cross-section is modified by adding new parameters and/or deleting old ones. This paper summarizes recent research related to topological design, then describes representation and reasoning as modelled in the computer program, presents some test cases, and outlines future directions for geometric and topological reasoning in mechanical design domains. 相似文献

12.

An interactive example-driven approach to graphics recognition in engineering drawings

Liu Wenyin Wan Zhang Luo Yan 《International Journal on Document Analysis and Recognition》2007,9(1):13-29

An interactive example-driven approach to graphics recognition in engineering drawings is proposed. The scenario is that the user first interactively provides an example of a graphic object; the system instantly learns its graphical knowledge and uses the acquired knowledge to recognize the same type of graphic objects. The proposed approach represents the graphical knowledge of an object in terms of its structural components and their syntactical relationships. We summarize four types of geometric constraints for knowledge representation, based on which we develop an algorithm for knowledge acquisition. Another algorithm for graphics recognition using the acquired graphical knowledge is also proposed, which is actually a sequential examination of these constraints. In the algorithm, we first guess the next component’s attributes (e.g., size, position and orientation) by reasoning from an earlier found component and the constraint between them, and then search for this hypothetical component in the drawing. If all of the hypothetical components are found, a graphic object of this type is recognized. For improving the system’s recognition accuracy, we develop a user feedback scheme, which can update the graphical knowledge from both positive (missing) and negative (mis-recognized) examples provided by the user for subsequent recognition. Experiments have shown that our proposed approach is both efficient and effective for recognizing various types of graphic objects in engineering drawings. This paper is an extension of our papers published in ICDAR2003 and GREC2003. 相似文献

13.

A Survey of 3D Solid Reconstruction from 2D Projection Line Drawings

Weidong Wang Georges G. Grinstein 《Computer Graphics Forum》1993,12(2):137-158

The reconstruction of a 3D object from its 2D projection(s) and its corresponding problem of 3D object recognition are two of the important research areas in the field of computer vision and artificial intelligence. Reconstruction involves determining the geometric and topological relationship of an object's atomic parts whereas recognition involves identifying an object by some form of template matching. Nagendra and Gujar¹ gave a survey of several papers on reconstruction of 3D object from its 2D views. In this paper we present a taxonomy of 3D object reconstruction from 2D projection line drawings. We base the classification on the number of 2D views of the 3D solid object, the degree of user interaction necessary for correct reconstruction, and the internal representation used in the reconstruction process. We discuss the basic issues associated with this problem, review the relevant literature and present topics for future research. 相似文献

14.

FUR: Understanding functional reasoning

M. Dimanzo E. Trucco F. Giunchiglia F. Ricci 《国际智能系统杂志》1989,4(4):431-457

By functional reasoning we mean the ability of integrating shape, function, and plans in reasoning. the shape of many man-made objects, such as tools, is expressly designed to provide precise functionalities. Moreover, humans know how to use the same objects for different functions. In vision and reasoning we make use of complex information which is not exclusively based on geometric and spatial knowledge, but also on functional elements. They seem to play a role in object recognition and representation. This article is an insight in functional reasoning from the computational point of view. It introduces its concepts and its apparent ubiquity in human behavior. Some relevant computational literature is reported and discussed. the rest of the article is an outline of the FUR project, an attempt to develop a computational model for functional reasoning. the development state of the project is presented along with the implementation of a first prototype. Some experimental results are finally given. 相似文献

15.

融合知识表征的多模态Transformer场景文本视觉问答

下载免费PDF全文

余宙俞俊朱俊杰匡振中《中国图象图形学报》2022,27(9):2761-2774

目的现有视觉问答方法通常只关注图像中的视觉物体,忽略了对图像中关键文本内容的理解,从而限制了图像内容理解的深度和精度。鉴于图像中隐含的文本信息对理解图像的重要性,学者提出了针对图像中场景文本理解的“场景文本视觉问答”任务以量化模型对场景文字的理解能力,并构建相应的基准评测数据集TextVQA(text visual question answering)和ST-VQA(scene text visual question answering)。本文聚焦场景文本视觉问答任务,针对现有基于自注意力模型的方法存在过拟合风险导致的性能瓶颈问题,提出一种融合知识表征的多模态Transformer的场景文本视觉问答方法,有效提升了模型的稳健性和准确性。方法对现有基线模型M4C(multimodal multi-copy mesh)进行改进,针对视觉对象间的“空间关联”和文本单词间的“语义关联”这两种互补的先验知识进行建模,并在此基础上设计了一种通用的知识表征增强注意力模块以实现对两种关系的统一编码表达,得到知识表征增强的KR-M4C(knowledge-representation-enhanced M4C)方法。结果在TextVQA和ST-VQA两个场景文本视觉问答基准评测集上,将本文KR-M4C方法与最新方法进行比较。本文方法在TextVQA数据集中,相比于对比方法中最好的结果,在不增加额外训练数据的情况下,测试集准确率提升2.4%,在增加ST-VQA数据集作为训练数据的情况下,测试集准确率提升1.1%;在ST-VQA数据集中,相比于对比方法中最好的结果,测试集的平均归一化Levenshtein相似度提升5%。同时,在TextVQA数据集中进行对比实验以验证两种先验知识的有效性,结果表明提出的KR-M4C模型提高了预测答案的准确率。结论本文提出的KR-M4C方法的性能在TextVQA和ST-VQA两个场景文本视觉问答基准评测集上均有显著提升,获得了在该任务上的最好结果。相似文献

16.

Isolated 3D object recognition through next view planning

Roy S.D. Chaudhury S. Banerjee S. 《IEEE transactions on systems, man, and cybernetics. Part A, Systems and humans : a publication of the IEEE Systems, Man, and Cybernetics Society》2000,30(1):67-76

In many cases, a single view of an object may not contain sufficient features to recognize it unambiguously. This paper presents a new online recognition scheme based on next view planning for the identification of an isolated 3D object using simple features. The scheme uses a probabilistic reasoning framework for recognition and planning. Our knowledge representation scheme encodes feature based information about objects as well as the uncertainty in the recognition process. This is used both in the probability calculations as well as in planning the next view. Results clearly demonstrate the effectiveness of our strategy for a reasonably complex experimental set 相似文献

17.

基于路径轮廓的三维目标识别

张桂梅章毅《计算机应用研究》2013,30(11):3483-3487

骨架能更有效地反映出目标的拓扑结构和细节变化, 因而在三维目标识别中得到广泛应用, 但存在的基于骨架的识别方法均要求骨架端点位于轮廓曲线上, 并且识别精度受骨架端点排序的影响。针对该问题, 提出了一种新的基于路径轮廓的三维目标识别算法。该算法首先定义了一种新的特征点——骨切点, 并根据骨切点在轮廓曲线上的顺序关系, 对骨架端点进行排序; 然后利用路径轮廓对目标轮廓进行分割; 再构造一种新的局部不变特征, 并结合hash表以识别三维目标。实验结果表明, 该算法对存在部分遮挡或缺损的三维目标仍有较好的识别效果。相似文献

18.

融合实体描述与路径信息的知识图谱表示学习模型

下载免费PDF全文

李军怀武允文王怀军李志超徐江《智能系统学报》2023,18(1):153-161

知识图谱表示学习方法是将知识图谱中的实体和关系通过特定规则表示成一个多维向量的过程。现有表示学习方法多用于解决单跳知识图谱问答任务,其多跳推理能力无法满足实际需求,为提升多跳推理能力,提出一种融合实体描述与路径信息的知识图谱表示学习模型。首先通过预训练语言模型RoBERTa得到融合实体描述的实体、关系表示学习向量;其次利用OPTransE将知识图谱转化成融入有序关系路径信息的向量。最后构建总能量函数,将针对实体描述和路径信息的向量进行融合。通过实验分析与对比该模型在链路预测任务上与主流知识图谱表示学习模型的性能,验证了该模型的可行性与有效性。相似文献

19.

基于多层推理机制的机械产品概念设计 总被引：15，自引：1，他引：14

邹慧君王石刚《计算机辅助设计与图形学学报》1997,9(6):548-553

将类比推理的方法与基于实例的方法相结合，建立了基于多层推理的机械产品概念设计系统、知识的表示，采用面向应用的规则方法，框架式的知识结构。该系统有自学习的能力，也可以由用户进行知识的更改和完善，用户界面良好。相似文献