期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

田鑫季怡高海燕林欣刘纯平《计算机科学与探索》2021,15(10):1958-1968

场景图因其具有的表示视觉场景内容的语义和组织结构的特点,有助于视觉理解和可解释推理,成为计算机视觉研究热点之一.但由于现存的视觉场景中目标和目标之间关系标注的不平衡,导致现有的场景图生成方法受到数据集偏置影响.对场景图数据失衡问题进行研究,提出一种基于外部信息引导和残差置乱相结合的场景图生成方法(EGRES),缓解数据集偏置对场景图生成的负面影响.该方法利用外部知识库中无偏置的常识性知识规范场景图的语义空间,缓解数据集中关系数据分布不平衡的问题,以提高场景图生成的泛化能力;利用残差置乱方式对视觉特征和提取的常识性知识进行融合,规范场景图生成网络.在VG数据集上的对比实验和消融实验证明,提出的方法可以有效改善场景图生成.对于数据集中不同标签的对比实验证明,提出的方法可以改善绝大多数关系类别的生成性能,尤其是中低频关系类别下的场景图生成性能,极大地改善了数据标注失衡的问题,比现有的场景图生成方法具有更好的生成效果. 相似文献

2.

基于LSTM神经网络的声纹识别

刘晓璇季怡刘纯平《计算机科学》2021,48(z2):270-274

声纹识别利用说话人生物特征的个体差异性,通过声音来识别说话人的身份.声纹具有非接触、易采集、特征稳定等特点,应用领域十分广泛.现有的统计模型方法具有提取特征单一、泛化能力不强等局限性.近年来,随着人工智能深度学习的快速发展,神经网络模型在声纹识别领域崭露头角.文中提出基于长短时记忆(Long Short-Term Memory,LSTM)神经网络的声纹识别方法,使用语谱图提取声纹特征作为模型输入,从而实现文本无关的声纹识别.语谱图能够综合表征语音信号在时间方向上的频率和能量信息,表达的声纹特征更加丰富.LSTM神经网络擅长捕捉时序特征,着重考虑了时间维度上的信息,相比其他神经网络模型,更契合语音数据的特点.文中将LSTM神经网络长期学习的优势与声纹语谱图的时序特征有效结合,实验结果表明,在THCHS-30语音数据集上取得了84.31％的识别正确率.在自然环境下,对于3 s的短语音,该方法的识别正确率达96.67％,与现有的高斯混合模型和卷积神经网络方法相比,所提方法的识别性能更优. 相似文献

3.

基于多模态特征融合的三维点云分类方法

顾砾季怡刘纯平《计算机工程》2021,47(2):279-284

针对点云数据本身信息量不足导致现有三维点云分类方法分类精度较低的问题,结合多模态特征融合,设计一种三维点云分类模型。通过引入投影图对点云数据信息进行扩充,将点云数据与图像数据同时作为输入,对PointCNN模型提取的点云特征与CNN模型提取的投影图特征进行加权融合,从而得到最终分类结果。在ModelNet40数据集上的分类结果表明,该模型的分类精度达到96.4%,相比PointCNN模型提升4.7个百分点。相似文献

4.

一种改进的时空线索的视频显著目标检测方法

秦利斌刘纯平王朝晖季怡《计算机工程与应用》2015,51(16):161-165

针对Zhai和Shah提出的原始时空显著性检测模型在空间显著性方面仅仅使用了图像的亮度信息,忽略彩色图像中的色彩信息的不足,提出了一种基于HSV颜色模型的空间显著性计算方法。该方法充分利用图像中的亮度信息和彩色信息,从像素级和区域级两个层次上进行显著性的计算。将改进的空间显著性计算与Zhai和Shah提出的时间显著性计算以及时空融合框架进行整合,检测视频中的显著目标。实验证明改进方法在光照不均和背景较复杂的情况下获取的空间显著区域和显著目标比原始方法更准确。相似文献

5.

一种残差置乱上下文信息的场景图生成方法

林欣田鑫季怡徐云龙刘纯平《计算机研究与发展》2019,56(8)

相似文献

6.

基于增强特征金字塔网络的场景文本检测算法

邵海琳季怡刘纯平徐云龙《计算机科学》2022,49(2):248-255

场景文本检测有助于机器理解图像内容,在智能交通、场景理解和智能导航等领域应用广泛。现有的场景文本检测算法未充分利用高层语义信息和空间信息,限制了模型对复杂背景像素的分类能力和对不同尺度的文本实例的检测和定位能力。为解决上述问题,提出了一种基于增强特征金字塔网络的场景文本检测算法。该算法包括比率不变特征增强(Ratio Invariant Feature Enhanced,RIFE)模块和重建空间分辨率(Rebuild Spatial Resolution,RSR)模块。RIFE模块作为残差分支,增强了网络的高层语义信息传递,提高了分类能力,降低了误报率和漏捡率。RSR模块重建多层特征分辨率,利用丰富的空间信息改进边界位置。实验结果表明,所提算法提升了在多方向文本数据集ICDAR2015、弯曲文本数据集Totaltext以及长文本数据集MSRA-TD500上的检测能力。相似文献

7.

基于视觉特征引导融合的视频描述方法

下载免费PDF全文

苗教伟季怡刘纯平《计算机工程与应用》2022,58(20):124-131

视频描述生成因其广泛的潜在应用场景而成为近年来的研究热点之一。针对模型解码过程中视觉特征和文本特征交互不足而导致描述中出现识别错误的情况,提出基于编解码框架下的视觉与文本特征交互增强的多特征融合视频描述方法。在解码过程中,该方法使用视觉特征辅助引导描述生成,不仅为每一步的生成过程提供了文本信息,同时还提供了视觉参考信息,引导其生成更准确的词,大幅度提升了模型产生的描述质量;同时,结合循环dropout缓解解码器存在的过拟合情况,进一步提升了评价分数。在该领域广泛使用的MSVD和MSRVTT数据集上的消融和对比实验结果证明,提出的方法的可以有效生成视频描述,综合指标分别增长了17.2和2.1个百分点。相似文献

8.

基于多层卷积神经网络特征和双向长短时记忆单元的行为识别

葛瑞王朝晖徐鑫季怡刘纯平龚声蓉《控制理论与应用》2017,34(6):790-796

鲁棒的视频行为识别由于其复杂性成为了一项极具挑战的任务. 如何有效提取鲁棒的时空特征成为解决问题的关键. 在本文中, 提出使用双向长短时记忆单元(Bi--LSTM)作为主要框架去捕获视频序列的双向时空特征. 首先, 为了增强特征表达, 使用多层的卷积神经网络特征代替传统的手工特征. 多层卷积特征融合了低层形状信息和高层语义信息, 能够捕获丰富的空间信息. 然后, 将提取到的卷积特征输入Bi--LSTM, Bi--LSTM包含两个不同方向的LSTM层. 前向层从前向后捕获视频演变, 后向层反方向建模视频演变. 最后两个方向的演变表达融合到Softmax中, 得到最后的分类结果. 在UCF101和HMDB51数据集上的实验结果显示本文的方法在行为识别上可以取得较好的性能. 相似文献

9.

基于在线消息传递的主题追踪方法

龚声蓉叶芸刘纯平季怡《计算机学报》2015,38(2)

主题追踪因可以有效地汇集和组织分散在不同时间、地点的信息,并从主题层次的角度对某个主题相关事件的时效性、动态演化关系等得到比较全面的把握,成为当前数据挖掘领域的重要研究方向.现有基于概率主题模型的主题追踪方法主要以潜在狄利克雷分布(Latent Dirichlet allocation,LDA)模型为基础,采用在线吉布斯采样(Online Gibbs Sampling,OGS)和在线变分贝叶斯(Online Variational Bayesian,OVB)算法进行参数估计.OGS和OVB算法尽管解决了LDA模型中使用传统离线近似推理方法所需内存空间的大小随数据集的增长而不断增加,无法训练海量数据集以及数据流数据的问题,但训练的精度和速度均有待提高.该文基于LDA模型的改进因子图提出了一种在线消息传递(Online Belief Propagation,OBP)的主题追踪算法.该算法借助因子图中消息传递(BeliefPropagation,BP)算法的推理,通过切分海量数据集为段,并用前一段数据集训练后的参数计算当前段的梯度下降,使得主题追踪更加快速和准确.四组大规模文本数据集的实验对比表明,LDA模型中OBP算法在速度和精度上均优越于OGS和OVB算法,文中也从理论上进一步验证了OBP算法的收敛性,并给出了主题追踪的具体应用. 相似文献

10.

基于局部和全局特征视觉单词的人物行为识别

谢飞龚声蓉刘纯平季怡《计算机科学》2015,42(11):293-298

基于视觉单词的人物行为识别由于在特征中加入了中层语义信息,因此提高了识别的准确性。然而,视觉单词提取时由于前景和背景存在相互干扰,使得视觉单词的表达能力受到影响。提出一种结合局部和全局特征的视觉单词生成方法。该方法首先用显著图检测出前景人物区域,采用提出的动态阈值矩阵对人物区域用不同的阈值来分别检测时空兴趣点,并计算周围的3D-SIFT特征来描述局部信息。在此基础上,采用光流直方图特征描述行为的全局运动信息。通过谱聚类将局部和全局特征融合成视觉单词。实验证明,相对于流行的局部特征视觉单词生成方法,所提出的方法在简单背景的KTH数据集上的识别率比平均识别率提高了6.4%,在复杂背景的UCF数据集上的识别率比平均识别率提高了6.5%。相似文献