基于图像描述和视觉问答的智能盲人辅助系统期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于图像描述和视觉问答的智能盲人辅助系统

引用本文：	常波.基于图像描述和视觉问答的智能盲人辅助系统[J].信息与电脑,2023(3):113-115.

作者姓名：	常波

作者单位：	云南大学信息学院

基金项目：	国家级大学生创新创业训练计划支持项目（项目编号：202110673089）；

摘要：	为了解决盲人无法通过眼睛感知周围环境和盲人辅助设备无法提供问答功能的问题，设计了一种智能盲人辅助系统，包含硬件和软件两部分。首先，分别对摄像头、麦克风、全球定位系统（GlobalPositioning System,GPS）模块采集信息进行关键帧抽取、语音转文字、关键数据抽取获得对应的图片、文本、位置信息；其次，核心服务软件利用上述信息进行功能的切换，并将对应图片-文本数据、图片数据、文本-位置数据送入图片描述（Image Caption）模型和视觉问答（Visual Question Answering,VQA）模型处理，得到对应回答信息；最后，语音播报模块利用文字转语音技术将回答信息转成语音信息并反馈。测试结果表明，提出的系统能针对盲人具体的语音问题进行回答，实现特定场景的问答和描述。
关键词：	视觉问答(VQA) Image Caption 树莓派