糖尿病健康管理对话数据集构建 |
| |
引用本文: | 汪正康,刘阳,杨锦锋,梁先桂,郭熙铜.糖尿病健康管理对话数据集构建[J].中文信息学报,2023(9):23-37. |
| |
作者姓名: | 汪正康 刘阳 杨锦锋 梁先桂 郭熙铜 |
| |
作者单位: | 1. 哈尔滨理工大学计算机科学与技术学院;2. 哈尔滨工业大学经济与管理学院 |
| |
基金项目: | 国家自然科学基金(72125001,72071054,72293584,72121001);;中国博士后科学基金(2016M601435); |
| |
摘 要: | 我国是全球糖尿病患病人数最多的国家,患病人数仍在持续快速增长,糖尿病已成为我国重大公共卫生问题。该文关注的糖尿病健康管理对话系统服务于糖尿病患者,为患者解答日常生活中糖尿病相关问题,而目前缺乏用于训练对话系统模型的糖尿病相关数据。基于此,该文构建了首个标注体系完整的糖尿病健康管理中文对话数据集“Diachat”,以支持健康管理对话系统研究。Diachat收集了来自线上聊天平台糖尿病患者与医生的693段对话(Dialogue),共4 686句语料(Sentence),完成了6 594条对话动作(Dialogue act)标注。Diachat数据集采用基于对话动作的表示方式进行意图表示并定义了15个对话动作标签(Act label)。同时,Diachat定义了6个领域(Domain)涵盖语料涉及的领域,分别为:问题(Problem)、饮食(Diet)、行为(Behavior)、运动(Sport)、治疗(Treatment)、基本信息(Profile)。为了支持构建完整的对话系统,Diachat为用户端和系统端分别构造了对话状态,并为每段对话构造了对话目标。基于Diachat数据集,该课题进...
|
关 键 词: | 对话系统 数据集构建 语料标注 糖尿病健康管理 |
|
|