首页 | 本学科首页   官方微博 | 高级检索  
     

糖尿病健康管理对话数据集构建
引用本文:汪正康,刘阳,杨锦锋,梁先桂,郭熙铜.糖尿病健康管理对话数据集构建[J].中文信息学报,2023(9):23-37.
作者姓名:汪正康  刘阳  杨锦锋  梁先桂  郭熙铜
作者单位:1. 哈尔滨理工大学计算机科学与技术学院;2. 哈尔滨工业大学经济与管理学院
基金项目:国家自然科学基金(72125001,72071054,72293584,72121001);;中国博士后科学基金(2016M601435);
摘    要:我国是全球糖尿病患病人数最多的国家,患病人数仍在持续快速增长,糖尿病已成为我国重大公共卫生问题。该文关注的糖尿病健康管理对话系统服务于糖尿病患者,为患者解答日常生活中糖尿病相关问题,而目前缺乏用于训练对话系统模型的糖尿病相关数据。基于此,该文构建了首个标注体系完整的糖尿病健康管理中文对话数据集“Diachat”,以支持健康管理对话系统研究。Diachat收集了来自线上聊天平台糖尿病患者与医生的693段对话(Dialogue),共4 686句语料(Sentence),完成了6 594条对话动作(Dialogue act)标注。Diachat数据集采用基于对话动作的表示方式进行意图表示并定义了15个对话动作标签(Act label)。同时,Diachat定义了6个领域(Domain)涵盖语料涉及的领域,分别为:问题(Problem)、饮食(Diet)、行为(Behavior)、运动(Sport)、治疗(Treatment)、基本信息(Profile)。为了支持构建完整的对话系统,Diachat为用户端和系统端分别构造了对话状态,并为每段对话构造了对话目标。基于Diachat数据集,该课题进...

关 键 词:对话系统  数据集构建  语料标注  糖尿病健康管理
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号