首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
该文针对非任务导向型对话的回复质量构建了一个大规模的人工标注中文数据集,该数据集包含了从社交媒体收集到的超过27 000个对话问题以及超过82 000个对话问题的回复。为了产生高质量的标注数据,邀请了专业人员根据对话回复的相关性、连贯性、信息性、趣味性,以及是否潜在地具有让对话继续延续的特性进行标注,在标注中定义了一个五级评分方法,分别是: 极差的、较差的、一般的、较好的、极好的。为了测试标注产生的数据集是否具有有效性和实用性,以对话回复选择为任务,在标注数据集上测试了多种无监督和有监督模型。实验结果表明,该数据集对于提升对话回复选择的质量有显著效果。  相似文献   

2.
3.
近年来,我国高校因学业问题无法顺利毕业的学生数量逐年上升,给高校教学管理工作带来极大压力。利用知识图谱技术快速自动解答学业困惑成为亟待解决的重要问题。实体精准识别可有效提取学业管理文本中的关键信息,但该领域尚未存在公开适用的标注数据集,因此开展面向具有普遍性和通识性的高校学业命名实体识别数据集变得极为迫切。依据学业管理专家的领域知识,对某高校13万余字学业文本制定了8类学业数据构建标准,并根据构建标准以及文本特性完成了标注工作。将BiLSTM-CRF等4种识别模型在公开数据集和构建数据集上进行实验测试,结果表明构建的数据集可以应用于高校学业领域的命名实体识别任务,构建方法具有普适性,而且分类标注后的数据集识别效果相较未分类数据集有明显提升,进一步验证了该分类标准的有效性。  相似文献   

4.
脯氨酸肽键数据集的构建   总被引:1,自引:0,他引:1  
由分辨率<0.25nm,同一性(identity)<30%的2401条肽链中计算提取了全部顺式与反式脯氨酸肽键的位置,数目分别为1221个与26401个,从而建立了一个较大规模的脯氨酸肽键数据集。统计分析了该数据集的基本特征:肽键N端残基的分布、N端残基的二面角统计、在二级结构中的分布情况、顺式肽键在脯氨酸肽键中所占比例。此数据集对于进一步研究顺反X-Pro肽键的结构、与氨基酸序列之间的关系,以及肽链折叠动力学具有重要作用。  相似文献   

5.
6.
7.
8.
随着发病率的逐年上升,糖尿病正日益成为严峻的世界健康难题,尤其是在发展中国家,其中大部分的糖尿病患者是2型糖尿病. 经过科学验证:通过及时有效的诊断,大约80%的2型糖尿病并发症能被阻止或者延缓. 基于大规模不平衡数据集,提出一种集成模型用于精准地诊断糖尿病患者. 数据集包含了中国某省从2009年到2015年数百万人的医疗记录. 实验结果证明该方法具有良好的性能,并取得了91.00%的敏感度,58.24%的F3值以及86.69%的G-mean值.  相似文献   

9.
医疗健康知识挖掘在人工智能和大数据时代受到了学界的极大关注,目前已经成为信息抽取和文本挖掘中的重要研究方向.在基于深度学习的实体识别、实体关系抽取、问答系统以及知识图谱构建研究中,各类语义资源、数据集和工具已经成为开展医疗健康知识挖掘的重要保障.该文首先对医疗健康知识挖掘中需要使用的UMLS、MeSH和SNOMED C...  相似文献   

10.
文中提出一种快速构建异常行为检测数据集方法,该方法以一种半自动的方式完成数据集的构建,有助于减少构建过程中人工操作的工作量.首先以网络爬虫的方式自动地从互联网上搜索并下载包含指定动作的视频,之后以当前SOTA(state-of-the-art)的目标检测模型作为人物空间位置检测器,最后以人工标注和行为检测模型相结合的迭...  相似文献   

11.
口语对话管理综述*   总被引:2,自引:0,他引:2  
主要介绍了口语对话系统中对话管理的作用、基本问题和设计方法。对话管理在整个对话系统中处于核心地位,控制整个对话的进行,负责对用户输入的理解以及根据领域内容决定系统对用户的反应。对话管理的设计主要有基于状态图的结构(有限状态机)、填充槽结构和基于任务的结构三种方法,提出了一种基于逻辑表达式的结构,并设计了状态图/逻辑表达式双层结构。  相似文献   

12.
农业书籍与网络知识库作为领域专家撰写的蕴含了大量农学常识与农事经验的数据源,具有高可信、知识丰富、结构规范等特点。为了挖掘此类文本源中的农学知识,该文讨论了农业命名实体和实体关系的相关问题,首次提出了主动学习与众包相结合的农业知识标注体系。在农学专家的指导和参与下,构建了包含9类实体以及15大类、37小类语义关系的多源农业知识标注语料库,其中农业书籍源共3.7万个实体、3.5万个实体关系,百度百科源含1.1万个实体以及1.5万个实体关系。在实验部分,我们利用标注一致性评价标准对比了两类数据源的标注质量,并从实体识别、关系抽取两个方面证明了主动学习能够节约标注成本、提升标注效率和模型训练效果,为后续研究打下了坚实基础。  相似文献   

13.
口语对话系统是人机交互领域的核心技术,也是实现和谐人机交互的重要途径,具有重大的研究意义和应用价值,其中的各项理论和技术的研究进展一直备受关注.较为全面深入地总结了对话管理及口语对话系统的研究进展和现状.首先阐述了口语对话系统中的主要研究问题,包括系统各模块的研究内容与关键技术、系统的可移植性和鲁棒性设计等;然后从理论模型、研究进展及可用性等角度系统地剖析了现有的多种口语对话管理策略;最后展望了未来可能的研究方向和亟待解决的问题.  相似文献   

14.
通过一个具体案例并给出关键代码,对如何利用微软.NET架构组件把XML数据映射到一个关系数据集、获取XML数据的关系表和存储XML数据的实现技术进行了研究。  相似文献   

15.
为快速构建大尺度、高质量中国人脸识别数据集,本文提出一种半自动构建方法.相较于现有的数据集构建方法,该方法可以快速地构建大尺度中国名人人脸数据集,将此数据集命名为CCFace(Chinese Celebrities Face).CCFace数据集包含431个人物,506874张人脸图像,平均每个人物包含1176张不同年龄、姿态的图像,该构建方法在一定程度上解决了当前社区中可用的中国人人脸图像数据集短缺问题.在实验部分中以多个模型测试该数据集的有效性,表明其可以作为SOTA(State Of The Art)模型的训练集使用,相信这种方法以及该数据集将引来更多的人来从事人脸识别的研究工作,并促进国内人脸识别应用的发展.  相似文献   

16.
袁琰  田怀凤  杜波  陆汝占 《计算机工程》2005,31(13):212-214
对话管理模块在口语对话系统中占有极为重要的地位,它控制系统与用户之间的交互,确定交互过程中的每一步系统将采取何种操作。文中介绍的上海市交通信息智能查询系统中所采用的基于框架的对话管理模型由查询框架和建立在查询框架基础上的对话管理策略构成,该模型实现了对话过程的混合主导,保证了对话过程的一致性和灵活性,并具有较好的移植性。  相似文献   

17.
三维模板跟踪旨在将预先构建的三维CAD模型与输入图像中的相应目标进行精确配准,在增强现实、机器人等领域具有重要的应用,也是计算机视觉领域的关键问题之一.近年来,三维模板跟踪的准确率和稳定性都得到了持续提升,但仅有少量的工作关注三维模板跟踪数据集的构建.随着深度学习的普及,各领域中大规模数据集的构建越来越被重视,为算法的...  相似文献   

18.
针对当前电力营业厅等服务型场所缺乏领域特有的情感分析数据集这一问题,构建了一个可应用于电力营业厅等服务型场所的情感分析数据集。该数据集可对用户话语进行情感极性分类,并可对用户情感来源进行归因分类。数据集共包含2 080条数据,首先从电力系统营业厅客户的交互、反馈中收集原始语音、文本数据,然后对这些数据进行清洗、脱敏和增广,最后进行情感极性分类和情感指向分类两类文本分类任务的标签标注和校对。在得到的数据集上使用多种特征提取方法和分类器模型进行多次交叉验证实验,其中基于BERT作为编码器的神经网络分类器模型最高可在数据集两类任务上取得95.31%和92.07%的准确率,充分验证了所提出的情感分析数据集的有效性和实用性。实验结果表明该数据集可用于对话系统的实际应用及相关领域的情感分析中,帮助营业厅等服务类场所更有针对性地提升服务质量和用户体验。  相似文献   

19.
考虑使用数据集组件来连接数据库并操作数据库表中数据在软件开发中的方便性,其具有强大的数据操作能力,在很多开发环境中都提供了相应的数据集组件,但在JAVA语言的开发环境中没有与之对应的数据集组件,一般采用JDBC接口或者OR映射的方式完成数据的操作,其中JDBC接口因其属于较低层次接口需要大量的编程,而OR映射在涉及复杂数据关系及大量数据访问是容易出现性能问题,在借鉴其他环境中数据集的设计理念的基础上,以实际开发要求为目标,设计一种基于JDBC封装的JAVA通用数据集数据访问框架。  相似文献   

20.
基于主题森林结构的对话管理模型   总被引:1,自引:0,他引:1  
现有许多对话系统都是面向任务的,但很少考虑对话过程涉及的多主题、主题切换、主题间的信息共享,以及不同信息重要程度不同等问题.该文提出基于主题森林结构的对话管理模型,较好地处理了上述问题,能实现对话过程的混合主导.该模型能保证交互过程中对话内容的一致性,对上下文的理解、对话控制和应答决策灵活自然.其推理机应用了多种与领域无关的策略,具有较好的可移植性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号