共查询到20条相似文献,搜索用时 15 毫秒
1.
该文针对非任务导向型对话的回复质量构建了一个大规模的人工标注中文数据集,该数据集包含了从社交媒体收集到的超过27 000个对话问题以及超过82 000个对话问题的回复。为了产生高质量的标注数据,邀请了专业人员根据对话回复的相关性、连贯性、信息性、趣味性,以及是否潜在地具有让对话继续延续的特性进行标注,在标注中定义了一个五级评分方法,分别是: 极差的、较差的、一般的、较好的、极好的。为了测试标注产生的数据集是否具有有效性和实用性,以对话回复选择为任务,在标注数据集上测试了多种无监督和有监督模型。实验结果表明,该数据集对于提升对话回复选择的质量有显著效果。 相似文献
2.
3.
近年来,我国高校因学业问题无法顺利毕业的学生数量逐年上升,给高校教学管理工作带来极大压力。利用知识图谱技术快速自动解答学业困惑成为亟待解决的重要问题。实体精准识别可有效提取学业管理文本中的关键信息,但该领域尚未存在公开适用的标注数据集,因此开展面向具有普遍性和通识性的高校学业命名实体识别数据集变得极为迫切。依据学业管理专家的领域知识,对某高校13万余字学业文本制定了8类学业数据构建标准,并根据构建标准以及文本特性完成了标注工作。将BiLSTM-CRF等4种识别模型在公开数据集和构建数据集上进行实验测试,结果表明构建的数据集可以应用于高校学业领域的命名实体识别任务,构建方法具有普适性,而且分类标注后的数据集识别效果相较未分类数据集有明显提升,进一步验证了该分类标准的有效性。 相似文献
4.
脯氨酸肽键数据集的构建 总被引:1,自引:0,他引:1
由分辨率<0.25nm,同一性(identity)<30%的2401条肽链中计算提取了全部顺式与反式脯氨酸肽键的位置,数目分别为1221个与26401个,从而建立了一个较大规模的脯氨酸肽键数据集。统计分析了该数据集的基本特征:肽键N端残基的分布、N端残基的二面角统计、在二级结构中的分布情况、顺式肽键在脯氨酸肽键中所占比例。此数据集对于进一步研究顺反X-Pro肽键的结构、与氨基酸序列之间的关系,以及肽链折叠动力学具有重要作用。 相似文献
8.
随着发病率的逐年上升,糖尿病正日益成为严峻的世界健康难题,尤其是在发展中国家,其中大部分的糖尿病患者是2型糖尿病. 经过科学验证:通过及时有效的诊断,大约80%的2型糖尿病并发症能被阻止或者延缓. 基于大规模不平衡数据集,提出一种集成模型用于精准地诊断糖尿病患者. 数据集包含了中国某省从2009年到2015年数百万人的医疗记录. 实验结果证明该方法具有良好的性能,并取得了91.00%的敏感度,58.24%的F3值以及86.69%的G-mean值. 相似文献
9.
医疗健康知识挖掘在人工智能和大数据时代受到了学界的极大关注,目前已经成为信息抽取和文本挖掘中的重要研究方向.在基于深度学习的实体识别、实体关系抽取、问答系统以及知识图谱构建研究中,各类语义资源、数据集和工具已经成为开展医疗健康知识挖掘的重要保障.该文首先对医疗健康知识挖掘中需要使用的UMLS、MeSH和SNOMED C... 相似文献
10.
文中提出一种快速构建异常行为检测数据集方法,该方法以一种半自动的方式完成数据集的构建,有助于减少构建过程中人工操作的工作量.首先以网络爬虫的方式自动地从互联网上搜索并下载包含指定动作的视频,之后以当前SOTA(state-of-the-art)的目标检测模型作为人物空间位置检测器,最后以人工标注和行为检测模型相结合的迭... 相似文献
11.
12.
农业书籍与网络知识库作为领域专家撰写的蕴含了大量农学常识与农事经验的数据源,具有高可信、知识丰富、结构规范等特点。为了挖掘此类文本源中的农学知识,该文讨论了农业命名实体和实体关系的相关问题,首次提出了主动学习与众包相结合的农业知识标注体系。在农学专家的指导和参与下,构建了包含9类实体以及15大类、37小类语义关系的多源农业知识标注语料库,其中农业书籍源共3.7万个实体、3.5万个实体关系,百度百科源含1.1万个实体以及1.5万个实体关系。在实验部分,我们利用标注一致性评价标准对比了两类数据源的标注质量,并从实体识别、关系抽取两个方面证明了主动学习能够节约标注成本、提升标注效率和模型训练效果,为后续研究打下了坚实基础。 相似文献
13.
14.
通过一个具体案例并给出关键代码,对如何利用微软.NET架构组件把XML数据映射到一个关系数据集、获取XML数据的关系表和存储XML数据的实现技术进行了研究。 相似文献
15.
为快速构建大尺度、高质量中国人脸识别数据集,本文提出一种半自动构建方法.相较于现有的数据集构建方法,该方法可以快速地构建大尺度中国名人人脸数据集,将此数据集命名为CCFace(Chinese Celebrities Face).CCFace数据集包含431个人物,506874张人脸图像,平均每个人物包含1176张不同年龄、姿态的图像,该构建方法在一定程度上解决了当前社区中可用的中国人人脸图像数据集短缺问题.在实验部分中以多个模型测试该数据集的有效性,表明其可以作为SOTA(State Of The Art)模型的训练集使用,相信这种方法以及该数据集将引来更多的人来从事人脸识别的研究工作,并促进国内人脸识别应用的发展. 相似文献
16.
17.
18.
针对当前电力营业厅等服务型场所缺乏领域特有的情感分析数据集这一问题,构建了一个可应用于电力营业厅等服务型场所的情感分析数据集。该数据集可对用户话语进行情感极性分类,并可对用户情感来源进行归因分类。数据集共包含2 080条数据,首先从电力系统营业厅客户的交互、反馈中收集原始语音、文本数据,然后对这些数据进行清洗、脱敏和增广,最后进行情感极性分类和情感指向分类两类文本分类任务的标签标注和校对。在得到的数据集上使用多种特征提取方法和分类器模型进行多次交叉验证实验,其中基于BERT作为编码器的神经网络分类器模型最高可在数据集两类任务上取得95.31%和92.07%的准确率,充分验证了所提出的情感分析数据集的有效性和实用性。实验结果表明该数据集可用于对话系统的实际应用及相关领域的情感分析中,帮助营业厅等服务类场所更有针对性地提升服务质量和用户体验。 相似文献
19.
章亚 《数字社区&智能家居》2014,(33):7895-7901
考虑使用数据集组件来连接数据库并操作数据库表中数据在软件开发中的方便性,其具有强大的数据操作能力,在很多开发环境中都提供了相应的数据集组件,但在JAVA语言的开发环境中没有与之对应的数据集组件,一般采用JDBC接口或者OR映射的方式完成数据的操作,其中JDBC接口因其属于较低层次接口需要大量的编程,而OR映射在涉及复杂数据关系及大量数据访问是容易出现性能问题,在借鉴其他环境中数据集的设计理念的基础上,以实际开发要求为目标,设计一种基于JDBC封装的JAVA通用数据集数据访问框架。 相似文献