中文笑话语料库的构建与应用 |
| |
作者姓名: | 任璐 杨亮 徐琳宏 樊小超 刁宇峰 林鸿飞 |
| |
作者单位: | 1.大连理工大学 信息检索研究室,辽宁 大连 116023; 2.大连外国语大学 软件学院,辽宁 大连 116044 |
| |
基金项目: | 国家自然科学基金(61632011,61702080,61602079);中央高校基本科研业务费专项资金(DUT16ZD216,DUT17RC(3)016) |
| |
摘 要: | 笑话作为国家级非物质文化遗产,历史悠久,普遍存在于人们的日常生活中,是最贴近人们生活的艺术体裁之一,笑话的理解也是人工智能发展需要攻克的难题之一。该文构建的大规模中文笑话语料库为人工智能以及语言学研究提供了有利的资源支撑。该文首先归纳总结笑话语料库所依据的笑话相关理论基础,然后对语料库构建中语料标注、语料分析等工作做了详细的介绍,最后在语料库的基础上,分别将笑话与故事、微博、歇后语/谚语以及新闻四种体裁分别做了识别工作,验证了笑话简洁、具有一定的情节、富含情感等特征。同时通过与等长的负例构成的数据集进行笑话识别,验证了所提出特征的有效性。
|
关 键 词: | 人工智能 中文笑话语料库 语料标注 笑话识别 |
|
| 点击此处可从《中文信息学报》浏览原始摘要信息 |
|
点击此处可从《中文信息学报》下载全文 |
|