大语言模型时代的材料信息提取和数据驱动研发期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

大语言模型时代的材料信息提取和数据驱动研发

作者姓名：	单斌李豪杰文艳伟陈蓉

作者单位：	1. 华中科技大学材料科学与工程学院;2. 华中科技大学机械科学与工程学院

摘要：	随着数据科学在科学领域的广泛应用,获取数据的重要性越来越高。在材料学领域,相关的论文包含了大量的材料科学知识。然而,这些论文往往呈现出非结构化和高度异构的格式,这为大规模分析其中包含的信息造成了障碍。幸运的是,自然语言处理(NLP)和计算机视觉(CV)等快速发展,特别是像ChatGPT这样的大型预训练语言模型,展现了巨大潜力。综述了文本挖掘在材料学的一般流程和工具,包括利用ChatGPT等大型预训练语言模型进行知识抽取,并介绍了图像和表格信息提取。然后,讨论了数据在材料性能预测、筛选和逆向合成中的应用。最后,结合最新的大型预训练模型,展望了数据驱动材料研究的未来发展方向。
关键词：	自然语言处理(NLP) 材料合成原子层沉积(ALD) 预训练模型