摘 要: | 随着数据科学在科学领域的广泛应用,获取数据的重要性越来越高。在材料学领域,相关的论文包含了大量的材料科学知识。然而,这些论文往往呈现出非结构化和高度异构的格式,这为大规模分析其中包含的信息造成了障碍。幸运的是,自然语言处理(NLP)和计算机视觉(CV)等快速发展,特别是像ChatGPT这样的大型预训练语言模型,展现了巨大潜力。综述了文本挖掘在材料学的一般流程和工具,包括利用ChatGPT等大型预训练语言模型进行知识抽取,并介绍了图像和表格信息提取。然后,讨论了数据在材料性能预测、筛选和逆向合成中的应用。最后,结合最新的大型预训练模型,展望了数据驱动材料研究的未来发展方向。
|