清华团队在大规模语言预训练模型前沿领域取得进展每日热文

(资料图片)

近日，清华大学计算机系研究团队与深圳国际研究生院团队合作，在大规模语言预训练模型前沿领域取得新进展，相关研究成果“面向大规模预训练语言模型的参数高效微调”于3月23日被《自然-机器智能》作为封面文章发表。

2018年以来，预训练语言模型（PLM）及其“预训练-微调”方法已成为自然语言处理（NLP）任务的主流范式，该范式先利用大规模无标注数据通过自监督学习预训练语言大模型，得到基础模型，再利用下游任务的有标注数据进行有监督学习微调模型参数，实现下游任务的适配。

越来越多实验表明，规模越大的模型不仅在已知任务上有着更好的表现，同时展现出完成更复杂的未知任务的强大泛化能力，近年出现的GPT-3、ChatGPT等均为大规模预训练模型的代表。

然而，现有对大规模预训练模型的全部参数进行微调实现任务适配的做法，会消耗大量的GPU计算资源和存储资源，严重限制大模型的应用场景。为了应对该挑战，参数高效微调方法逐渐受到关注。与全参数微调相比，参数高效微调方法冻结预训练模型99%以上的参数，仅利用少量下游任务数据微调少于1%模型规模的参数，作为模型插件实现大模型对下游任务的适配，达到媲美全参数微调的性能，并显著降低微调过程的计算和存储开销。

[责任编辑：h001]

关键词：

清华团队在大规模语言预训练模型前沿领域取得进展 每日热文

相关新闻

清华团队在大规模语言预训练模型前沿领域取得进展每日热文