阿里达摩院称其通用性AI模型参数突破10万亿

11月8日，阿里巴巴达摩院公布其多模态大模型“M6”最新进展，宣布其参数规模已从万亿跃迁至10万亿，这一数字远超谷歌、微软此前发布的万亿级模型，成为当前最大的人工智能（AI）预训练模型。

M6是达摩院研发的通用性人工智能大模型，拥有多模态、多任务能力，其认知和创造能力超越传统AI，尤其擅长设计、写作、问答，在电商、制造业、文学艺术、科学研究等领域有广泛应用前景。M6 也是国内首个商业化落地的多模态大模型，目前已在超40个场景中应用。

低碳高效是M6一大优势。据介绍，M6仅使用512张 GPU即可在10天内训练出具有可用水平的10万亿模型。相比去年OpenAI发布的大模型GPT-3，M6实现同等参数规模，能耗仅为其1%。

与传统AI相比，拥有巨量参数的大模型拥有成百上千倍“神经元”数量，且预先学习过海量知识，在一些问题上能够表现出像人类一样“举一反三”的学习能力。因此，大模型被普遍认为是未来的“基础模型”，将成下一代AI基础设施。然而，大模型的算力成本也相当高昂，比如训练1750亿参数语言大模型GPT-3所需能耗，相当于从地球开车往返月球的消耗。

今年5月，通过专家并行策略及优化技术，达摩院M6团队将万亿模型能耗降低超八成、效率提升近11倍。10月，M6再次通过更细粒度的CPU offload、共享—解除算法等创新技术，让收敛效率进一步提升7倍，这使得模型规模扩大10倍的情况下，能耗未显著增加。这一系列突破极大降低了大模型研究门槛，让一台机器训练出一个千亿模型成为可能。

基于M6模型，达摩院联合阿里云推出M6服务化平台，为大模型训练及应用提供完备工具，让大模型实现“开箱即用”。达摩院还推出了当前最大规模的中文多模态评测数据集MUGE，覆盖图文描述、文本生成图像、跨模态检索任务，填补了中文多模态权威评测基准缺失的空白。

阿里达摩院智能计算实验室负责人周靖人表示，接下来他们将深入研究大脑认知机理，致力于将M6的认知力提升至接近人类的水平，比如，通过模拟人类跨模态的知识抽取和理解方式，构建通用的人工智能算法底层框架，并不断增强M6在不同场景的应用。

[责任编辑：h001]

关键词：

阿里达摩院称其通用性AI模型参数突破10万亿

相关新闻