图:从M6大模型到打造“通义千问”
在加入香港理工大学之前,杨红霞教授在阿里巴巴领导了M6大模型的研发,这也是AI大模型“通义千问”(见图)的前身,同时也是当时全球最大的中文多模态模型。杨红霞表示,M6大模型的研发实现了三个技术上的突破点:用更少的算力去运行、有当时领先的稀疏模型架构,以及首次大面积地运用在推荐系统这样的核心业务上。
M6的研发源于推荐系统的“冷启动”难题。“像手机淘宝这样的推荐系统,每天的新增用户、新增商品的数量都相当可观,如果你没有任何的用户行为数据,如何有效分发流量?”杨教授回忆道,“我们决定通过学习商品的属性、图片、视频等多模态信息来解决这个问题。”
借MOE突破盲点 大幅提升效率
然而,当年的杨红霞团队却面临一个近乎不可能的任务:用526张GPU卡训练万亿参数模型。“当时全球大厂都在拚算力,但我们的算力资源远远少于同行。”她回忆道。
如何破局?杨红霞表示,团队的突破点在于“混合专家模型”(MOE,Mixture of Experts)─通过稀疏架构,让模型仅激活部分参数处理特定任务,大幅提升效率。“我们的MOE从2021年就开始在做,而Open AI都是这两年才开始做MOE。”她强调。
她续表示,像DeepSeek这样的国产AI大模型,其算力资源亦有限,但在预训练阶段,其算子精度竟做到了FP8,她形容这件事“非常有挑战性”,“现在全球达到FP8的也就还有一个Open AI。”她解释,目前许多大厂的算子精度还只是FP16,而FP8相较FP16,理论上是可以节省一半的存储、节省一半的算力开销。“当然,现在各大厂都是用的混合精度,不是说清一色FP8或者FP16。”
另外,M6大模型的创新点,还在于它的应用情况。“它是首次大规模地用了非常大流量的、类似于像推荐系统这样的一个核心场景当中。”杨红霞说道。