大公网

大公报电子版
首页 > 新闻 > 内地 > 正文

国产类脑脉冲大模型 “瞬悉1.0”问世

2025-09-09 05:02:59大公报
字号
放大
标准
分享

  【大公报讯】记者刘凝哲北京报道:日前,中国科学院自动化研究所李国齐、徐波团队与国产GPU(图形处理器)企业合作,成功研发出类脑脉冲大模型“瞬悉1.0”(SpikingBrain-1.0)。该模型基于“内生复杂性”理论构建,在国产GPU沐曦MetaX平台上完成全流程训练与推理,显著提升了大模型高效处理极长文本或数据序列的效率和速度。

  当前,DeepSeek、ChatGPT等主流大模型均采用Transformer架构,而“瞬悉1.0”则借鉴大脑神经元内部工作机制,清晰地展示了一条不断提升模型复杂度和性能的新型可行路径。李国齐研究员表示,主流模型的功耗是固定的,不管是否需要大量的计算都在持续耗能。此外,它们几乎把所有对话历史“原封不动”地记下来,这会在处理很长的对话时变得越来越慢。

  “‘瞬悉1.0’基于一种新的类脑原理,可以把对话历史进行压缩和提炼,就像是人类记忆一样,不需要每次都翻遍全部历史,在超长对话场景下依然保持很快的响应速度。”李国齐说,“瞬悉1.0”采用脉冲驱动机制,只有在需要的时候才会触发计算,所以能耗会根据实际情况动态变化,而不是一直保持在高水平。这需要专门的硬件支持,但带来的好处是能效比大幅提升。“在同样的超长对话中,‘瞬悉1.0’能够更快响应、更流畅交互,同时在移动端或低功耗设备上更节能。”

  值得一提的是,“瞬悉1.0”在多个核心性能上实现突破。第一,极低数据量上的高效训练,以约为主流大模型2%的预训练数据量实现与众多开源Transformer模型在多任务语言理解,中文多任务语言理解,常识推理能力任务上相媲美的性能。第二,推理效率的数量级提升:推理阶段结合脉冲神经元事件驱动特性,在超长序列处理能力上展现出数量级的效率和速度提升。

  此外,“瞬悉1.0”完成国产自主可控类脑大模型生态的构建。“瞬悉”适配了面向国产GPU集群的高效训练和推理框架、Triton算子库、模型并行策略以及集群通信原语,表明了构建国产自主可控的新型非Transformer大模型架构生态的可行性,并为低功耗的类脑大模型运行提供有力支撑。

点击排行