图:中国DeepSeek震撼全球
“当美国休息时,中国(科技界)在工作,以更低的成本、更快的速度和更强的实力赶上。”美国AI科企Scale AI创始人Alexander Wang所指的,是春节前夕震撼全球的国产新AI大模型DeepSeek(深度求索)。
数天前,总部位于中国杭州的DeepSeek发布推理模型R1,在性能逼近OpenAI o1正式版的同时,推理成本却仅为后者几十分之一,训练费用约为GPT-4o的5%。DeepSeek应用于27日登顶苹果美国地区应用商店免费App下载排行榜,超越ChatGPT,堪称中国AI发展“里程碑”:在欠缺英伟达AI GPU强大AI算力支持下,中国仍能以极低成本加上性能普通的AI加速器,训练出推理能力一流的突破式开源AI大模型,创造奇迹。有专家告诉大公报,中美AI博弈已进入战略相持阶段。\大公报记者 连慜钰
专家:制裁倒逼创新 开源唯一选择
DeepSeek的表现震撼美国硅谷,掀起全球热潮,甚至被称作“来自东方的神秘力量”。纽约时报称,DeepSeek大模型以不到600万美元的极低成本和仅仅2000块芯片实现与OpenAI等巨头相媲美的性能,挑战“唯科技巨头才能研发尖端AI”共识。
DeepSeek成立于2023年5月,是一家大模型创业公司,创始人之一是来自广东湛江吴川的梁文锋。去年12月27日推出开源模型DeepSeek-V3,放弃业内普遍使用的“监督微调”训练范式,直接通过“强化学习”让模型自主进化出推理能力。分析指,这是美国对华芯片出口限制下所激发出的创新。
今年1月20日,DeepSeek正式开源R1推理模型,在数学、代码、自然语言推理等任务上的性能能比肩OpenAI o1模型正式版,并支持免费商用、任意修改和衍生开发等,其预训练费用只有557.6万美元(GPT-4o约为1亿美元),在2048块英伟达中国市场低配版H800 GPU集群上运行逾50天完成。
“物美价廉”是R1一大特点,每百万个token(符元,AI 时代最基础运算单位)查询成本为0.14美元,OpenAI成本为7.50美元,便宜98%。硅谷知名投资机构A16z合伙人Anjney Midha表示:“从史丹福到麻省理工,R1一夜之间成为美国顶尖大学研究人员首选模型。”
中国人才济济 破AI能力“护城河”
脸书母公司Meta一位员工在网上发帖披露,Meta内部已进入恐慌模式。“一切源于DeepSeek-V3,其在基准测试中让Llama 4相形见绌。”据悉,Llama 4训练规模空前巨大,共使用24万块GPU。加州大学伯克利分校AI政策研究员Ritwik Gupta称,DeepSeek最近发布的模型表明“AI能力没有护城河”。中国系统工程师人才库比美国大得多,懂得如何充分利用计算资源来更便宜地训练和运行模型。
日前,OpenAI、软银等公司公布“星际之门”计划,要在4年中砸5000亿美元来加速美国人工智能的发展。清华大学新闻学院、人工智能学院教授沈阳说:“DeepSeek的成功不仅是中国在科技领域重大胜利,更可能改变全球AI技术的发展轨迹。”沈阳认为,中美AI博弈已进入战略相持阶段,AI产业未来将不再是单纯“大算力”竞争,而是“智能化”与“自主化”全新博弈,通过技术创新打破封锁、打破壁垒,开源成为唯一选择。