大公网

大公报电子版
首页 > 新闻 > 内地 > 正文

专家剖析DeepSeek技术

2025-02-08 05:02:17大公报
字号
放大
标准
分享

  谬误1

  DeepSeek是在ChatGPT大模型上通过“蒸馏”产生的,这涉及“偷取”知识产权,且任何人都可以以低成本蒸馏出“精华”。

  高飞:否。模型蒸馏并不是一项新技术,目前没有任何公司利用蒸馏方法,训练出超过其他模型性能的产品。这两年,拥有高端芯片、强大算力、在ChatGPT上蒸馏数据的模型,不下几十个,没有一个能“跑”出类似的效果,都达不到DeepSeekR1强大的性能。而且,DeepSeek的技术秘密是公开的,它既模型开源,又在原始技术论文中公开了细节。

  谬误2

  DeepSeek背后是接近50000台英伟达最先进A100芯片在支撑,不可能只用2000块GPU就训练出这么高性能的模型。

高飞:否。DeepSeek的技术论文中清楚地写明了训练模型所需要的GPU数量,DeepSeek团队没有必要在这个数字上作假。目前所有声称“DeepSeek靠五万卡训练模型”的说法,都是坊间猜测,无任何权威出处。

  谬误3

  DeepSeek模型只受国人追捧,美国有OpenAI、Meta等前沿模型,没有必要用DeepSeek的产品。

高飞:否。近期全球众多大厂纷纷宣布支持DeepSeek的模型,包括亚马逊、英特尔、微软、Perplexity、NVIDIA等。DeepSeek的APP也登顶多个国家的App Store下载排行榜。可以说,DeepSeek在全球范围内都是一个现象级的产品。

点击排行