专家剖析DeepSeek技术

2025-02-08 05:02:17大公报

字号: 放大; 标准

　　谬误1

　　DeepSeek是在ChatGPT大模型上通过“蒸馏”产生的，这涉及“偷取”知识产权，且任何人都可以以低成本蒸馏出“精华”。

　　高飞：否。模型蒸馏并不是一项新技术，目前没有任何公司利用蒸馏方法，训练出超过其他模型性能的产品。这两年，拥有高端芯片、强大算力、在ChatGPT上蒸馏数据的模型，不下几十个，没有一个能“跑”出类似的效果，都达不到DeepSeekR1强大的性能。而且，DeepSeek的技术秘密是公开的，它既模型开源，又在原始技术论文中公开了细节。

　　谬误2

　　DeepSeek背后是接近50000台英伟达最先进A100芯片在支撑，不可能只用2000块GPU就训练出这么高性能的模型。

高飞：否。DeepSeek的技术论文中清楚地写明了训练模型所需要的GPU数量，DeepSeek团队没有必要在这个数字上作假。目前所有声称“DeepSeek靠五万卡训练模型”的说法，都是坊间猜测，无任何权威出处。

　　谬误3

　　DeepSeek模型只受国人追捧，美国有OpenAI、Meta等前沿模型，没有必要用DeepSeek的产品。

高飞：否。近期全球众多大厂纷纷宣布支持DeepSeek的模型，包括亚马逊、英特尔、微软、Perplexity、NVIDIA等。DeepSeek的APP也登顶多个国家的App Store下载排行榜。可以说，DeepSeek在全球范围内都是一个现象级的产品。

专家剖析DeepSeek技术

点击排行

分享到微信朋友圈×

﻿专家剖析DeepSeek技术

点击排行

分享到微信朋友圈×

专家剖析DeepSeek技术