近期,DeepSeek在全世界引起了广泛的关注。高效推理、训练成本低、模型开源等特点使其脱颖而出。在遭受大规模恶意攻击、美国国家安全调查等事件之后,英伟达、微软、亚马逊等美国巨头又先后接入,证明了DeepSeek的实力和影响力。
以开放打破技术壁垒
推理能力强,训练成本低。DeepSeek得益于先进的模型架构、首创的联网推理能力以及数据与算法的双重优化等,其推理能力在多个基准测试中表现出色,尤其针对中文推理能力的专项优化,使其在理解中文复杂语境等方面表现出色。在实际使用DeepSeek后,笔者亦对其在数学、代码等问题上的推理能力由衷赞赏。此外,这些技术组合也使得DeepSeek的训练成本远低于其他竞争对手。
据悉,DeepSeek-V3与GPT-4o性能接近,但训练成本仅为后者的十几分之一。新发布的DeepSeek-R1性能对齐OpenAI-o1,但训练成本亦远低于后者。或受此影响,美国AI芯片巨头英伟达总市值一周缩水5520亿美元(约合4.3万亿港元),其他主要科技股亦出现不同程度下跌。
模型开源,提升AI普惠。除了在技术上的突破,DeepSeek的开源策略也获得了广泛的认可,为其发展带来了诸多积极影响。这种开放性打破了技术壁垒,展示了中国在AI领域的技术实力和开放态度,让不同地区、不同背景的技术人员都能站在巨人的肩膀上进行探索和创新。个人亦可在自己的电脑部署和应用DeepSeek模型。目前香港的多所大学都已经开始使用或计划使用DeepSeek进行研究和教学,可见其开源策略的积极反响,未来有望惠及更多的科研和产业。
DeepSeek的出现让AI领域的发展从“算力竞赛”转向了“效率创新”,不仅为国家AI领域的发展树立了新的标杆,也为香港创新科技提供了新的思路和方向。香港应充分发挥自身的优势,与内地协同合作,推动AI技术在金融、贸易等领域的深度融合,实现互利共赢。同时,还应进一步加强在AI领域的研发投入和人才培养,不断提升自身的创新能力和竞争力。
2023年,DeepSeek创始人梁文锋在接受媒体采访时,探讨了人才招聘的问题。他认为,“如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要”。他表示,“我们的总结是,创新需要尽可能少的干预和管理,让每个人有自由发挥的空间和试错机会”。
进一步优化政策环境
在2024年的采访中,他再次强调了选人标准一直都是热爱和好奇心,并采用自下而上、自然分工的策略,让每位自带想法的人,自主探索和互相协同。他亦表示,创新的MLA架构即来自一位年轻研究员突发奇想设计的一个替代方案。
笔者认为,这种策略是DeepSeek能够快速成长和持续创新的关键之一,体现了对员工创造力的尊重和信任,从而激发了团队的创新活力,这为香港创新生态建设提供了有益的参考。香港若能在鼓励探索、支持创新、尊重个人、宽容失败等方面持续完善和改进,并进一步优化政策环境,为本地企业提供更多的支持和资源,将有助于吸引和培养更多像DeepSeek这样的创新型企业和AI领域的杰出人才,进而推动整个行业的前进和发展。此外,香港若能在特区政府层面设立青年创科奖项、创科奖学金,鼓励香港青年学习理科投身科技事业,将有助于激发青年一代的创新热情和科技梦想,为香港创新科技事业的长远发展注入源源不断的新鲜血液。
港区全国人大代表、香港互联网专业协会会长