大公网

大公报电子版
首页 > 新闻 > 国际 > 正文

史丹福大学团队 被揭抄袭中国AI模型

2024-06-22 04:03:20大公报
字号
放大
标准
分享

  图:备受关注的AI大模型、不同地方申请AI专利情况

  近日,来自美国史丹福大学一家人工智能(AI)学生团队疑似抄袭中国面壁智能的MiniCPM AI模型,引发了业界关注和网友热议。史丹福的团队已在网上向中方团队道歉。专家表示,目前中国涌现出大批知名AI大模型企业,中国拥有庞大的互联网用户基数,提供了丰富的场景等数据资源,这对于训练大模型来说是重要优势,中国已快速成长为人工智能科技创新的重要推动者。\大公报记者 郭瀚林 凯雷 实习记者 苏雨润

  人工智能大模型是指拥有超大规模参数(通常在十亿个以上)和超强计算资源的机器学习模型,能够处理海量数据,完成各种复杂任务,如自然语言处理、图像识别等。5月29日,史丹福大学三名学生组成的AI团队发布了一款大模型名为Llama3-V,并声称其比OpenAI的GPT-4V、谷歌的Gemini Ultra以及Anthropic的Claude Opus性能更强,只花了500美元就能训练出一个最优模型。不久,有使用者揭露,史丹福团队开发的Llama3-V的模型结构、配置文件与一款中国大模型MiniCPM-Llama3-V 2.5模型完全相同,只是进行了部分简单修改。

揭硅谷“不光彩文化”

    MiniCPM由中国初创企业“面壁智能”和清华大学自然语言处理实验室于5月中旬联合推出。清华和面壁智能团队随后证实,史丹福大模型项目与MiniCPM一样,可识别出“清华简”(清华大学收藏的一批战国中晚期竹简)中的战国古文字,“不仅对得一模一样、连错得都一模一样”。由于此古文字数据并未对外公开,最终证实了抄袭事实。

  史丹福Llama3-V团队的两位作者Siddharth Sharma和Aksh Garg本月初在社交平台上发帖道歉,并将Llama3-V模型悉数撤下。该团队里主要负责撰写代码、来自南加大的Aljadery Mustafa已注销自己的社交平台账号。

  在上述团队道歉前,史丹福人工智能实验室主任曼宁(Christopher David Manning)发文谴责了抄袭行为,并称MiniCPM“是很好的开源作品”,“作假直至成功(Fake it before you make it)这是硅谷不光彩的文化。”谷歌DeepMind研究员Lucas Beyer则针对此事评价,中国开源大模型拥有像MiniCPM这样好的模型,却没有得到与技术实力相当的国际关注。

构建开放技术社区环境

  面壁智能成立于2022年8月,其核心技术团队源于清华自然语言处理实验室,是在国内较早开展大模型研究的团队之一。抄袭事件发酵后,面壁智能的联合创始人兼CEO李大海在朋友圈发文表示,希望团队的努力和优秀工作能够吸引更多人的关注和认可,但并非以这种被模仿甚至抄袭的方式。他进一步强调,应该构建一个开放、协作且充满信任的技术社区环境。

  面壁智能首席科学家、清华大学长聘副教授刘知远也在知乎上发文表示,这次事件让他感慨“过去十几年科研经历的斗转星移”:“从横向来看,我们显然仍与国际顶尖工作如Sora和GPT-4o有显著差距;同时,从纵向来看,我们已经从十几年的无名之辈(nobody),快速成长为人工智能科技创新的关键推动者。面向即将到来的通用人工智能(AGI)时代,我们应该更加自信积极地投身其中。”

专家:数据和应用 中国有优势

  尽管中国在AI大模型的研发上起步稍晚,但其发展速度快。清华大学人工智能学院教授沈阳在接受大公报采访时说,OpenAI在2022年推出ChatGPT,让大众真切感受到AI领域国内外的差距,近年来一度有“国外一开源、国内就自研”的说法。但国内从业者们“知耻而后勇”,开始进行追赶,中国涌现出一大批知名AI大模型企业,双方在这一领域的差距正在缩小。

  “抄袭事件之所以引起广泛大家关注,主要在于‘反向抄袭’此前比较少见,过去国内AI团队基于国外开源大模型来开发的情况比较多。”沈阳表示,中国国产大模型已经出现了越来越多的可圈可点之处,当前中美在大模型技术层面上至少可以做到“你中有我、我中有你”。“这件事可能是史丹福的学生团队希望尽快拿到融资,因此抄袭中国数据训练过的大模型进行‘套壳’。”

  沈阳认为,中国在大模型研发领域有多项优势,尤其是中国具备庞大的数据资源和应用场景。例如在制造业层面,从传统产业到“新三样”,中国形成了大批优势产业集群;在服务业层面,中国的短视频、电子商务,以及网文、移动游戏等,都已经做到世界第一。这为中国大模型的训练提供了强有力的支持,让中国在AI大模型领域的发展更加迅速,具备在不远的将来实现“弯道超车”的可能性。

点击排行