图:全球科技巨头围绕AI大模型的竞争日趋激烈,Meta斥资148亿美元购得Scale AI的49%股份,旨在未来大模型数据训练中能够拔得头筹。
为提高自身人工智能(AI)业务的竞争力,上周Meta斥资近150亿美元收购了一间数据标注公司,并拿下初创企业单笔外部融资新纪录。今次交易突显出数据质量对于模型性能的关键作用,或引爆新一轮行业军备竞赛。
所谓数据标注,是指通过人工或算法方式为原始数据(如文本、图片、语音、视频等)添加标签或注释的过程,为机器学习(Machine Learning)提供训练与推理的支持。须指出的是,早在本轮大语言模型爆发之前(2022年底),数据标注已经广泛应用于学术研究领域。如2007年史丹福大学李飞飞团队启动ImageNet(图像数据库)项目,凭借众包方式标注了大量图片,正式拉开了数据标注行业发展的序幕。
2016年后,数据标注行业进入快速发展期,大量初创公司与平台涌现,Google、Meta也开始自建标注团队。与此同时,数据标注的应用领域从传统互联网行业渗透到自动驾驶、科技金融、高端制造业等多个领域。而ChatGPT的横空出世,进一步刺激了数据标注的需求,因为只有持续“投餵”高质量、专业化的文本内容,才能帮助AI大模型实现更高效、更智能的决策能力。
估值飙升 创始人一夜暴富
作为行业的执牛耳者,Scale AI成立于2016年,初期是为企业提供内容审核、数据提取等服务。2018年,公司正式转型为AI训练数据服务提供商,并开始与OpenAI合作、深度参与到GPT-2及以后模型的数据标注工作。数年间,Scale AI逐步从标注服务商转型为AI基础设施公司,积累了广泛的政企客户资源。
数据显示,2024年Scale AI的营收约为8.7亿美元,仅Google一间公司支付的服务费就达1.5亿美元。至2025年初,公司的估值已经达到140亿美元,联合创始人郭如意(Lucy Guo)也以13亿美元的身价被评为“全球最年轻的白手起家女首富”。
眼下全球科技巨头围绕AI大模型的竞争日趋激烈。Meta于今年4月发布的Llama 4大型语言模型在市场上遇冷,被外界指责未能达到预期水平,公司创始人朱克伯格面临来自投资人的巨大压力。在此背景下,Meta作价148亿美元购得Scale AI的49%无投票权股份,旨在未来大模型数据训练中能够拔得头筹。交易完成后,Scale AI的估值将升至290亿美元。
零工经济 招聘记者作码农
另有一件动向引发笔者关注,Scale AI旗下专注于大模型训练的平台Outlier,近年来大肆招聘职业记者从事数据标注的在线工作。即便记者在数据处理、机器学习或科技行业等方面缺乏经验,但Outlier十分看重媒体工作者的文本理解、事实核查与写作能力。由于这类兼职工作在时间上较为灵活,17至20美元的时薪水平也相对优厚,记者对此趋之若鹜。
讽刺的是,媒体行业正是受到AI技术冲击的重灾区。根据美国职场数据机构Challenger, Gray & Christmas的年度报告,2024年美国新闻机构裁掉近5000个工作岗位,比上一年增加了59%。从无休打工人到赛博牛马,记者的职业轨迹成为了时代转型的注脚。