图:中大计算机科学与工程学系副教授成宇与其团队,目前主要聚焦于多模态模型架构以及快速模型架构的研究。\大公报记者麦润田摄
伴随人工智能(AI)技术的加速演进,AI大模型已成为产业的核心驱动力,如何优化现有的大模型,构建更高效的模型以适配社会需求,是当代AI发展的重要课题。
香港中文大学计算机科学与工程学系副教授成宇,在接受《大公报》专访时表示目前专注于高效AI模型架构研究,当中涵盖多模态模型以及快速模型架构两大方向,并取得多项成果。其团队担任技术顾问的腾讯深度思考模型 “T1” ,已在今年3月底推出。此模型开发成本与DeepSeek相比更低,响应时间更是压缩至10多秒。成宇希望,在一至两年后AI可在特定的工种替代人力,5至10年内实现应用场景内80%的工作由AI完成。\大公报记者 陈炜琛
成宇与其团队目前主要聚焦于多模态模型架构以及快速模型架构的研究。所谓多模态模型,是能够综合处理图片、语音与文本等多模态信息的模型。而快速模型架构,则是对问题推理、响应时间更加快速的模型。
从单模态进化到多模态
成宇指出,“当前主流的深思考模型,如DeepSeek、ChatGPT等,主要是采用单模态架构,在文本处理领域具有强大的逻辑推理能力,但其应用场景相对局限。”相比之下,多模态模型能综合处理多种复杂信息,能有效应对现时社会的多样需求。此外,他表示,由于当前的模型规模较大,“在实时交互场景中面临推理时间较长、算力资源成本高昂的痛点”,因此研发兼顾精度与效率的快速模型架构是发展AI的重要方向。
成宇去年10月份加入中大任职,而在加入中大之前,成宇在微软美国研究院与OpenAI团队合作期间,对其Copilot模型的结构进行轻量化优化,为其后续的快速推理技术研究积累了关键经验。
在不断推进当前研究工作的同时,回顾过往,早在2020年,成宇及其团队便有极具前瞻性的构想。成宇表示,在多数大模型仅关注文本信息时,他与团队就提出构建多模态大模型的想法。他透露,在当时他们便搭建了将文本、图像、语音等信息融合起来的第一代的多模态模型框架。成宇直言,“这一成果为后续GPT-4o等多模态模型架构提供了技术雏形。”
此外,AI在迅猛发展的同时,不可避免地会出现诸如AI幻觉(即虚构现实)、AI偏见(如性别歧视)、AI安全(如生成危险有害内容)等方面问题。针对以上问题,成宇表示,在2023年他与团队构建了一套客观的评测机制,借助数据去检测大模型存在的问题,进而及时进行修改。成宇透露,目前该评测机制已被不少企业采纳。
5至10年内可做八成工种
腾讯研发的“T1”模型是标志性落地科研成果。成宇表示,“T1”属于较快速的深思考模型,在今年3月底已在微信“腾讯元宝”免费上线。成宇透露,大概是去年年中开始与腾讯合作,年底时便搭建了一个反应较快的基座模型。而后在这个基座模型的基础上,利用大量的数据不断地进行迭代,最终花费了七至八个月的时间完成了“T1”的搭建。
成宇表示,一般情况下,深度思考或深度推理类模型在维持其深度思考能力(如逻辑回溯、多步验证)时,其响应速度会变慢,则需要优化其模型架构。他透露,在“T1”模型研发的第一阶段团队已解决此问题,成功压缩了推理时间。成宇补充,“与DeepSeek相比,T1响应速度可能仅为其三分一到二分一,即10多秒便可达到同样的处理效果”。
据悉,“T1”沿用了混元Turbo S的创新架构,并采用了Hybrid-Mamba-Transformer融合模式。而这也是工业界首次将混合的Mamba架构无损应用于超大型推理模型。这一架构有效降低了传统Transformer结构的计算复杂度,减少了内存占用,成宇表示,这显着降低了训练和推理成本。
尽管“T1”取得了不错的成果,但在研发和应用推进过程中,亦面临着不少挑战。成宇坦言,AI领域的竞争激烈,新模型层出不穷,因此他们时刻面临着外部的紧迫压力。此外,AI模型漫长的迭代周期长同样是一大难题。成宇进一步解释,“当前的AI模型体量庞大,训练一个模型往往需要耗时一至两个月”。而在此期间,团队须保持高度专注,持续去监控模型训练过程中的各项表现指标,并根据实际情况动态调整架构,以确保最终成果的质量与性能。
目前,团队也正探索如何将“T1”模型进行多模态升级,以增强其在不同场景下的应用能力。成宇举例,让“T1”做到在面对一道复杂的几何题时,可以自主解析图像、绘制辅助线和公式推导。成宇对AI未来的多模态应用充满信心,他希望,一至两年后可率先在特定的工种如代码开发、平面式设计等领域实现AI替代人力的突破,“终极目标则为在5至10年内实现应用场景内80%工作由AI完成。”