大公网

大公报电子版
首页 > 新闻 > 港闻 > 正文

教育线上/中大推全球首个粤语模型评测平台

2025-10-31 05:01:31大公报
字号
放大
标准
分享

  图:中大王历伟教授(左)及蒙美玲教授介绍“CLEVA Cantonese”的特色。\大公报记者黄洋港摄

  香港中文大学近日推出全球首个粤语大语言模型评测平台“CLEVA Cantonese”,是首个专注粤语口语与书面语差异的评测系统。团队指出,粤语因属“低资源”语言,评测上相较英文、普通话更为困难。

  总体而言,AI大模型粤语表现较英语、普通话欠佳,平台初步评测显示,部分模型粤拼转写准确率低于10%,常见表达理解错误率更高达二至四成。中大团队透露,未来将开放平台并拓展数据合作,同时探索商业化机会。\大公报记者 邱梓茵

  中大禤永明系统工程与工程管理学讲座教授、博智感知交互研究中心主任蒙美玲指出,粤语的文法结构、声调及俗语等特点,令现有大模型评测方法难以直接套用,“粤语不像英语同普通话有充足语料,加上书面语同口语差异大,自动构建高质评测数据一直是难题,必须靠长期动态数据支持。”

  CLEVA项目负责人王历伟教授补充,过去业界甚少关注粤语书面语与口语的评测差异,而“CLEVA Cantonese”率先弥补这个缺口,“平台首批数据来自凤凰卫视的官方脱敏资料,同时涵盖口语化和书面语表达,评测方法亦兼容两类语体。”

  AI粤语表现逊英文普通话

  针对AI领域常见的“数据污染”问题,平台采用数据贡献者动态更新机制,确保评测公平。蒙美玲解释:“大模型一旦见过评测数据,就好像学生预先看过试卷,评测就不公平─这就是‘污染’。所以我们要不停推出新数据,先能真正测出不同模型对粤语的支援能力。”

  目前平台已初步完成多个大模型评测,发现显示AI大模型在粤语上整体表现较英、普不理想。同时,同一任务中,不同模型差距显著:粤拼转写任务里,最优模型得分超90%,最差则低于10%;在表达理解类任务中,即使最优模型仍有20%常见表达理解错误,行业平均错误率达40%。此外,模型在语码转换(粤夹英)翻译任务中,表现比常规翻译低约20%。蒙美玲建议,应针对粤语特点设计更具挑战的评测任务,例如将粤拼延伸至诗词写作等下游领域。

  团队透过自动方法构建评测数据,效率与效果俱佳。以专有名词理解任务为例,自动构建数据可清晰体现模型差距,最优模型准确率超80%,部分最新开源模型则仅约40%。

  拟开放平台 探索商业化

  展望未来,中大团队计划开放评测平台,供研究人员、开发者及机构使用,同时吸纳更多数据贡献者,引入更多元、动态的粤语数据,进一步覆盖更多任务与低资源语言。在可信系统层面,平台将协助金融、教育、医疗等垂直领域,验证大模型部署的可靠性,建立全面客观的评测体系。

  商业化方面,蒙美玲表示,平台生态蕴含多个合作机会,“无论是研发大模型的公司想做检测,还是金融界需要数据评测,我们都欢迎合作,目前已有不少机构表达意向。”

  她亦强调学界在推动粤语AI测评发展中的独特作用:“工业界资源充足,但学界可搭建生态系统,动员更多持份者(stakeholders),集中资源支援粤语技术发展,不需要事事亲力亲为,透过协同效应更好服务粤语领域。”

点击排行