大模型应用7项第一!10月24日,第七届世界声博会暨2024科大讯飞全球1024开发者节开幕式上,科大讯飞董事长刘庆峰公布讯飞星火大模型应用成绩单,并发布讯飞星火4.0 Turbo:七大核心能力全面超过GPT-4 Turbo,数学和代码能力超越GPT-4o,国内外中英文14项主流测试集中讯飞星火4.0 Turbo实现9项第一。
第七届世界声博会暨2024科大讯飞全球1024开发者节开幕式上现场。:赵臣摄
据刘庆峰介绍,由艾伦人工智能研究所、OpenAI等国内外权威单位发布,涵盖理解和推理、综合考试、数学和科学、代码等不同任务类型的14项主流测试集中,讯飞星火4.0-Turbo在其中9项测试集中实现超越,效率相对提升50%。刘庆峰特别提到“硬碰硬”的数学能力和代码能力。
根据实用数学任务构建测试集CAppliedMath-1.0,讯飞星火4.0 Turbo在计算、财务、金融、度量等多个维度的任务中均超过GPT-4o水平,已完成超长思维链、树搜索和自我反思评价等算法验证,预计今年底可实现类“o1”的高难度数学能力显著提升。
而根据代码生成HumanEval测试集上的效果对比,讯飞星火4.0 Turbo在Python、Java、JavaScript等任务上和GPT-4o的差距微弱,在C++能力上超过GPT-4o。在真实应用场景,基于认知智能全国重点实验室构建的iFLYCode-Eval-2.0代码实用场景测试集,讯飞星火4.0 Turbo在代码生成、代码检错、单元测试等任务上都超过了GPT-4o。同时推出星火代码7B版本,满足代码生成、代码补全等极速响应型任务,效果业界最优。
“讯飞星火已成为央国企大模型的第一选择。”刘庆峰在会上晒出了讯飞星火大模型应用成绩单:央国企中标第一、教育医疗市场第一、智能汽车市场第一、大模型开发者生态第一、智能硬件市场第一、赋能科研应用第一、赋能工业应用第一。截至2024年10月,科大讯飞已与各头部企业共建20多个行业大模型,覆盖300+应用场景。
在本次会上,科大讯飞还首发了10项基于讯飞星火底座能力的硬核产品与创新应用:定义多模AIUI标准,发布超拟人数字人;发布星火多语言大模型、讯飞星火医学影像大模型、汽车端侧星火大模型;发布首个基于“问题链”的高中数学智能教师系统、星火智慧黑板2.0、AI作业过滤器等;发布星火智办一体机、智能座舱人机交互效果评测机器人VIAS以及科大讯飞多语种 AI 翻译透明屏。