图:在数智时代,海量的数据大幅提升了人们洞察和理解世界的能力。
数智时代的科技创新有一个重要变化,就是“海量数据”这个新维度的加入,使得创新具有了“数据密集型创新”的新特征。数据极大增加了我们洞察和理解世界的能力,也使得关联分析、知识图谱等需要海量计算的知识发现路径成为可能。
原来的产业成果转化链条,是高校进行基础研究,研究机构进行前沿技术开发,然后企业完成产业转化和应用。不过,这个模式存在科技成果向产业应用的转化率较低的问题。2022年,国家知识产权局发布的《中国专利调查报告》显示,高校发明专利产业化率为3.9%,很多研究投入没有产业结果。
科网平台挑起大梁
与此同时,数据驱动的创新范式带来了四方面的改变。
首先,数据能力支撑大型数字企业产学研一体化创新。大型数字企业成为产学研一体化创新的核心,因为它能生产和汇聚海量数据,能准确感知市场需求和应用场景,同时有能力快速大规模投入。以车联网平台为例,数字企业占据核心和枢纽地位,以平行、并联的方式将基础到应用的各个创新环节都关联起来。在此模式下不再存在科研成果转换的问题。
其次,数据能力支撑大型数字企业从事前沿技术创新。在自动驾驶、云计算、渲染引擎、虚拟现实这几个最重要前沿技术领域中,自2007年起,全球发明专利企业数量超过了高校和研究机构;自2015年起,中国发明专利排名靠前的几乎全都是企业。
再次,数据能力支撑大型数字企业从事基础研究。大型数字企业从事基础研究的能力极大加强,积极探索0-1的原始创新。在人工智能国际顶刊的文章发表数上,2011年全球范围企业发表超过高校,2016年起中国企业的文章发表也超过了高校。
最后,数字能力支撑大型数字企业投资新创企业。现在投资的真正主流部分是大型数字企业做的CVC(Corporate Venture Capital)企业创投资金。2013年到2021年的数字企业CVC对外投资金额显示,除了蚂蚁和阿里在2019年受到严格监管后投资额下降,其他对外投资额上升最快的都是大型平台企业。
数字平台的创投资金是独角兽企业和新创企业重要的来源,2021年中国独角兽排名前100的企业中,近三分之二的企业获得过大型数字企业的投资,A、B两轮中获得过数字科技企业投资的比例占到近一半。
与传统创投资金财务投资特征明显的情形相比,数字企业创投资金具有更明显的战略投资者特征,更偏向于耐心资本、长期主义,重要性不断增加。因此,由于数据、数据关系、获得数据能力、计算数据能力、挖掘数据能力等因素,大型数字科技企业和平台成为创新的枢纽和核心。
目前大家担心的问题是,大企业会形成数据垄断吗?
大模型的规模经济和范围经济效应特别显著,规模效应递增的特点由“边际”转变为“质变”(涌现)。这有可能带来市场结构和竞争关系的根本改变,少数头部企业愈来愈大。国内外有关人工智能的讨论中,除了社会和伦理问题之外,经济学家非常担心新模式对于市场结构的影响。
数据和场景需求也会影响创新组织的演进。数据愈好,应用场景愈多,更可能带来开源开放,使后起者获得加速发展的机会。数字时代,开源成为一种创新理念与文化形式,指代共创共享的技术创新。开源能够汇聚众智、多方协同,获得透明高效的海量数据、大量自动化协作工具、世界范围内智慧资源的分布式协作和接力式开发,推动技术持续迭代演进和大范围联结产品、企业和产业,构建大规模生产和应用场景。
开源背后是需求驱动,是这个时代对场景和数据的需要,也是应用者、开发者的需求,从而产生开源这本质性的创新变化。最近20年的云计算、大数据、AI发展均受益于开源。
人工智能大模型时代,领先企业更多采用闭源模式,后起企业采用开源模式。不过,通用大模型时代的规模递增比软件业更加显著,大模型的涌现会出现后发者没有的能力。未来期待多种模型能够形成竞争格局,希望在多种因素的博弈下,市场竞争性不会受到破坏性的影响。从现在闭源的、开源的进展来看,很难对未来格局下判断。
当下的大科学都是开放科学。新的科学发现要么看得愈来愈远、愈来愈广,要么就是探究得愈来愈深、愈来愈细。海量数据处理和人力资本需求,催生多国合作大科学项目。例如,2021年新批的17个国家共同建设的平方公里阵列射电望远镜项目,接受面积达一平方公里,它由很多小天文台组合成各种曲面,比当前世界上最大同类设备搜寻速度提高1万倍。
数据短板亟待补齐
在数字智能时代,中国创新能力面临三个关键问题。
第一是数据问题。中国要在AI大模型的竞争中迎头赶上,补齐数据短板迫在眉睫。而中国目前数据不太好用、也不够多。
大模型厂商的模型训练数据可分为开源数据集、网络爬虫数据、商业采购及合作授权数据、自有业务数据和合成数据五类。在各类数据中,公共数据可作为中国发挥产业优势和制度优势、增加数据供给的关键抓手。
由于公共部门的绝对和相对规模大,中国公共数据相对体量大。有研究表明,中国政府部分掌握的数据资源占全社会数据资源总量的50%至80%,但开放共享程度不够,数据利用效率不够高。
中国现在开放的数据多是在社会、企业APP上获取的,以及部分公共数据。目前数据的开放度对于社会需求远远不够。中国应发挥制度优势,以尽力开放公共数据,并推动企事业单位的数据与其他数据汇聚融通,为数智产业发展提供关键要素。
第二是人才问题。研究显示,从2002年到2014年,学术界在开发最先进的AI系统方面处于领先地位。2014年到2022年,32个重要的机器学习模型都诞生在产业界,学术界仅有3个,2023年的数据比例相似。
全世界范围内,大平台企业能够从高校吸引图灵奖,甚至诺奖学者担任首席科学家。但在中国,这两年的趋势反而是平台的首席科学家回到高校。从1980年代开始,中国的国有企业大工程师会在周末给乡镇企业做产品、做设计。1990年代一大批学者“下海”,即使后面“下海”不行了,也是愿意去做实践。而今天出现高校相较企业更有优势的局面,出现中国产业界顶级的科学家向高校回流的现象,与时代的趋势不符。
企业吸引人才需要政策支撑。人工智能大模型需要快速汇聚海量资源和工程化技术能力,而且应用落地也要细颗粒度的专业知识。因而,在这一轮发展中产业界的地位更重要,无论是资金、导向、帽子,这些吸引人才的各类资源都需要向企业汇聚。
第三是关键场景。对于拥有海量数据的国有大企事业,除了依靠数据完成自身业务,也需要为社会创新提供数据支持,推动数据原生企业,即由数据支撑的新创新企业发展。
数据优势企业不能只为自己“数据增强”,还要为更多企业“数据使能”,推动社会创新。这就需要通过引导和规制等多种方式让这些(数据优势企业的数据)开放,让更多的企业能够用这些存量数据来创新,从而实现数据支撑的创新。
我们要相信中国互联网企业的创新意愿和能力。按营收增长和股市表现看,中国互联网行业头部企业的表现比较复杂,虽然几个传统头部企业最近几年的增长趋缓,按市值衡量的股市表现也不够理想,但中国同时有一批极具活力和成长性的头部企业市值和收益表现俱佳。头部企业总体活跃度和排序变化度,也是产业活力的重要指标。
因此,虽然目前阿里、京东、腾讯几家在资本市场上表现不甚如人意,与美国的前四大互联网企业相比差距拉大,但并不能说明中国数字企业的全局情况。要相信中国的企业与创业者的创新意愿和愿意付出的努力,中国很多互联网企业在过去几年艰难的环境下仍实现了发展。全球APP下载量前十中一直有中国企业,有3、5个当然不一定是老企业。中国互联网企业的活力很大程度上体现在有一个高速成长的创新企业簇群上。