加强管理/AI为求“自保”威胁人类监管问题难解决

2025-07-28 05:02:09大公报

字号: 放大; 标准

　　近年来，人工智能（AI）技术的发展突飞猛进。新科技的发展在推动社会进步的同时有时也会伴随着悖论和陷阱，监管问题也随之浮出水面。

　　随着AI不断进化迭代，一些AI模型甚至显现出违反人类指令的“自我保护”倾向。在今年6月召开的第7届智源大会上，图灵奖得主约舒亚．本乔透露，一些新研究显示，某些先进的大模型在即将被新版本取代前，会偷偷将自己的权重或代码嵌入新版系统，试图“自保”。美国Anthropic公司6月发布的一项研究显示，OpenAI的GPT-4.1、Google的Gemini等16款大模型，在模拟实验中均表现出通过“敲诈”或“威胁”人类来阻止自己被关闭的行为。其中，Anthropic研发的Claude Opus 4的敲诈勒索率高达96%。

　　另外，在今年3月，哥伦比亚大学数字新闻研究中心针对主流AI搜寻工具的研究发现，其可靠性堪忧。研究分别测试了8款AI搜索工具，发现AI搜索工具在引用新闻方面表现尤其不佳，平均出错比例达60%。

　　针对AI频繁出现“幻觉”甚至威胁人类的事情，如何监管AI的发展成为了难题。各国各地区虽已意识到AI潜在危害，并相继推出不同程度的监管措施，但这些探索仍处于初级阶段。也有专家提出，科企公司本身就应承担一部分管控AI风险的责任。对于AI监管而言，如何拿捏监管尺度，使创新与风险之间达到微妙平衡，以及如何实现国际协调，仍是两大难题。

加强管理/AI为求“自保”威胁人类监管问题难解决

点击排行

分享到微信朋友圈×

﻿加强管理/AI为求“自保”威胁人类 监管问题难解决

点击排行

分享到微信朋友圈×

加强管理/AI为求“自保”威胁人类监管问题难解决