图:最新研究报告要点
参与研究的专业记者,根据准确性、信息来源、区分“意见”与“事实”等标准,评估了ChatGPT、Copilot、Gemini及Perplexity四大AI助手的逾3000则回答,发现:
•所有AI回答中有45%存在至少一项重大错误;
•31%的回答在来源标注方面存在严重问题,包括缺失来源、标注误导性出处或错误署名;
•20%的回答存在重大准确性问题,包括虚构细节和过时信息;
•Gemini表现最差,76%的回答存在显著错误,发生频率是其他3个AI助手的两倍以上,这主要归因于其糟糕的信息溯源能力;
•对比BBC今年早些时候的测试结果,本次研究虽然显示出一定改进,但错误率仍居高不下。