大公网

大公报电子版
首页 > 新闻 > 国际 > 正文

记者测试:图片识别强 细节待完善

2024-06-22 04:03:22大公报
字号
放大
标准
分享

  图:记者提供《机器人之梦》图片,MiniCPM给出详细的描述。\大公报记者郭瀚林摄

  【大公报讯】全球人工智能大模型进入“百模大战”时代,如何让其早日走进寻常百姓家,成为一大命题。面壁智能推出的大模型MiniCPM-Llama3-V2.5具有优秀的字符识别能力(OCR),可精准识别难图、长图,无需连接网络即可在智能手机等终端上运行。6月5日,面壁智能与清华NLP实验室经过认真讨论,决定将面壁“小钢炮”MiniCPM免费商用。

  为了更好地了解模型的功能,大公报记者在魔塔社区(ModelSocpe)下载了该模型并进行体验。模仿官方的实操案例,在模型中插入高铁车票,即使图片清晰度较低,但该模型还是能给予准确回答,并通过指令呈现特定格式,告知该票根的所有文字信息。除了文字识别之外,MiniCPM-Llama3-V2.5模型对于图像的处理也十分精准。当记者投放一张《机器人之梦》的电影图片时,虽然该模型无法提供具体的人物名称和图片来源,但却能够将图片的全部内容形象的概括为“卡通片中拟人化的小狗和机器人。”

  不过,即使该模型表现强力,但在一些细节问题上仍需完善。记者在体验中观察到,该模型在处理大量需要分析处理的信息时会出现“凭空产生”的现象(即“AI幻觉”)。当上传一张电视剧《狂飙》的宣传海报,让它识别图片中所有人名时,出现了孙红雷等未参演演员的名字。

  据悉,MiniCPM已跑通了国际主流手机品牌和终端CPU芯片,即使是发布多年的老款机器也能流畅运行。在北科瑞声创始人、国家重大人才计划特聘专家刘轶博士看来,电脑、手机、手表等终端是离用户最近的信息入口,与大模型结合后,终端设备可以更加灵巧、智能,成为真正的“助理”,这将加快AI技术的普及。

点击排行