记者测试：图片识别强细节待完善

2024-06-22 04:03:22大公报

字号: 放大; 标准

　　图：记者提供《机器人之梦》图片，MiniCPM给出详细的描述。\大公报记者郭瀚林摄

　　【大公报讯】全球人工智能大模型进入“百模大战”时代，如何让其早日走进寻常百姓家，成为一大命题。面壁智能推出的大模型MiniCPM-Llama3-V2.5具有优秀的字符识别能力（OCR），可精准识别难图、长图，无需连接网络即可在智能手机等终端上运行。6月5日，面壁智能与清华NLP实验室经过认真讨论，决定将面壁“小钢炮”MiniCPM免费商用。

　　为了更好地了解模型的功能，大公报记者在魔塔社区（ModelSocpe）下载了该模型并进行体验。模仿官方的实操案例，在模型中插入高铁车票，即使图片清晰度较低，但该模型还是能给予准确回答，并通过指令呈现特定格式，告知该票根的所有文字信息。除了文字识别之外，MiniCPM-Llama3-V2.5模型对于图像的处理也十分精准。当记者投放一张《机器人之梦》的电影图片时，虽然该模型无法提供具体的人物名称和图片来源，但却能够将图片的全部内容形象的概括为“卡通片中拟人化的小狗和机器人。”

　　不过，即使该模型表现强力，但在一些细节问题上仍需完善。记者在体验中观察到，该模型在处理大量需要分析处理的信息时会出现“凭空产生”的现象（即“AI幻觉”）。当上传一张电视剧《狂飙》的宣传海报，让它识别图片中所有人名时，出现了孙红雷等未参演演员的名字。

　　据悉，MiniCPM已跑通了国际主流手机品牌和终端CPU芯片，即使是发布多年的老款机器也能流畅运行。在北科瑞声创始人、国家重大人才计划特聘专家刘轶博士看来，电脑、手机、手表等终端是离用户最近的信息入口，与大模型结合后，终端设备可以更加灵巧、智能，成为真正的“助理”，这将加快AI技术的普及。

记者测试：图片识别强细节待完善

点击排行

分享到微信朋友圈×

﻿记者测试：图片识别强 细节待完善

点击排行

分享到微信朋友圈×

记者测试：图片识别强细节待完善