多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

AI资讯2个月前发布云知AI运营官

重磅消息：这次AI界的”小钢炮”真的要炸场了！

各位AI爱好者们注意了！我们隆重推出MiniCPM-V 4.5——这可不是普通的多模态模型，它是AI界的”哪吒”，小小年纪就敢跟72B参数的”大块头”叫板！

为啥说它是”小钢炮”？*

高刷视频理解：想象你的AI朋友能一边看《速度与激情》一边给你解说，而且是用16倍速看的！我们做到了行业首个”高刷”视频理解能力，不仅看得快，还看得准，甚至能记住前面120分钟的情节！

72B强者被8B小朋友打败了：就像幼儿园小朋友在智慧拼图中赢过了博士生导师（Qwen2.5-VL 72B同学的脸现在一定很疼）。

96倍视觉压缩：这可是AI界的”压缩饼干”，别人家模型吃一顿的视频帧数，我们家能吃六顿！

为什么你要爱上它？*

多模态学霸：图片、视频、文档…没有它不懂的！OCR能力堪比语文课代表，文档解析连标点符号都不放过。

端侧短跑冠军：跑得快还省”饭量”（显存占用），推理速度让其他模型只能看到它的尾灯。

思维体操选手：既能”长思考”像个哲学家，又能”短思考”像个段子手，随时切换毫无压力。

哪里能找到这位AI界的新晋网红？*

现在就去Github、Hugging Face和ModelScope围观这位”小钢炮”的表演吧！(温馨提示：由于太受欢迎，服务器可能需要深呼吸才能承受大家的热情。)

重要提醒*：使用前请备好防爆眼镜，因为这性能提升可能会闪瞎你的眼！

首个高刷视频理解

兼顾性能与效率

谁在用PPT做世界认知？MiniCPM-V 4.5带你看4K高清人生！

如果你以为世界是幻灯片，那你可能还在用”多模态老花镜”。*

曾经的多模态大模型在看视频时，就像一个老爷爷在用老式DVD机看电影——每秒只有1帧，眨个眼就错过了99%的剧情。别人打架都结束了，它还停留在”咦？这两人怎么站这么近？”的阶段。
但今天！MiniCPM-V 4.5来了！它不满足于PPT级别的理解力，而是直接从黑白默片跳进了4K高清年代！

凭什么它能看”动态电影”，别人只能看”幻灯片”？

3D压缩黑科技：别人还在二维世界玩叠积木，它直接进入三维空间，视觉压缩率飙升96倍！

帧数狂魔：以前每秒1帧（慢得像蜗牛追剧），现在最高6倍帧数！Gemini和GPT们还在”啊？刚发生了什么？”时，它已经精确捕捉到了蚂蚁搬饼干的全过程。

细节强迫症：别的模型瞥一眼就说”大概是猫吧”，它却能看清猫尾巴上的蝴蝶结是谁系的！

Gemini和GPT们，你们慌了吗？

Gemini 2.5 Pro：我慢，但我云端稳！

GPT-5：我大，但我理解抽象！

GPT-4o：我快，但我还是比不上MiniCPM-V 4.5的”钛合金动态眼”！

以前的AI看世界：模糊、延迟、瞎猜。*

现在的MiniCPM-V 4.5看世界：丝滑、精准、洞若观火！*

未来已来，只是别人还没看清——但我们看清了！*

多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

小个子也有大智慧！MiniCPM-V 4.5 力压群雄登顶双榜

这款名为 MiniCPM-V 4.5 的视觉模型，简直像吃了升级版的“视力增强药丸”！

MotionBench（高刷视频理解）：MiniCPM-V 4.5 成了“同尺寸模型”里最靓的仔，狠狠甩开其他选手。

FavorBench（能看更能思考）：它不仅稳坐尺寸级 SOTA（最高水平），甚至跨级 KO 了体型72倍于自己的巨人——Qwen2.5-VL 72B！

想象一下，这就像一只迷你柯基跑赢了霸王龙，一键飞跃至 AI 视觉界的冠军领奖台！
（没错，这就叫“虽小但越级，且更快更聪明！” ）
多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

最强端侧多模态

图片、视频理解全 SOTA

小身材大能耐！MiniCPM-V 4.5的”迷你传奇”

谁说小就不能打了？*

8B参数的MiniCPM-V 4.5简直就像人工智能界的”浓缩咖啡”——体积小却劲儿大！这不：

图片识别：能准确分辨出你家猫的发型和表情包的区别

视频理解：完美get到短视频里的所有梗（甚至比你反应还快）

文档解析：连律师看了都头疼的合同条款它一眼就能说清楚

“面壁小钢炮”名不虚传*

这款迷你模型就像班上的学霸：

人家拿着大部头教材

它捧着口袋书就跑赢了

实力证明了什么叫”知识不在于书的厚度”

PS：8B参数大概相当于人类大脑记得住多少个表情包？反正比我多就是了…
多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

当AI开始”卷生卷死”，这款小模型竟碾压了行业大佬！

MiniCPM-V 4.5：你以为我很弱？抱歉，我直接打脸！

在最近一场OpenCompass的”智能视觉大逃杀”中，MiniCPM-V 4.5 直接上演”小个子暴打壮汉”的戏码——

“战果速报”

被打懵的大哥名单：

GPT-4o（OpenAI家最强版）

GPT-4.1（我怀疑连自己都不知道为啥输）

Gemini-2.0-Pro（谷歌：这不可能！）

更离谱的是：它甚至一脚踹翻了 Qwen2.5-VL 72B（某70亿参数的“巨无霸”）

为啥它这么猛？

高效到不讲理：别人靠堆算力，它靠”算法智商税”（误），实际是优化逆天。

轻量级冠军：别人还在吭哧吭哧加载模型时，它已经跑完两圈了。

闭源模型的噩梦：开源界的”哈士奇”突然学会了狼群战术。

行业现状翻译：- 闭源模型：我们贵有贵的道理！- MiniCPM-V 4.5：道理？我的拳头就是道理！下一轮AI竞赛剧本已定——“小模型の复仇”。
（P.S. GPT-4o 此刻可能在后台疯狂更新补丁……）
多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

MiniCPM-V 4.5：眼力十足的视频

MiniCPM-V 4.5 就像一个熬夜追剧的铁血战士，在各种视频理解地狱级榜单上大杀四方：

LVBench：它能像学霸一样迅速抓重点，比隔壁家的AI多看两集都不会晕！

MLVU：阅读理解满分选手，眨眼之间就能告诉你这段视频是“狗在跑”还是“狗在崩溃”。

Video-MME：综合实力MAX，不管是猫咪打架还是火箭升空，通通不在话下。

LongVideoBench：耐力赛冠军，看长视频像啃薯片一样轻松，零卡路里还能记住细节！

总之，MiniCPM-V 4.5 不但“眼”明手快，还自带视频版的“过目不忘”技能，简直就是AI界的“人形弹幕机”！
多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

小个子大能量：MiniCPM-V 4.5如何在文档界”横着走”

让我们聊聊这个名叫MiniCPM-V 4.5的小家伙——别看它名字迷你，在文档识别界可是个不折不扣的”超级英雄”！
最新数据显示，在权威的OmniDocBench测试中：

OverallEdit：全方面碾压对手

TextEdit：文字识别准到吓人

TableEdit：表格处理能力堪比Excel高手

更惊人的是，这只”小蜜蜂”居然能和那些庞然大物的通用多模态大模型掰手腕！
想想看：

体型迷你

价格亲民

性能却能和大块头们并驾齐驱

这不就是我们梦寐以求的”小而美”吗？
MiniCPM-V 4.5用实际行动证明：在AI界，个子小不代表本事小。它不仅拿下了三项SOTA（第一名的意思），还给整个行业上了一课——有时候，”微调”比”巨大化”更重要！
多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

当MiniCPM-V 4.5遇上”脑子模式”跟”快答模式”

这个小家伙可真是个两面派！它能像赶地铁一样飞速回答问题（常规模式），也能变身成哲学家模式（深度思考模式），蹲在数据堆里慢慢想明白宇宙的终极答案。

两种模式的快乐日常

又快又准模式（aka常规模式）

平时跟它聊天时，连珠炮式的问题都接得住，完全不会”做人脸识别时卡壳”。

就像个学霸同桌，你用大拇指和食指比了个心，它都能秒懂：”这是爱的形状，要发给对象吗？”

深度脑补模式（特殊技能：CPU烧起来）

遇到那种”帮我解析这张财报里的曲线，再预测未来五年韭菜们的心态”的送命题时……

它立刻启动”让子弹飞一会儿”模式，眼睛一闭（当然AI没眼睛），开始颅内小剧场疯狂推演。

极致推理性价比

端侧应用优选

当AI遇上“小家碧玉”——看MiniCPM如何在端侧设备上翩翩起舞

在AI的世界里，再聪明的模型也得学会“过日子”——毕竟谁愿意娶一个只会点外卖、动辄喊“内存不足”的娇气大小姐回去？这时候，面壁小钢炮MiniCPM就显得特别“贤惠”，它不仅把“能力密度”提得高高的，还精打细算地优化“能效比”，完全是一副“上得厅堂、下得厨房”的模范AI形象。
它到底有多省？

显存占用低到没朋友：隔壁同类还在为“内存爆表”哭天抢地时，MiniCPM已经优雅地用更少的预算干更多的活儿。

响应速度快如闪电：别人家的模型还在“思考人生”，MiniCPM已经秒回答案，连“卡顿”这两个字怎么写都不知道。

多模态表现抢眼：既能看图说话，又能理解视频内容，堪称AI界的“十项全能选手”。

战绩亮眼：把大块头甩在身后

VideoMME视频理解榜单：MiniCPM-V 4.5轻轻松松拿下同级SOTA，甚至把推理时间压缩到别人家的1/10，快到连抽帧都来不及算进去！

OpenCompass单图测试：依然是“别人跑马拉松，它开超跑”的节奏，显存占用和推理速度双双吊打同行。

说白了，MiniCPM就像是AI界的“经济适用型学霸”——能力顶尖还特别持家，让端侧设备也能享受“贵族级服务”而不至于“破产”。这样的AI，谁不想要？
多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

技术解析

MiniCPM-V 4.5：这位多模态界的“高刷屏”是如何练成的？

你以为AI看视频只会卡成PPT？错了！* MiniCPM-V 4.5 这次直接实现了「高刷体验」，把视频理解能力飙到了新高度，顺手还把图片、OCR、长视频理解的SOTA（业内最强）奖杯都揽入怀中。

1. 3D-Resampler：让AI看视频不再“卡成狗”

多模态模型看视频的最大痛点是什么？性能和效率的极限拉扯：

想看得更细？ 必须拼命塞进更多帧！

塞太多帧？ 显存和计算直接原地爆炸！

但视频其实超好「压缩」，因为大部分画面只是“差不多的动作重复播放”（就像你刷抖音的无限循环）。于是，MiniCPM-V 4.5 祭出 3D-Resampler，直接把视频当乐高：

把每6帧打包成一组

疯狂压缩，最后只留64个视觉token（和单图数量一样）

推理成本不变，帧率飙到10 fps，简直是AI界的电竞屏！

最骚的是：它还支持单图、多图、视频统一编码*，堪称「视觉界的瑞士军刀」。

2. OCR + 知识推理：AI的“近视眼”终于治好了？

传统AI在文档处理上有两大职业病：

OCR模式：疯狂认字，但过难的噪声会让它直接「瞎编」（比如把“面壁智能”看成“面条智能”）

知识模式：靠解析工具读文档，结果工具一抽风，AI也跟着胡说八道

MiniCPM-V 4.5 直接开发了一套“可控近视眼”技术：

文字清晰时：乖乖当OCR小学霸

文字糊成马赛克时：切到“知识推理模式”，靠上下文脑补（比如看到“面壁”+“AI公司”，猜出是「面壁智能」）

中间糊度：混合双打，边认字边推理

结果？低成本拿下OCR和知识推理双冠，再也不用担心AI把财报读成科幻小说了。

3. 混合推理强化学习：AI的“省电模式”与“狂暴模式”

常规模式：日常问题秒答（比如“图片里有几只猫？”），响应快如闪电

深度思考模式：专治“烧脑题”（比如“根据这三张图表分析全球经济趋势”）

但传统AI一开“狂暴模式”就功耗爆炸，MiniCPM-V 4.5 用强化学习玩出了新花样：

训练时同时激活两种模式，让它们互相battle进化

用RLPR技术从通用数据里蹭奖励信号，推理能力蹭蹭涨

最后再来个轻量化RLAIF-V训练，既强又稳，幻觉还少

—

总结*：MiniCPM-V 4.5 像极了那个成绩好还省电的学霸——

看视频高刷不卡顿

读文档时近视度数智能调节

答题能快能慢，绝不掉链子

（本文来自 面壁智能 公众号，但AI表示：“已自我学习，无需面壁”）

本站部分内容来源于互联网，仅用于学习、交流与信息分享之目的。版权归原作者或相关权利人所有，如涉及版权问题，请及时与本站联系，我们将在第一时间核实并处理。

95后创立的AI营销公司完成数千万融资，营收超千万，拿下美妆、快消等头部客户

# AI # AI新闻 # AI资讯

2个月前

1,9750

o3 Gemini 都翻车？首个可验证长链 GUI 数据集 VeriGUI 重磅开源，探索通用 Agent 能力边界

# AI # AI新闻 # AI资讯

2个月前

640

用AI模拟：日本大搞历史战的后果会是什么？

# AI # AI新闻 # AI资讯

2个月前

3,3250

三个月、零基础手搓一块TPU，能推理能训练，还是开源的

# AI # AI新闻 # AI资讯

2个月前

3,5120

多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

重磅消息：这次AI界的”小钢炮”真的要炸场了！

首个高刷视频理解

兼顾性能与效率

谁在用PPT做世界认知？MiniCPM-V 4.5带你看4K高清人生！

凭什么它能看”动态电影”，别人只能看”幻灯片”？

Gemini和GPT们，你们慌了吗？

小个子也有大智慧！MiniCPM-V 4.5 力压群雄登顶双榜

最强端侧多模态

图片、视频理解全 SOTA

小身材大能耐！MiniCPM-V 4.5的”迷你传奇”

当AI开始”卷生卷死”，这款小模型竟碾压了行业大佬！

MiniCPM-V 4.5：你以为我很弱？抱歉，我直接打脸！

“战果速报”

为啥它这么猛？

MiniCPM-V 4.5：眼力十足的视频

小个子大能量：MiniCPM-V 4.5如何在文档界”横着走”

当MiniCPM-V 4.5遇上”脑子模式”跟”快答模式”

两种模式的快乐日常

极致推理性价比

端侧应用优选

当AI遇上“小家碧玉”——看MiniCPM如何在端侧设备上翩翩起舞

战绩亮眼：把大块头甩在身后

技术解析

MiniCPM-V 4.5：这位多模态界的“高刷屏”是如何练成的？

1. 3D-Resampler：让AI看视频不再“卡成狗”

2. OCR + 知识推理：AI的“近视眼”终于治好了？

3. 混合推理强化学习：AI的“省电模式”与“狂暴模式”

谷歌nano banana正式上线：单图成本不到3毛钱，比OpenAI便宜95%

GPT-5通关《宝可梦水晶》创纪录！9517步击败赤爷，效率碾压o3三倍！

相关文章

95后创立的AI营销公司完成数千万融资，营收超千万，拿下美妆、快消等头部客户

o3 Gemini 都翻车？首个可验证长链 GUI 数据集 VeriGUI 重磅开源，探索通用 Agent 能力边界

用AI模拟：日本大搞历史战的后果会是什么？

三个月、零基础手搓一块TPU，能推理能训练，还是开源的

暂无评论

搜索文章

热门文章