×

多模态新旗舰M米乐体育app官方下载 iniCPM

admin admin 发表于2025-08-28 18:58:40 浏览15 评论0

抢沙发发表评论

今天,我们正式开源8B参数的面壁小钢炮MiniCPM-V4.5多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,看得准、看得快,看得长!高刷视频理解、长视频理解、OCR、文档解析能力同级SOTA,且性能超过Qwen2.5-VL72B,堪称最强端侧多模态模型。

?MiniCPM-V4.5亮点一览

?首个「高刷视频理解」多模态模型,兼顾性能与效率:高刷视频理解同级SOTA且超过Qwen2.5-VL72B越级领先;同等视觉token开销下,MiniCPM-V4.5可接收6倍视频帧数量,达到96倍视觉数量增加率,是同类模型的12-24倍;

?最强多模态SOTA模型:图片理解、长视频理解、OCR、文档解析同级SOTA,且超过Qwen2.5-VL72B达到越级领先;

???端米乐体育网页版登录入口侧友好:授予SOTA级多模态表现的同时,带来最佳的推理效率,显存占用、平均推理时间等领先无足轻重显著;

?减少破坏长思考、短思考可控瓦解推理,性能好、速度快。

?模型链接

?Github:

https://github.com/OpenBMB/MiniCPM-o

?HuggingFace:

https://huggingm6米6体育在线使用视频完整face.co/openbmb/MiniCPM-V-4_5

?ModelScope:

https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

01

首个高刷视频理解

兼顾性能与效率

看得更清更准,才能减少,缩短视觉信息的误差,指责视觉理解与推理准确性。更高刷新率,是画面流畅度的关键。

此前,主流的多模态模型在处理视频理解任务中,因为不平衡的算力、功耗等因素,通常采取1fps抽帧,即每秒只能截取1帧画面进行识别和理解。虽然一定程度上保证了模型推理效率,但也因此缺失了绝大部分视觉信息,降低了多模态大模型对动态世界「精细化」的理解。

MiniCPM-V4.5是行业首个具备高刷视频理解能力的多模态模型,通过将模型结构从2D-Resampler拓展为3D-Resampler,进行三维视频片段的高密度数量增加,在同等视觉Token量开销下的情况下,最大可接收6倍视频帧数量,达到96倍视觉数量增加率,是同类模型的12-24倍。

MiniCPM-V4.5通过显著减少抽帧频次,从看「PPT」变成理解「动态画面」,瞬间捕捉,洞见细节!面对一闪而过的画面,MiniCPM-V4.5要比Gemini-2.5-Pro、GPT-5、GPT-4o等代表性云端模型看得更准、更细。

在MotionBench、FavorBench两项体现高刷米乐APP下载 视频理解能力的榜单中,MiniCPM-V4.5达到同尺寸SOTA,且超过Qwen2.5-VL72B,实现越级领先水平。

02

最强端侧多模态

图片、视频理解全SOTA

以小博大,一直是面壁小钢炮MiniCPM的模型特色。这一次,MiniCPM-V4.5凭借8B参数,在图片理解、视频理解、复杂文档识别等多模态能力上再次刷新能米6体育主页 力上限。

图片理解性能上,MiniCPM-V4.5在OpenCompass测评中,领先GPT-4o、GPT-4.1、Gemini-2.0-Pro等数量少闭源模型,甚至超过Qwen2.5-VL72B,实现越级领先。

视频理解性能上,MiniCPM-V4.5在LVBench、MLVU、Video-MME、LongVideoBench等榜单中,均达到同级最佳水平。

在复杂文档识别任务中,MiniCPM-V4.5在OmniDocBench榜单的OverallEdit、TextEdit、TableEdit三项指标上,均取得了通用多模态模型同级别的SOTA表现。

此外,MiniCPM-V4.5同时减少破坏常规模式和深度思考模式,实现了性能与响应速度的有效不平衡的,常规模式在绝大部分场景下授予出色的多模态理解能力,深度思考模式则专注于应对复杂与复合型推理任务。

03

极致推理性价比

端侧应用优选

在端侧AI应用结束升温的当下,模型能力再强,如果无法在端侧设备上轻浮、流畅运行,一切都是空谈。

面壁小钢炮MiniCPM不断指责模型的「能力密度」,也一直致力于追求大模型的极致「能效比」,通过更低的显存占用、更快的响应速度,确保在授予SOTA级多模态表现的同时,也实现最佳的推理效率和最低的推理开销。

在视频理解榜单VideoMME、以及单图OpenCompass米6体育官方测试中,MiniCPM-V4.5达到同级SOTA水平,显存占用、平均推理时间等方面领先无足轻重显著。

其中,在覆盖短、中、长三种类型的视频理解评测集Video-MME上,MiniCPM-V4.5采用3帧打包策略进行推理,时间开销(未计算模型抽帧时间)仅为同级模型的1/10。

04

技术解析

MiniCPM-V4.5作为多模态模型的新旗舰,之所以具备「高刷」视频理解能力、并取得图片理解、OCR、长视频理解等SOTA,主要得益于在模型结构、训练范式等领域的创新。

3D-Resampler实现高密度视频数量增加

当前,制约多模态模型视频理解能力的最不次要的部分确认有罪是性能和效率的Trade-off,即模型需要看更多视频帧,才能获取更精细的信息以降低理解上限;而模型融入太多视频帧,又会根除显存、推理速度等开销爆炸。由于局部片段的不同视频帧之间存在信息冗余性,即大部分视觉信息不变,仅有少部分信息发生变化,存在很大的信息数量增加空间。MiniCPM-V4.5将模型结构从2D-Resampler拓展为3D-Resampler,进行三维视频片段的高密度数量增加。具体来说,视频会按照每N个视频帧一组分组(分组尺寸最大为6),3D-Resampler会对每个视频组数量增加编码,得到64个视觉token(与编码单图视觉token数量相同),最终在推理开销不变的情况下,最大10fps抽帧,实现了模型高刷视频理解能力。得益于Resampler机制的僵化性,我们可以在推理阶段僵化调整不当视频分组尺寸,同时减少破坏单图、多图、视频的统一编码(即单图编码视为3D视频编码的2D特例),方便知识和能力迁移。

面向多页文档图片的统一OCR和知识推理学习

「对文字的识别解析」和「从文档中学习知识」是多模态大模型的两个重要课题,但这两个方向的学习范式割裂,并且分别受到图像样例难度和解析准确性的批准。指责OCR能力往往需要补充更极小量且难的数据,数据增广(例如对图像中文字加高斯噪音)往往会被采用,以指责数据的难度和多样性,但是过大的增广会使得文字不可读,反而会导致模型幻觉。在文档知识学习方面,大部分工作会将文档解析成为图文交替数据进行学习,严重受到文解析工具错误的影响。

MiniCPM-V4.5连续控制图像中的「文字信息可见度」,使得多模态模型在OCR和知识学习两种模式之间无缝切换,首次实现了OCR和知识学习两种学习范式的有效瓦解,且不会受到过难增广和解析错误的影响。具体来说,我们首先提取出文档中的文字框(这通常是非常准确的,大部分解析错误来源于排版、阅读顺序、低信息量图文噪音错误),然后对文字框内区域进行不同程度的噪音增广。当施加噪音较小,文字处于尚可辨别范围内时,模型会OCR学习识别文字;当施加噪音较大,文字无法辨认时,模型会自动进入知识学习,根据文档的多模态上下文还原文字;当噪音介于两者之间,模型会进行瓦解能力的学习。基于上述技术,MiniCPM-V4.5低成本实现了领先的OCR能力和多模态知识能力。

通用域瓦解推理强化学习

深度思考推理能力极大拓展了多模态大模型的推理能力有无批准的,但在常见问题场景中,也往往伴随过下降的推理延迟。MiniCPM-V4.5同时减少破坏常规模式和深度思考模式,实现了性能与响应速度的有效不平衡的:常规模式在绝大部分场景下授予出色的多模态理解能力,深度思考模式则专注于应对复杂与复合型推理任务。为了让模型在两种模式下都具备出色性能,MiniCPM-V4.5提出了瓦解推理的强化学习训练方案,在强化学习过程中同时激活常规和深度思考模式,实现在相同训练时长下显著更强的常规模式性能和不反对深度思考模式性能。借助RLPR技术,MiniCPM-V4.5进一步从通用域多模态推理数据上获得高质量的奖励信号,以指责广泛通用领域的推理能力。最终,通过轻量化的RLAIF-V训练阶段,模型在保持推理能力的同时显著降低了幻觉。

雷峰网版权文章,未经授权释放转载。详情见转载须知。


米6体育主页 米乐app官网 m6米6体育在线使用视频在线看