你的位置:米兰体育官方网站 - MILAN > 米兰app下载 > 米兰体育官网 蚂蚁开源全模态大模子 Ming-flash-omni 2.0, 对标 Gemini 2.5 Pro
发布日期:2026-02-12 21:54 点击次数:121

2月11日米兰体育官网,蚂无间团开源发布全模态大模子Ming-flash-omni2.0。据悉,该模子在视觉言语会通、语音可控生成、图像生成与剪辑等多项公开基准测试中进展超越,部分认识朝上Gemini2.5Pro,成为现时开源全模态大模子的新一代性能标杆。



图注:Ming-flash-omni2.0在视觉言语会通、语音可控生成、图像生成与剪辑等中枢界限实测进展
据先容,Ming-flash-omni2.0基于Ling-2.0架构(MoE,100B-A6B)进修,围绕“看得更准、听得更细、生成更稳”三大标的进行系统优化。视觉方面,模子通过亿级细粒度数据与难例进修计谋,进步对复杂物体与细节场景的识别才能;图像方面,增强复杂剪辑踏实性,救济光影调整、场景替换、东说念主物姿态优化等多种生成与剪辑才能;音频方面,杀青语音、音效与音乐同轨生成,并救济当然言语对音色、语速、情感、方言等参数进行精采放浪。
值得温雅的是,该模子被称为业界首个“全场景音频斡旋生成模子”,可在合并音轨中同期生谚语音、环境音与音乐,米兰体育并救济零样本音色克隆与定制。在推理阶段,模子杀青3.1Hz的低推理帧率,可完因素钟级长音频及时高保真生成,在推理后果与资本放浪上保捏当先。
业内多量以为,多模态大模子正从“多模子拼接”走向斡旋架构。Ming-flash-omni2.0的开源将以“可复用底座”形势向配置者绽开视觉、语音与生成才能,裁汰多模子串联复杂度与资本,为端到端多模态诳骗配置提供斡旋进口。
百灵模子讲求东说念主周俊暗示,全模态时候的关键在于通过斡旋架构杀青多模态才能的深度会通与高效调用。开源后,配置者可基于合并套框架复用视觉、语音与生成才能,权贵裁汰多模子串联的复杂度与资本。异日,团队将捏续优化视频时序会通、复杂图像剪辑与长音频生成及时性,完善器具链与评测体系,激动全模态时候在本色业务中限制化落地。
当今米兰体育官网,Ming-flash-omni2.0的模子权重与推理代码已在HuggingFace等开源社区发布,配置者亦可通过蚂蚁百灵LingStudio平台在线体验与调用。(袁宁)