刚刚，小米开源首个原生端到端语音模型，语音领域的 “GPT

速途网 • 2小时前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

速途网讯今日，小米在Xiaomi MiMo官微宣布，正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio，它基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于 ICL 的少样本泛化，并在预训练观察到明显的“涌现”行为。

官方称Xiaomi-MiMo-Audio的突破带来了语音领域的 “GPT-3 时刻”。该模型首次证明把语音无损压缩预训练 Scaling 至 1 亿小时可以“涌现”出跨任务的泛化性，表现为 Few-Shot Learning 能力。（编辑：李美涵）

Xiaomi-MiMo-Audio性能强悍，具体表现如下：

1.在通用语音理解及对话等多项标准评测基准中，MiMo-Audio 大幅超越了同参数量的开源模型，取得 7B 最佳性能

2.在音频理解基准 MMAU 的标准测试集上，MiMo-Audio 超过 Google 闭源语音模型 Gemini-2.5-Flash

3.在面向音频复杂推理的基准 Big Bench Audio S2T 任务中，MiMo-Audio 同样超越了 OpenAI 闭源的语音模型 GPT-4o-Audio-Preview

模型开源地址：https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Base

技术报告：https://github.com/XiaomiMiMo/MiMo-Audio/blob/main/MiMo-Audio-Technical-Report.pdf