刚刚,小米开源首个原生端到端语音模型,语音领域的 “GPT
速途网讯 今日,小米在Xiaomi MiMo官微宣布,正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio,它基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于 ICL 的少样本泛化,并在预训练观察到明显的“涌现”行为。

官方称Xiaomi-MiMo-Audio的突破带来了语音领域的 “GPT-3 时刻”。该模型首次证明把语音无损压缩预训练 Scaling 至 1 亿小时可以“涌现”出跨任务的泛化性,表现为 Few-Shot Learning 能力。(编辑:李美涵)
Xiaomi-MiMo-Audio性能强悍,具体表现如下:
1.在通用语音理解及对话等多项标准评测基准中,MiMo-Audio 大幅超越了同参数量的开源模型,取得 7B 最佳性能
2.在音频理解基准 MMAU 的标准测试集上,MiMo-Audio 超过 Google 闭源语音模型 Gemini-2.5-Flash
3.在面向音频复杂推理的基准 Big Bench Audio S2T 任务中,MiMo-Audio 同样超越了 OpenAI 闭源的语音模型 GPT-4o-Audio-Preview
模型开源地址:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Base
技术报告:https://github.com/XiaomiMiMo/MiMo-Audio/blob/main/MiMo-Audio-Technical-Report.pdf