多语言语音识别语料库(Omnilingual ASR Corpus)是一个包含 348 种服务不足语言的自然口语录音及其转录文本的集合。该语料库是 Meta FAIR 多语言语音识别项目(博客、模型、论文)的一部分,旨在用于训练自动语音识别(ASR)和口语语言识别模型。
{
`language`: "lij_Latn",
`iso_639_3`: "lij",
`iso_15924`: "Latn",
`glottocode`: "geno1240",
`prompt_id`: "C086",
`prompt`: "What was the last thing you ate? Can you describe how it is made?",
`speaker_id`: "spk02",
`segment_id`: "s01",
`audio`: "<Audio data in FLAC format>",
`raw_text`: "Me son tòsto fæto un panetto co-o formaggio, ma quello a-a catalaña, saiva à dî con o pan un pittin brustolio e pöi a tomata sciaccâ in çimma, tanto euio e un pittin de sâ, e dapeu se ghe mette o companægo, into mæ caxo o formaggio.",
}language 列中的语言代码遵循 {lang}_{script} 格式,其中 {lang} 是 ISO 639-3 三位字母语言代码,{script} 是 ISO 15924 四位字母文字代码。为在需要时提供更细致的区分,我们额外提供了 glottocode 列,其中包含 Glottolog 语言代码。
转录文本(raw_text 字段)中使用了以下特殊标签来标记笑声、填充词和其他类型的非言语内容:
| 标签 | 用途 |
|---|---|
<laugh> | 笑声。 |
<hesitation> | 犹豫声,通常是说话者思考接下来要说的内容时发出的声音。在英语中,一些常见的犹豫声有“err”、“um”、“huh”等。 |
<unintelligible> | 无法听懂的单个词语或词语序列。 |
<noise> | 其他任何类型的噪音,例如说话者咳嗽、清嗓子、汽车鸣笛、物体撞击麦克风的声音、手机震动声等。 |
自然口语中会出现词语开头失误的情况,即只发出了完整词语的一部分。此类失误按录音中的实际情况进行转录,并在词语片段末尾添加连字符 (-),例如:
His name is Jo- Jona- Jonathan.
重复的词语也如实转录,例如:
And then I went to the the the bed- the bedroom
本语料库以 CC-BY-4.0 许可证发布。
如果您在研究工作中使用了本数据集,请引用:
@misc{omnilingualasr2025,
title={{Omnilingual ASR}: Open-Source Multilingual Speech Recognition for 1600+ Languages},
author={{Omnilingual ASR Team} and Keren, Gil and Kozhevnikov, Artyom and Meng, Yen and Ropers, Christophe and Setzler, Matthew and Wang, Skyler and Adebara, Ife and Auli, Michael and Balioglu, Can and Chan, Kevin and Cheng, Chierh and Chuang, Joe and Droof, Caley and Duppenthaler, Mark and Duquenne, Paul-Ambroise and Erben, Alexander and Gao, Cynthia and Mejia Gonzalez, Gabriel and Lyu, Kehan and Miglani, Sagar and Pratap, Vineel and Sadagopan, Kaushik Ram and Saleem, Safiyyah and Turkatenko, Arina and Ventayol-Boada, Albert and Yong, Zheng-Xin and Chung, Yu-An and Maillard, Jean and Moritz, Rashel and Mourachko, Alexandre and Williamson, Mary and Yates, Shireen},
year={2025},
eprint={2511.09690},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2511.09690},
}