Fun-ASR-Nano-2512 / README_zh.md

Upload 2 files

5cdfcc1 verified 6 days ago

12.2 kB

	# Fun-ASR

	「简体中文」\|「[English](README.md)」

	Fun-ASR 是通义实验室推出的端到端语音识别大模型，是基于数千万小时真实语音数据训练而成，具备强大的上下文理解能力与行业适应性，支持低延迟实时听写，并且覆盖 31 个语种。在教育、金融等垂直领域表现出色，能准确识别专业术语与行业表达，有效应对"幻觉"生成和语种混淆等挑战，实现"听得清、懂其意、写得准"。

	<div align="center">
	<img src="images/funasr-v2.png">
	</div>

	<div align="center">
	<h4>
	<a href="https://funaudiollm.github.io/funasr"> Homepage </a>
	｜<a href="#核心特性"> 核心特性 </a>
	｜<a href="#性能评测"> 性能评测 </a>
	｜<a href="#环境安装"> 环境安装 </a>
	｜<a href="#用法教程"> 用法教程 </a>

	</h4>

	模型仓库：[modelscope](https://www.modelscope.cn/models/FunAudioLLM/Fun-ASR-Nano-2512)，[huggingface](https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512)

	在线体验：
	[魔搭社区创空间](https://modelscope.cn/studios/FunAudioLLM/Fun-ASR-Nano)，[huggingface space](https://huggingface.co/spaces/FunAudioLLM/Fun-ASR-Nano)

	</div>

	\| 模型 \| 介绍 \| 训练数据 \| 参数 \|
	\| :-------------------------------------------------------------------------------------------------------------------------------------------------------------: \| :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------: \| :--------: \| :--: \|
	\| Fun-ASR-Nano <br> ([⭐](https://www.modelscope.cn/models/FunAudioLLM/Fun-ASR-Nano-2512) [🤗](https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512)) \| 支持中文、英文、日文。中文包含 7 种方言（吴语、粤语、闽语、客家话、赣语、湘语、晋语）及 26 种地域口音支持（河南、陕西、湖北、四川、重庆、云南、贵州、广东、广西、河北、天津、山东、安徽、南京、江苏、杭州、甘肃、宁夏）。英文、日文涵盖多种地域口音。额外功能包括歌词识别与说唱语音识别。 \| 数千万小时 \| 8 亿 \|
	\| Fun-ASR-MLT-Nano <br> ([⭐](https://www.modelscope.cn/models/FunAudioLLM/Fun-ASR-MLT-Nano-2512) [🤗](https://huggingface.co/FunAudioLLM/Fun-ASR-MLT-Nano-2512)) \| 支持中文、英文、粤语、日文、韩文、越南语、印尼语、泰语、马来语、菲律宾语、阿拉伯语、印地语、保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、爱沙尼亚语、芬兰语、希腊语、匈牙利语、爱尔兰语、拉脱维亚语、立陶宛语、马耳他语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、瑞典语，共 31 种语言。 \| 数十万小时 \| 8 亿 \|

	<a name="最新动态"></a>

	# 最新动态 🔥

	- 2025/12: [Fun-ASR-Nano-2512](https://modelscope.cn/models/FunAudioLLM/Fun-ASR-Nano-2512) 是一款基于数千万小时真实语音数据训练的端到端语音识别大模型。它支持低延迟实时转写，并涵盖 31 种语言识别功能。
	- 2024/7: [FunASR](https://github.com/modelscope/FunASR) 是一款功能全面的语音识别基础工具包，集成了多项核心功能，包括自动语音识别（ASR）、语音活动检测（VAD）、标点恢复、语言模型、说话人验证、说话人日志记录以及多说话人语音识别。

	# 核心特性 🎯

	Fun-ASR 专注于高精度语音识别、多语言支持和行业定制化能力

	- 远场高噪声识别：针对远距离拾音及高噪声场景（如会议室、车载环境、工业现场等）进行深度优化，识别准确率提升至 93%。
	- 中文方言与地方口音：
	- 支持 7 大方言：吴语、粤语、闽语、客家话、赣语、湘语、晋语
	- 覆盖 26 个地区口音：包括河南、陕西、湖北、四川、重庆、云南、贵州、广东、广西等 20 多个地区
	- 多语言自由说：支持 31 种语言识别，重点优化东亚与东南亚语种，支持语种自由切换和混合识别。
	- 音乐背景歌词识别：强化在音乐背景干扰下的语音识别性能，支持对歌曲中歌词内容的精准识别。

	# 环境安装 🐍

	```shell
	git clone https://github.com/FunAudioLLM/Fun-ASR.git
	cd Fun-ASR
	pip install -r requirements.txt
	```

	<a name="用法教程"></a>

	# TODO

	- [ ] 支持返回时间戳
	- [ ] 支持区分说话人识别
	- [ ] 支持模型训练

	# 用法 🛠️

	## 推理

	### 使用 funasr 推理

	```python
	from funasr import AutoModel


	def main():
	model_dir = "FunAudioLLM/Fun-ASR-Nano-2512"
	model = AutoModel(
	model=model_dir,
	trust_remote_code=True,
	remote_code="./model.py",
	device="cuda:0",
	)

	wav_path = f"{model.model_path}/example/zh.mp3"
	res = model.generate(
	input=[wav_path],
	cache={},
	batch_size=1,
	hotwords=["开放时间"],
	# 中文、英文、日文 for Fun-ASR-Nano-2512
	# 中文、英文、粤语、日文、韩文、越南语、印尼语、泰语、马来语、菲律宾语、阿拉伯语、
	# 印地语、保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、爱沙尼亚语、芬兰语、希腊语、
	# 匈牙利语、爱尔兰语、拉脱维亚语、立陶宛语、马耳他语、波兰语、葡萄牙语、罗马尼亚语、
	# 斯洛伐克语、斯洛文尼亚语、瑞典语 for Fun-ASR-MLT-Nano-2512
	language="中文",
	itn=True, # or False
	)
	text = res[0]["text"]
	print(text)

	model = AutoModel(
	model=model_dir,
	trust_remote_code=True,
	vad_model="fsmn-vad",
	vad_kwargs={"max_single_segment_time": 30000},
	remote_code="./model.py",
	device="cuda:0",
	)
	res = model.generate(input=[wav_path], cache={}, batch_size=1)
	text = res[0]["text"]
	print(text)


	if __name__ == "__main__":
	main()
	```

	### 直接推理

	```python
	from model import FunASRNano


	def main():
	model_dir = "FunAudioLLM/Fun-ASR-Nano-2512"
	m, kwargs = FunASRNano.from_pretrained(model=model_dir, device="cuda:0")
	m.eval()

	wav_path = f"{kwargs['model_path']}/example/zh.mp3"
	res = m.inference(data_in=[wav_path], **kwargs)
	text = res[0][0]["text"]
	print(text)


	if __name__ == "__main__":
	main()
	```

	<details><summary> 参数说明（点击展开）</summary>

	- `model_dir`：模型名称，或本地磁盘中的模型路径。
	- `trust_remote_code`：是否信任远程代码，用于加载自定义模型实现。
	- `remote_code`：指定模型具体代码的位置（例如，当前目录下的 `model.py`），支持绝对路径与相对路径。
	- `device`：指定使用的设备，如 "cuda:0" 或 "cpu"。

	</details>

	# 性能评测 📝

	我们在开源基准数据集、中文方言测试集和工业测试集上，比较了 Fun-ASR 与其他模型的多语言语音识别性能。Fun-ASR 模型均具有明显的效果优势。

	### 1. 开源数据集性能 (WER %)

	\| Test set \| GLM-ASR-nano \| GLM-ASR-nano\* \| Whisper-large-v3 \| Seed-ASR \| Seed-ASR\* \| Kimi-Audio \| Step-Audio2 \| FireRed-ASR \| Fun-ASR-nano \| Fun-ASR \|
	\| :------------------ \| :----------: \| :------------: \| :--------------: \| :------: \| :--------: \| :--------: \| :---------: \| :---------: \| :----------: \| :-----: \|
	\| Model Size \| 1.5B \| 1.5B \| 1.6B \| - \| - \| - \| - \| 1.1B \| 0.8B \| 7.7B \|
	\| OpenSource \| ✅ \| ✅ \| ✅ \| ❌ \| ❌ \| ✅ \| ✅ \| ✅ \| ✅ \| ❌ \|
	\| AIShell1 \| 1.81 \| 2.17 \| 4.72 \| 0.68 \| 1.63 \| 0.71 \| 0.63 \| 0.54 \| 1.80 \| 1.22 \|
	\| AIShell2 \| - \| 3.47 \| 4.68 \| 2.27 \| 2.76 \| 2.86 \| 2.10 \| 2.58 \| 2.75 \| 2.39 \|
	\| Fleurs-zh \| - \| 3.65 \| 5.18 \| 3.43 \| 3.23 \| 3.11 \| 2.68 \| 4.81 \| 2.56 \| 2.53 \|
	\| Fleurs-en \| 5.78 \| 6.95 \| 6.23 \| 9.39 \| 9.39 \| 6.99 \| 3.03 \| 10.79 \| 5.96 \| 4.74 \|
	\| Librispeech-clean \| 2.00 \| 2.17 \| 1.86 \| 1.58 \| 2.8 \| 1.32 \| 1.17 \| 1.84 \| 1.76 \| 1.51 \|
	\| Librispeech-other \| 4.19 \| 4.43 \| 3.43 \| 2.84 \| 5.69 \| 2.63 \| 2.42 \| 4.52 \| 4.33 \| 3.03 \|
	\| WenetSpeech Meeting \| 6.73 \| 8.21 \| 18.39 \| 5.69 \| 7.07 \| 6.24 \| 4.75 \| 4.95 \| 6.60 \| 6.17 \|
	\| WenetSpeech Net \| - \| 6.33 \| 11.89 \| 4.66 \| 4.84 \| 6.45 \| 4.67 \| 4.94 \| 6.01 \| 5.46 \|

	> _注：Seed-ASR\* 结果使用 volcengine 上的官方 API 评估；GLM-ASR-nano\* 结果使用开源 checkpoint 评估。_

	### 2. 工业数据集性能 (WER %)

	\| Test set \| GLM-ASR-Nano \| Whisper-large-v3 \| Seed-ASR \| FireRed-ASR \| Kimi-Audio \| Paraformer v2 \| Fun-ASR-nano \| Fun-ASR \|
	\| :----------------- \| :----------: \| :--------------: \| :-------: \| :---------: \| :--------: \| :-----------: \| :----------: \| :-------: \|
	\| Model Size \| 1.5B \| 1.6B \| - \| 1.1B \| 8B \| 0.2B \| 0.8B \| 7.7B \|
	\| OpenSource \| ✅ \| ✅ \| ❌ \| ✅ \| ✅ \| ✅ \| ✅ \| ❌ \|
	\| Nearfield \| 16.95 \| 16.58 \| 7.20 \| 10.10 \| 9.02 \| 8.11 \| 7.79 \| 6.31 \|
	\| Farfield \| 9.44 \| 22.21 \| 4.59 \| 7.49 \| 10.95 \| 9.55 \| 5.79 \| 4.34 \|
	\| Complex Background \| 23.79 \| 32.57 \| 12.90 \| 15.56 \| 15.56 \| 15.19 \| 14.59 \| 11.45 \|
	\| English General \| 16.47 \| 18.56 \| 15.65 \| 21.62 \| 18.12 \| 19.48 \| 15.28 \| 13.73 \|
	\| Opensource \| 4.67 \| 7.05 \| 3.83 \| 5.31 \| 3.79 \| 6.23 \| 4.22 \| 3.38 \|
	\| Dialect \| 54.21 \| 66.14 \| 29.45 \| 52.82 \| 71.94 \| 41.16 \| 28.18 \| 15.21 \|
	\| Accent \| 19.78 \| 36.03 \| 10.23 \| 14.05 \| 27.20 \| 17.80 \| 12.90 \| 10.31 \|
	\| Lyrics \| 46.56 \| 54.82 \| 30.26 \| 42.87 \| 65.18 \| 50.14 \| 30.85 \| 21.00 \|
	\| Hiphop \| 43.32 \| 46.56 \| 29.46 \| 33.88 \| 57.25 \| 43.79 \| 30.87 \| 28.58 \|
	\| Average \| 26.13 \| 33.39 \| 15.95 \| 22.63 \| 31.00 \| 23.49 \| 16.72 \| 12.70 \|

	<div align="center">
	<img src="images/compare_zh.png" width="800" />
	</div>

	## Citations

	```bibtex
	@article{an2025fun,
	title={Fun-ASR Technical Report},
	author={An, Keyu and Chen, Yanni and Deng, Chong and Gao, Changfeng and Gao, Zhifu and Gong, Bo and Li, Xiangang and Li, Yabin and Lv, Xiang and Ji, Yunjie and others},
	journal={arXiv preprint arXiv:2509.12508},
	year={2025}
	}
	```