FunAudioLLM
/

Fun-ASR-MLT-Nano-2512

Model card Files Files and versions

xet

Community

pengzhendong commited on 1 day ago

Commit

93e64ef

verified ·

1 Parent(s): 390986c

Upload 2 files

Browse files

Files changed (2) hide show

README.md +22 -7
README_zh.md +14 -6

README.md CHANGED Viewed

@@ -1,7 +1,3 @@
----
-license: apache-2.0
----
 # Fun-ASR
 「[简体中文](README_zh.md)」|「English」
@@ -29,6 +25,18 @@ Online Experience:
 </div>
 # Core Features 🎯
 **Fun-ASR** focuses on high-precision speech recognition, multi-language support, and industry customization capabilities
@@ -65,7 +73,7 @@ from funasr import AutoModel
 def main():
-    model_dir = "FunAudioLLM/Fun-ASR-MLT-Nano-2512"
     model = AutoModel(
         model=model_dir,
         trust_remote_code=True,
@@ -74,7 +82,14 @@ def main():
     )
     wav_path = f"{model.model_path}/example/zh.mp3"
-    res = model.generate(input=[wav_path], cache={}, batch_size=1)
     text = res[0]["text"]
     print(text)
@@ -102,7 +117,7 @@ from model import FunASRNano
 def main():
-    model_dir = "FunAudioLLM/Fun-ASR-MLT-Nano-2512"
     m, kwargs = FunASRNano.from_pretrained(model=model_dir, device="cuda:0")
     m.eval()

 # Fun-ASR
 「[简体中文](README_zh.md)」|「English」
 </div>
+|                                                                           Model Name                                                                            |                                                                                                                                                                    Task Details                                                                                                                                                                    |         Training Data          | Parameters |
+| :-------------------------------------------------------------------------------------------------------------------------------------------------------------: | :------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :----------------------------: | :--------: |
+|       Fun-ASR-Nano <br> ([⭐](https://www.modelscope.cn/models/FunAudioLLM/Fun-ASR-Nano-2512) [🤗](https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512))       |                                            Speech recognition supports Chinese, English, and Japanese. Chinese includes support for 7 dialects and 26 regional accents. English and Japanese cover multiple regional accents. Additional features include lyric recognition and rap speech recognition.                                            |   Tens of millions of hours    |    800M    |
+| Fun-ASR-MLT-Nano <br> ([⭐](https://www.modelscope.cn/models/FunAudioLLM/Fun-ASR-MLT-Nano-2512) [🤗](https://huggingface.co/FunAudioLLM/Fun-ASR-MLT-Nano-2512)) | Speech recognition supports Chinese, English, Cantonese, Japanese, Korean, Vietnamese, Indonesian, Thai, Malay, Filipino, Arabic, Hindi, Bulgarian, Croatian, Czech, Danish, Dutch, Estonian, Finnish, Greek, Hungarian, Irish, Latvian, Lithuanian, Maltese, Polish, Portuguese, Romanian, Slovak, Slovenian, Swedish, and 31 languages in total. | Hundreds of thousands of hours |    800M    |
+<a name="What's News"></a>
+# What's New 🔥
+- 2025/12: [Fun-ASR-Nano-2512](https://modelscope.cn/models/FunAudioLLM/Fun-ASR-Nano-2512) is an end-to-end speech recognition large model trained on tens of millions of hours real speech data. It supports low-latency real-time transcription and covers 31 languages.
+- 2024/7: [FunASR](https://github.com/modelscope/FunASR) is a fundamental speech recognition toolkit that offers a variety of features, including speech recognition (ASR), Voice Activity Detection (VAD), Punctuation Restoration, Language Models, Speaker Verification, Speaker Diarization and multi-talker ASR.
 # Core Features 🎯
 **Fun-ASR** focuses on high-precision speech recognition, multi-language support, and industry customization capabilities
 def main():
+    model_dir = "FunAudioLLM/Fun-ASR-Nano-2512"
     model = AutoModel(
         model=model_dir,
         trust_remote_code=True,
     )
     wav_path = f"{model.model_path}/example/zh.mp3"
+    res = model.generate(
+        input=[wav_path],
+        cache={},
+        batch_size=1,
+        hotwords=["开放时间"],
+        language="zh", # auto, zh, en, ja
+        itn=True, # or False
+    )
     text = res[0]["text"]
     print(text)
 def main():
+    model_dir = "FunAudioLLM/Fun-ASR-Nano-2512"
     m, kwargs = FunASRNano.from_pretrained(model=model_dir, device="cuda:0")
     m.eval()

README_zh.md CHANGED Viewed

@@ -1,7 +1,3 @@
----
-license: apache-2.0
----
 # Fun-ASR
 「简体中文」|「[English](README.md)」
@@ -22,13 +18,25 @@ Fun-ASR 是通义实验室推出的端到端语音识别大模型，是基于数
 </h4>
-模型仓库：[modelscope](https://www.modelscope.cn/models/FunAudioLLM/Fun-ASR-Nano-2512)，[huggingface(coming)](https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512)
 在线体验：
-[魔搭社区创空间](https://modelscope.cn/studios/FunAudioLLM/Fun-ASR-Nano)，[huggingface space(coming)](https://huggingface.co/spaces/FunAudioLLM/Fun-ASR-Nano)
 </div>
 # 核心特性 🎯
 **Fun-ASR** 专注于高精度语音识别、多语言支持和行业定制化能力

 # Fun-ASR
 「简体中文」|「[English](README.md)」
 </h4>
+模型仓库：[modelscope](https://www.modelscope.cn/models/FunAudioLLM/Fun-ASR-Nano-2512)，[huggingface](https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512)
 在线体验：
+[魔搭社区创空间](https://modelscope.cn/studios/FunAudioLLM/Fun-ASR)，[huggingface space](https://huggingface.co/spaces/FunAudioLLM/Fun-ASR)
 </div>
+|                                                                              模型                                                                               |                                                                                                                                                    介绍                                                                                                                                                    |  训练数据  | 参数 |
+| :-------------------------------------------------------------------------------------------------------------------------------------------------------------: | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :--------: | :--: |
+|       Fun-ASR-Nano <br> ([⭐](https://www.modelscope.cn/models/FunAudioLLM/Fun-ASR-Nano-2512) [🤗](https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512))       |                                                                                       支持中文、英文、日文。中文包含 7 种方言及 26 种地域口音支持。英文、日文涵盖多种地域口音。额外功能包括歌词识别与说唱语音识别。                                                                                        | 数千万小时 | 8 亿 |
+| Fun-ASR-MLT-Nano <br> ([⭐](https://www.modelscope.cn/models/FunAudioLLM/Fun-ASR-MLT-Nano-2512) [🤗](https://huggingface.co/FunAudioLLM/Fun-ASR-MLT-Nano-2512)) | 支持中文、英文、粤语、日文、韩文、越南语、印尼语、泰语、马来语、菲律宾语、阿拉伯语、印地语、保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、爱沙尼亚语、芬兰语、希腊语、匈牙利语、爱尔兰语、拉脱维亚语、立陶宛语、马耳他语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、瑞典语，共 31 种语言。 | 数十万小时 | 8 亿 |
+<a name="最新动态"></a>
+# 最新动态 🔥
+- 2025/12: [Fun-ASR-Nano-2512](https://modelscope.cn/models/FunAudioLLM/Fun-ASR-Nano-2512) 是一款基于数千万小时真实语音数据训练的端到端语音识别大模型。它支持低延迟实时转写，并涵盖 31 种语言识别功能。
+- 2024/7: [FunASR](https://github.com/modelscope/FunASR) 是一款功能全面的语音识别基础工具包，集成了多项核心功能，包括自动语音识别（ASR）、语音活动检测（VAD）、标点恢复、语言模型、说话人验证、说话人日志记录以及多说话人语音识别。
 # 核心特性 🎯
 **Fun-ASR** 专注于高精度语音识别、多语言支持和行业定制化能力