Spaces:
Running
Running
| title: Matcha TTS Japanese | |
| emoji: 🏃 | |
| colorFrom: indigo | |
| colorTo: red | |
| sdk: static | |
| pinned: true | |
| license: mit | |
| short_description: Description of Matcha TTS Japanese | |
| <div style="height: 15px;"></div> | |
| # Match-TTS-Japanese Spaces | |
| <div><a href="https://github.com/akjava/Matcha-TTS-Japanese/" target="_new">Github</a></div> | |
| a not official fork of matcha-tts for japanese language. | |
| some onnx codes help english-tts | |
| ## Difference | |
| - Focus on Japanese Language | |
| - Focus on onnx | |
| - Focus on Dataset/Model | |
| <div><b>Models</b></div> | |
| <div><a href="https://huggingface.co/Akjava/matcha_tts_common_voice_01_en_001/" target="_new">EN001</a> - English trained single speaker. <br></div> | |
| <div id="footer"> | |
| <b>Example Spaces</b><br> | |
| <a href="/spaces/Akjava/matcha-tts_vctk-onnx" style="font-size: 12px" target="link">Match-TTS VCTK-ONNX</a> | | |
| <a href="/spaces/Akjava/matcha-tts-onnx-benchmarks" style="font-size: 12px" target="link">Match-TTS ONNX-Benchmark</a> | | |
| <a href="https://akjava.github.io/Matcha-TTS-Japanese/" target="link" style="font-size: 12px">Onnx Github Example page</a> | | |
| <br> | |
| </div> | |
| <div> </div><br> | |
| # Matcha-TTS 日本語 | |
| Matcha-TTSは比較的新しいTTSエンジンです。 | |
| これからのAIには音声合成機能は欠かせません。TTSの最重要項目はデータセットです。エンジンはデーターセットほど品質で違いは生み出せません。 | |
| データーセットから作成したモデルが揃っていれば、知名度が低くても十分です。 | |
| そしてMatcha-TTSは速度・容量・ライセンス的に、実用性においては他と比べて大きく劣る要素はありません。 | |
| ## 違い | |
| - 日本語特化 - (そのうち、クリーナーを組み込みます) | |
| - Onnx特化 ブラウザーとUnity(C#) | |
| - データー/モデル を作ります | |
| ## モデル | |
| 出来そうな気もするけど、シングルとマルチスピーカの変換の仕方はわかりません。 | |
| 正直、シングルがずば抜けて品質がいいわけではなく、サイズ的な違いは少なく、話者100人と1人だと、マルチスピーカーの方がお得感があるので、話者の数が少なくてもマルチスピーカーの訓練を主にしています。 | |
| ただ、まだまだ、研究中です。最終的にはシングルでトレーニングしたのをコーパス出力して、それをマルチスピーカーで結合するのがいいかと思っています。 | |
| ### Speakerの違い | |
| #### Single Speaker | |
| - ほぼすべてLJSpeechをベースです。(ライセンス的な制限もありませんし。音質の変化も感じません) | |
| #### Multi Speaker | |
| - VCTKのライセンスを緩いですが回避したいので、VCTKのpretrainedは使いません。 | |
| - 100Speakers は最大スロット数を示すモデルの型で、実際には数人スピーカーしか訓練していないモデルばかりです。 | |
| ### 最終品質 | |
| 音質とイントネーションのバランスで苦労しています。 | |
| - 音素が揃っている大型モデル(Large/Huge)を単独でトレーニングすると、音質はいい。ただしイントネーションは怪しい | |
| - 混ぜたり、Fine-Tuneするとイントーネーションはよくなるが、音質は悪くなる | |
| - カリキュラム学習がうまくいっているのか、長文の分解で失敗しているのか不明 | |
| - シンプルなPhonemizeでは難しいのでは考えています。英語までとはいわないが、センテンスで分割マークを入れたい(ブラウザーでも動く入れ方を検討中) | |
| 品質検出ツールがない | |
| - ある程度トレーニングすると大抵CERは高品質。ただしCERは、たどたどしい、ゆっくりな日本語やRobotic音声にも、満点を与えるので、単独で評価できない | |
| - Roboticな出力はMore-all 出力すればある程度わかります。(人間が聞く必要あるけど) | |
| - 一部のコーパス出力でもイントネーションを比べることは出来ますが(人間が聞く必要あるけど) 完全なカバーではない。 | |
| ### Phonemize | |
| Tacorton2-Japanseにあるように、いろいろ変換方式ありますが、ブラウザーで使えないので検討中です。 | |
| - openjtalk-g2p - デフォルトで使用しています。(Phonemize/Cleanerを明記していない限りこれです。)ただし、ブラウザーで使えない(OpenJtalkがない) | |
| - julis-segmentation - Conqui-TTSもデフォルトはこれだったような。シンプルだけど、ブラウザーで使えそう (kuromoji.jsがある) | |
| ### シングルスピーカーモデル | |
| まだブラウザーで動く、Phonemizerが出来ていないので、正式にはモデルは非公開中 | |
| #### モデル制作の感想 | |
| 大きいモデルは、いきなり作るとイントネーションが残念なことになるので、以前作っていたモデルをベースに継続している。代わりに音が残念なことになっている。 | |