[Sammelthread] STT/TTS - Sprache zu Text und Text zu Sprache - Allgemeine Diskussionen

Hoto

Legende
Thread Starter
Mitglied seit
18.04.2009
Beiträge
6.975
Ort
Aincrad
Falls noch Jemand ein kleines lokales Text to Speech Modell sucht. Chatterbox TTS hat jetzt Unterstützung für 23 Sprache, auch Deutsch ist dabei. Funktioniert ganz solide und braucht ~7GB VRAM. Hat Voice Cloning per Reference Stimme (6-30 Sekunden), lässt auch für eine Stimme Finetunen (ob auch für das Multilanguage Modell weiß ich noch nicht) und ist auch recht schnell (~2x Realtime auf einer RTX 4090 - Also 1 Sekunde Sprach in 0,5 Sekunden generiert).

Die neue Version ist noch recht neu, daher ist sie noch nicht überall eingebaut. Mit Quantisierung auf 8Bit, was bei TTS Modellen quasi keinen Qualitätsunterschied macht, sollte sich der nötige VRAM ordentlich nach unten drücken lassen die Geschwindigkeit noch mal hoch gehen.

P.S. wollte erst ein Thread nur für das TTS machen, aber ich denke ein Sammelthread wäre vielleicht sinnvoller. Vielleicht liste ich hier mal eine Übersicht, aber noch ist hier im KI Bereich wenig los. Nur eines sollte klar sein: keine Diskussionen zu illegaler Nutzung.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh