[Sammelthread] STT/TTS - Sprache zu Text und Text zu Sprache - Allgemeine Diskussionen

Hoto · Samstag um 16:07

Falls noch Jemand ein kleines lokales Text to Speech Modell sucht. Chatterbox TTS hat jetzt Unterstützung für 23 Sprache, auch Deutsch ist dabei. Funktioniert ganz solide und braucht ~7GB VRAM. Hat Voice Cloning per Reference Stimme (6-30 Sekunden), lässt auch für eine Stimme Finetunen (ob auch für das Multilanguage Modell weiß ich noch nicht) und ist auch recht schnell (~2x Realtime auf einer RTX 4090 - Also 1 Sekunde Sprach in 0,5 Sekunden generiert).

Die neue Version ist noch recht neu, daher ist sie noch nicht überall eingebaut. Mit Quantisierung auf 8Bit, was bei TTS Modellen quasi keinen Qualitätsunterschied macht, sollte sich der nötige VRAM ordentlich nach unten drücken lassen die Geschwindigkeit noch mal hoch gehen.

P.S. wollte erst ein Thread nur für das TTS machen, aber ich denke ein Sammelthread wäre vielleicht sinnvoller. Vielleicht liste ich hier mal eine Übersicht, aber noch ist hier im KI Bereich wenig los. Nur eines sollte klar sein: keine Diskussionen zu illegaler Nutzung.

passat3233 · Heute um 15:08

Und wozu braucht man da AI/KI?
So etwas gabs schon vor 20 Jahren!
Und das lief auf der damaligen lahmen Hardware auch flüssig und annähernd Echtzeit.

Hoto · Heute um 17:02

passat3233 schrieb:
Und wozu braucht man da AI/KI?
So etwas gabs schon vor 20 Jahren!
Und das lief auf der damaligen lahmen Hardware auch flüssig und annähernd Echtzeit.

Weil die Sprachqualität auf einem völlig anderen Niveau ist? Und bei welchem alten TTS kannst du x beliebige Stimmen nutzen (so lange du dich an Copyright hältst und keine dumme Sachen damit anstellst)?

Chatterbox Multilingual, was ich oben angesprochen habe, kann folgende Sprachen: Arabisch, Dänisch, Deutsch, Griechisch, Englisch, Spanisch, Finnisch, Französisch, Hebräisch, Hindi, Italienisch, Japanisch, Koreanisch, Malaiisch, Niederländisch, Norwegisch, Polnisch, Portugiesisch, Russisch, Schwedisch, Suaheli, Türkisch, Chinesisch.

Und zwar in der Art, dass du 6+ Sekunden deiner eigenen Sprache in deutsch aufnimmst und dann kannst du dich selbst alle diese Sprachen sprechen hören.

Und das obige Modell ist doppelt so schnell als Echtzeit auf meiner 4090, wobei das mit dem Standard Modell und Software ist. Die Open Source Community ist da oft ziemlich findig das Ganze noch weiter zu beschleunigen.

Kann man auch Online hier ausprobieren, allerdings haben sie für deutsch nicht gerade die beste Stimme genutzt, zu monoton. Man kann auch einen eigenen Sample nehmen oder gar selbst direkt aufnehmen:

Chatterbox-Multilingual-TTS - a Hugging Face Space by ResembleAI

This app converts text into high-quality speech in multiple languages. Users can input text and select a language, and optionally provide a reference audio file to match the voice style. The result...

huggingface.co

Und das ist einer der kleineren TTS Modelle, andere Modelle wie HiggsAudio haben noch mal eine andere Qualität und mehr Fähigkeiten.

Suche

[Sammelthread] STT/TTS - Sprache zu Text und Text zu Sprache - Allgemeine Diskussionen

Hoto

Legende

passat3233

Urgestein

Hoto

Legende

Chatterbox-Multilingual-TTS - a Hugging Face Space by ResembleAI