[Sammelthread] STT/TTS - Sprache zu Text und Text zu Sprache - Allgemeine Diskussionen

Hoto

Legende
Thread Starter
Mitglied seit
18.04.2009
Beiträge
6.979
Ort
Aincrad
Falls noch Jemand ein kleines lokales Text to Speech Modell sucht. Chatterbox TTS hat jetzt Unterstützung für 23 Sprache, auch Deutsch ist dabei. Funktioniert ganz solide und braucht ~7GB VRAM. Hat Voice Cloning per Reference Stimme (6-30 Sekunden), lässt auch für eine Stimme Finetunen (ob auch für das Multilanguage Modell weiß ich noch nicht) und ist auch recht schnell (~2x Realtime auf einer RTX 4090 - Also 1 Sekunde Sprach in 0,5 Sekunden generiert).

Die neue Version ist noch recht neu, daher ist sie noch nicht überall eingebaut. Mit Quantisierung auf 8Bit, was bei TTS Modellen quasi keinen Qualitätsunterschied macht, sollte sich der nötige VRAM ordentlich nach unten drücken lassen die Geschwindigkeit noch mal hoch gehen.

P.S. wollte erst ein Thread nur für das TTS machen, aber ich denke ein Sammelthread wäre vielleicht sinnvoller. Vielleicht liste ich hier mal eine Übersicht, aber noch ist hier im KI Bereich wenig los. Nur eines sollte klar sein: keine Diskussionen zu illegaler Nutzung.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Und wozu braucht man da AI/KI?
So etwas gabs schon vor 20 Jahren!
Und das lief auf der damaligen lahmen Hardware auch flüssig und annähernd Echtzeit.
 
Und wozu braucht man da AI/KI?
So etwas gabs schon vor 20 Jahren!
Und das lief auf der damaligen lahmen Hardware auch flüssig und annähernd Echtzeit.
Weil die Sprachqualität auf einem völlig anderen Niveau ist? Und bei welchem alten TTS kannst du x beliebige Stimmen nutzen (so lange du dich an Copyright hältst und keine dumme Sachen damit anstellst)?

Chatterbox Multilingual, was ich oben angesprochen habe, kann folgende Sprachen: Arabisch, Dänisch, Deutsch, Griechisch, Englisch, Spanisch, Finnisch, Französisch, Hebräisch, Hindi, Italienisch, Japanisch, Koreanisch, Malaiisch, Niederländisch, Norwegisch, Polnisch, Portugiesisch, Russisch, Schwedisch, Suaheli, Türkisch, Chinesisch.

Und zwar in der Art, dass du 6+ Sekunden deiner eigenen Sprache in deutsch aufnimmst und dann kannst du dich selbst alle diese Sprachen sprechen hören.

Und das obige Modell ist doppelt so schnell als Echtzeit auf meiner 4090, wobei das mit dem Standard Modell und Software ist. Die Open Source Community ist da oft ziemlich findig das Ganze noch weiter zu beschleunigen.

Kann man auch Online hier ausprobieren, allerdings haben sie für deutsch nicht gerade die beste Stimme genutzt, zu monoton. Man kann auch einen eigenen Sample nehmen oder gar selbst direkt aufnehmen:


Und das ist einer der kleineren TTS Modelle, andere Modelle wie HiggsAudio haben noch mal eine andere Qualität und mehr Fähigkeiten.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh