[Sammelthread] STT/TTS - Sprache zu Text und Text zu Sprache - Allgemeine Diskussionen

Hoto · 06.09.2025

Falls noch Jemand ein kleines lokales Text to Speech Modell sucht. Chatterbox TTS hat jetzt Unterstützung für 23 Sprache, auch Deutsch ist dabei. Funktioniert ganz solide und braucht ~7GB VRAM. Hat Voice Cloning per Reference Stimme (6-30 Sekunden), lässt auch für eine Stimme Finetunen (ob auch für das Multilanguage Modell weiß ich noch nicht) und ist auch recht schnell (~2x Realtime auf einer RTX 4090 - Also 1 Sekunde Sprach in 0,5 Sekunden generiert).

Die neue Version ist noch recht neu, daher ist sie noch nicht überall eingebaut. Mit Quantisierung auf 8Bit, was bei TTS Modellen quasi keinen Qualitätsunterschied macht, sollte sich der nötige VRAM ordentlich nach unten drücken lassen die Geschwindigkeit noch mal hoch gehen.

P.S. wollte erst ein Thread nur für das TTS machen, aber ich denke ein Sammelthread wäre vielleicht sinnvoller. Vielleicht liste ich hier mal eine Übersicht, aber noch ist hier im KI Bereich wenig los. Nur eines sollte klar sein: keine Diskussionen zu illegaler Nutzung.

passat3233 · 08.09.2025

Und wozu braucht man da AI/KI?
So etwas gabs schon vor 20 Jahren!
Und das lief auf der damaligen lahmen Hardware auch flüssig und annähernd Echtzeit.

Hoto · 08.09.2025

passat3233 schrieb:
Und wozu braucht man da AI/KI?
So etwas gabs schon vor 20 Jahren!
Und das lief auf der damaligen lahmen Hardware auch flüssig und annähernd Echtzeit.

Weil die Sprachqualität auf einem völlig anderen Niveau ist? Und bei welchem alten TTS kannst du x beliebige Stimmen nutzen (so lange du dich an Copyright hältst und keine dumme Sachen damit anstellst)?

Chatterbox Multilingual, was ich oben angesprochen habe, kann folgende Sprachen: Arabisch, Dänisch, Deutsch, Griechisch, Englisch, Spanisch, Finnisch, Französisch, Hebräisch, Hindi, Italienisch, Japanisch, Koreanisch, Malaiisch, Niederländisch, Norwegisch, Polnisch, Portugiesisch, Russisch, Schwedisch, Suaheli, Türkisch, Chinesisch.

Und zwar in der Art, dass du 6+ Sekunden deiner eigenen Sprache in deutsch aufnimmst und dann kannst du dich selbst alle diese Sprachen sprechen hören.

Und das obige Modell ist doppelt so schnell als Echtzeit auf meiner 4090, wobei das mit dem Standard Modell und Software ist. Die Open Source Community ist da oft ziemlich findig das Ganze noch weiter zu beschleunigen.

Kann man auch Online hier ausprobieren, allerdings haben sie für deutsch nicht gerade die beste Stimme genutzt, zu monoton. Man kann auch einen eigenen Sample nehmen oder gar selbst direkt aufnehmen:

Chatterbox-Multilingual-TTS - a Hugging Face Space by ResembleAI

Chatterbox TTS supporting 23 languages

huggingface.co

Und das ist einer der kleineren TTS Modelle, andere Modelle wie HiggsAudio haben noch mal eine andere Qualität und mehr Fähigkeiten.

Hoto · 23.01.2026

Was Qwen wieder abliefert ist einfach irre:

GitHub - QwenLM/Qwen3-TTS: Qwen3-TTS is an open-source series of TTS models developed by the Qwen team at Alibaba Cloud, supporting stable, expressive, and streaming speech generation, free-form voice design, and vivid voice cloning.

Qwen3-TTS is an open-source series of TTS models developed by the Qwen team at Alibaba Cloud, supporting stable, expressive, and streaming speech generation, free-form voice design, and vivid voice...

github.com

Qwen

Qwen Chat offers comprehensive functionality spanning chatbot, image and video understanding, image generation, document processing, web search integration, tool utilization, and artifacts.

qwen.ai

(hier gibt es weiter unten Demo Waves zum direkt anhören)

Vorweg: auch deutsch wird bei allen Modellen unterstützt (sind 5 verschiedene in 2 Größen, 0.6B und 1.7B).

Schreibe ich deswegen direkt, weil bei mir inzwischen TTS, die kein Deutsch können, direkt raus fallen.

Ein kostenloses Modell, das auf wenig VRAM läuft und Sprache erstellt, die man nicht mehr von echter unterscheiden kann und dabei Modelle, mit denen man gar künstliche Stimmen frei per Prompt Beschreibung generieren kann, wobei hier muss ich mal testen wie frei das tatsächlich ist. Ein Modell mit Voice Cloning ist auch dabei inkl. der Möglichkeit die Stimme dann auch noch in Ton und Emotion anzupassen. Traurig oder aufgeregt geht derart gut, dass es absolut realistisch klingt. Sprachen kann man auch mischen, was gut ist wenn man Text nutzt der unterschiedliche Sprachen enthält, dann werden englische Wörter nicht in Deutsch ausgesprochen, zumindest wenn es in dem Punkt gut genug trainiert wurde.

Es ist damit also quasi möglich eine künstliche Stimme zu designen und den Output für Voice Cloning zu nutzen, primär das macht es interessant, weil ich ungern echte Stimmen nutze, selbst wenn rein privat und für mein Projekt fehlte mir noch eine entsprechende Stimme. Und da viele TTS Modelle inzwischen auch Voice Cloning können, ist Qwen selbst dann interessant, wenn man Qwen am Ende gar nicht selbst direkt bei seinem Setup einsetzt. Zum Beispiel kann man auch einfach verschiedene Versionen einer Stimme in unterschiedlichen Emotionen aufnehmen und dann einfach beim Voice Cloning jeweils die Stimme wechseln wie man es gerade braucht. So kann man indirekt auch in einem TTS ohne Emotion Feature etwas Emotionen rein bringen. Und bei der Qualität könnte es auch geeignet sein ein TTS Model mit künstlicher Stimme zu trainieren.

Ich bin mal gespannt wie sehr man das TTS für schnelle Reaktionszeit, also Millisekunden bis zum ersten Audioschnippsel, man die Modelle optimieren kann.

--------------------------

Eigentlich wollte ich ursprünglich wegen einem anderen Modell hier posten. Selbst mit der Existenz von Qwen ist dieses Modell extrem stark in Deutsch, weil es eben gezielt für Deutsch trainiert wurde:

SebastianBodza/MiraToffel_miraTTS_german · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

Es ist ein 0.6B Modell und erzeugt 48khz Audio, es ist 100x so schnell wie Realtime und bei Token Streaming kommt es auf unter 100ms bis zum ersten Audio. Sprich extrem Reaktionsschnell und damit ideal für ein Chatbot der möglichst schnell per Sprache antworten soll. Und das mit Voice Cloning. Wie bei Qwen benötigt man so 3-10 Sekunden Audio dafür.

Sollte es möglich sein Qwen allerdings ähnlich weit runter zu bekommen was die Reaktionszeit angeht, könnte es wohl dieses Modell ersetzen.

Ghost1848 · 14.04.2026

Hoto schrieb:
Was Qwen wieder abliefert ist einfach irre:

Vorweg: auch deutsch wird bei allen Modellen unterstützt (sind 5 verschiedene in 2 Größen, 0.6B und 1.7B).

Schreibe ich deswegen direkt, weil bei mir inzwischen TTS, die kein Deutsch können, direkt raus fallen.

Hi Hoto,

Ich sehe das wie Du, TTS die kein deutsch können, fallen auch bei mir direkt raus.

Leider kenne ich mich mit der Nutzung von GitHub gar nicht aus. Ich habe es zwar auf meinem Windows-Rechner installiert, aber ich habe keine Ahnung wie ich Qwen nutzen kann. Ich habe noch nie mit git gearbeitet. Von der Beschreibung her, ist es genau das was ich schon seit Wochen suche.
Könntest Du mir erklären wie man es richtig installiert um es nutzen zu können?

Hoto · 14.04.2026

Ghost1848 schrieb:
Hi Hoto,

Ich sehe das wie Du, TTS die kein deutsch können, fallen auch bei mir direkt raus.

Leider kenne ich mich mit der Nutzung von GitHub gar nicht aus. Ich habe es zwar auf meinem Windows-Rechner installiert, aber ich habe keine Ahnung wie ich Qwen nutzen kann. Ich habe noch nie mit git gearbeitet. Von der Beschreibung her, ist es genau das was ich schon seit Wochen suche.
Könntest Du mir erklären wie man es richtig installiert um es nutzen zu können?

Eigentlich steht das bei den Github Projekten immer in der Anleitung welche Schritt man tun muss um es zum laufen zu bekommen. Wenn du git installiert hast und auch Python (am besten immer noch 3.12), dann brauchst du eigentlich nur noch dem Guide folgen. Die Software ist auch meist so aufgebaut, dass sie beim ersten ausführen das KI Modell von Huggingface selbst runterlädt, gibt eigentlich kaum eine KI Github Software, die das nicht tut.

Seit meinem Post wieder etliche neue TTS Modelle erschienen sind. Vielleicht die zur Zeit beste Lösung ist Omnivoice, was auf Qwen-TTS basiert.

GitHub - k2-fsa/OmniVoice: High-Quality Voice Cloning TTS for 600+ Languages

High-Quality Voice Cloning TTS for 600+ Languages. Contribute to k2-fsa/OmniVoice development by creating an account on GitHub.

github.com

Zuerst öffnest du eine Konsole, dann gehst du in das Verzeichnis wo du die Software ablegen willst, würde es aber nicht in ein Windows Verzeichnis packen. "C:\tts\" wäre z.B. eine Möglichkeit oder irgend eine andere Partition.

Dann nacheinander eingeben:

1. python -m venv venv <- das legt eine virtuelle Umgebung an, alles folgende wird darin installiert und nicht im globalen Python, was schnell Probleme macht.
2. venv\Scripts\activate.bat <- aktiviert die venv. Muss immer eingeben werden wenn du die Software nutzen willst.
3. pip install torch==2.8.0+cu128 torchaudio==2.8.0+cu128 --extra-index-url https://download.pytorch.org/whl/cu128 <- installiert die nötigen NVidia CUDA libs.
4. pip install omnivoice <- installiert die eigentliche Software

Solltest du eine AMD Grafikkarte haben, da muss ich passen, mit AMD hab ich keinerlei Erfahrung. AMD Karten sind so ein wenig das Sorgenkind bei KI und werden oft nicht richtig oder gar nicht unterstützt, wie scheinbar hier.

Ich habs selbst nicht so installiert (ich hab statt 4. die git clone Methode verwendet, siehe Github Anleitung Step 2), aber laut Anleitung sollte das reichen, dann kann man die Software hiermit starten:

1. venv\Scripts\activate.bat <- nach der Installation nicht nötig da bereits aktiviert
2. omnivoice-demo --ip 0.0.0.0 --port 8001

Damit sollte man über "Localhost:8001" als URL im Browser auf die Demo Seite kommen und es nutzen können.

Ghost1848 · 15.04.2026

Hallo und danke für die ausführliche Antwort.
Ich habe jetzt gelesen das man sehr viel Arbeitsspeicher und eine gute Grafikkarte braucht, daher vermute ich das ich es gar nicht erst versuchen brauche.
Ich habe eine GeForce RTX 2060 mit 6GB RAM in meinem Notebook
Der Hauptprozessor ist ein Intel i7-9750CPU 2.60Ghz, 2592MHz mit 6 Kernen und 12 logischen Prozessoren
Mein Arbeitsspeicher beträgt lächerliche 16 GB

Hoto · 15.04.2026

Ghost1848 schrieb:
Hallo und danke für die ausführliche Antwort.
Ich habe jetzt gelesen das man sehr viel Arbeitsspeicher und eine gute Grafikkarte braucht, daher vermute ich das ich es gar nicht erst versuchen brauche.
Ich habe eine GeForce RTX 2060 mit 6GB RAM in meinem Notebook
Der Hauptprozessor ist ein Intel i7-9750CPU 2.60Ghz, 2592MHz mit 6 Kernen und 12 logischen Prozessoren
Mein Arbeitsspeicher beträgt lächerliche 16 GB

Ja, diesen Unsinn verbreiten einige Unwissende leider immer wieder und es hält sich hartnäckig.

KI Modelle kann man quantisieren (einfach gesagt statt das Modell in 16 oder gar 32bit zu nutzen, nutzt man es in 8 oder gar 4bit), dadurch werden sie erheblich kleiner und benötigen viel weniger VRAM wobei sie, wenn man es nicht übertreibt, nur wenig Qualität einbüßen. Oftmals gilt 4bit so als der Punkt, den man nicht unterschreiten sollte. 4bit ist quasi das maximale an Gewinn ohne zu viel Verlust. Gerade bei TTS merkt man das oftmals auch gar nicht.

Omnivoice hat bei mir in 32bit bereits nur 5GB VRAM verbraucht, was allerdings auf nach ein paar Generierungen auf 10GB VRAM anstieg, was auf einen sehr groß eingestellten KV Cache schließen lässt, der lässt sich deutlich verkleinern. Allerdings braucht auch der Context VRAM, sprich es kommt auch darauf an wie viel Text du in einem Rutsch in Sprache umwandeln willst. Wenn es viel Text ist braucht du einen größeren KV Cache, wenn du den Text aufteilen kannst, dann lässt sich auch der KV Cache deutlich verkleinern. Und auf Huggingface gibt es eine 16bit Version von Omnivoice, mit der könnte man auch bereits gut VRAM sparen. Da müsste man aber noch eine Datei editieren, damit die Demo das Modell nutzt, ist aber keine große Sache, nur ein Name anpassen.

Fazit: 6GB VRAM reicht. Gerade TTS Modelle brauchen nicht viel VRAM. Chatterbox, was ich in meinem ersten Post genannt habe, ist bereits eines der TTS Modelle, dass mit seinem VRAM Verbrauch eher aus der Rolle fällt. Viele TTS benötigen 3-4 GB VRAM. Ich würde es aber mit Omnivoice zuerst versuchen, ist aktuell meiner Meinung nach das beste deutsche Modell und vor allem extrem schnell, was bei einer langsameren GPU definitiv auch von Vorteil ist.

Ein Text von ~4-5 Sekunden Audio generiert das Modell auf meiner 4090 in ~1-2 Sekunden. Das wird eine mobile RTX 2060 natürlich nicht schaffen, aber es dürfte auch nicht quälend langsam werden. Ansonsten wäre ein 4bit Versuch auch noch etwas, weil das auch die Geschwindigkeit noch mal erhöht, aber es könnte sein, dass man für eine perfekte Ausgabe dann mehrmals generieren muss.

Ghost1848 · 15.04.2026

Es tut mir Leid wenn ich dumm frage, aber bekomme ich dann eine Programmoberfläche wo ich eine Stimme auswähle und den Text rein kopiere und möglichst noch die Lesegeschwindigkeit einstellen kann?
Ich kenne mich mit Programmierung und besonders Python gar nicht aus. Wenn man das alles als Code eingeben muss, bin ich da wohl leider überfordert

Ich habe versucht Python so zu installieren wie Du es geschrieben hast. Aber was genau meinst Du mit "Konsole"? Ich habe es über cmd und powershell versucht.
Ich erwähne mal vorsichtshalber das ich die Windows 11 Home habe.

Hoto · 15.04.2026

Ja, ich meinte primär cmd damit, powershell hatte ich selbst nie genutzt und nun bin ich unter Linux unterwegs, dort ist die Konsole quasi die cmd Variante von Linux.

Was du bekommst mit meiner Anleitung oben ist dieses Demo Interface: https://huggingface.co/spaces/k2-fsa/OmniVoice

Damit kann man schon viel machen und gerade diese Modell bietet auch an die Sprachgeschwindigkeit einzustellen oder auch die Länge in Sekunden, was bei meinen Tests oft zuverlässiger funktioniert, aber vorher schwer abzuschätzen ist wie lang das Audio am Ende sein sollte damit es von der Geschwindigkeit her passt.

Wenn dir Node basiert lieber wäre, könntest du auch ComfyUI nutzen, einfach mal danach googeln. Ansonsten kann auch ChatGPT/Gemini bei der Einrichtung generell gut helfen.

Ghost1848 · 15.04.2026

Also ich bekam nach ausführen von "omnivoice-demo --ip 0.0.0.0 --port 8001" eine längere Fehlermeldung in der unter anderem Stand das ich Python als Admin ausführen solle. Bis dahin hatte alles geklappt, wobei ich Python über den Browser heruntergeladen habe. Da dort was von AMD steht, habe ich womöglich die falsche Version installiert?

Jedenfalls habe ich Python dann als Admin ausgeführt und er nimmt beide Befehle nicht an (siehe Screenshot):

Beitrag automatisch zusammengeführt: 15.04.2026

Ich habe die online Version davon gerade mal getestet, ist ja ziemlich gut, nur das nach jedem zweiten Satz das ein bestimmtes Wort gesagt wird , ich glaube "Aus" ?? Das ist doch hoffentlich in der installierten Version nicht der Fall? Sonst macht es ja wenig Sinn.

Hoto · 15.04.2026

Ah, nein, klassischer Fehler. Du bist in die Python Konsole rein, du sollst das alles über die normale Windows cmd Konsole machen. Die Python Version ist aber schon mal richtig.

Was für eine längere Fehlermeldung kam? Pack das einfach hier in einen Spoiler Tag.

Noch ein Hinweis, ich dachte eigentlich eher an ein C:\tts\Omnivoice\venv... aber in C:\tts direkt rein ohne extra Unterverzeichnis ist jetzt auch nicht weiter schlimm, sollte trotzdem gehen.

Ghost1848 · 15.04.2026

Das ist die Meldung die kommst (ich weiß nicht was Du mit Spoiler Tag meinst) , dass oben in der Leiste, nimmt ja nur Eingaben an, und aus cmd kann ich die nicht kopieren, daher das Bild.

@Hoto
Ich habe es jetzt zum Laufen gebracht, aber bei der Online Version baut in jeden Satz min. ein "Alles" ein. Kann man das irgendwie abschalten? Sonst ist die Software ja unbrauchbar. Ich will ja keine Sprachausgabe die alle 10 sec. "alles" sagt.

Gouvernator · Heute um 07:03

Ihr braucht ein Agent Leute. Mit Qwen3.6-27B Q4_k_m hat er mir die TTS Repos selbst runtergeladen und installiert. Sogar uralte Repos mit incompatiblen Versionen hat er hinbekommen. Er sucht und installiert passende Pytorches, CUDAs ect. und programmiert was selber nach in den Scripten damit es läuft.

Ghost1848 · Heute um 10:54

Könntest Du das für einen Leihen näher erläutern? Ich hatte Qwen3.6 herunter geladen aber dann kamen 3 Optionen, und die kostenlose Variante ging nur bis einen Tag vor meinem Download.

Daher würde ich gerne Deinen Weg versuchen. Oder ist das auch nur eine Demoversion?

Gouvernator · Heute um 11:15

Du brauchst Hermes Agent auf deinem PC. Der als Basis Qwen3.6-27B hat. Und wenn er läuft, kannst du ihm auf beliebige Github Repo zeigen. Er ließt sich ein dort und installiert alles auf deinem PC. Im Grunde musst du nur Allow-Buttons klicken bis irgendeine WebUI Oberfläche erscheint mit der installierten Github App. Wenn man Hermes Agent betreibt und API Tokens kaufen muss, dann achtet eher auf Input-Token Kosten. Ich hab in einer Woche 90 Millionen davon verbrannt.

Ghost1848 · Heute um 11:26

Also muss man diese Token kaufen um Qwen zu nutzen?

Gouvernator · Heute um 11:41

Ghost1848 schrieb:
Also muss man diese Token kaufen um Qwen zu nutzen?

Meiner läuft auf dem PC als Q4_KM Quant. Es ist entweder eine 5090 vonnöten oder 2x16gb VRAM GPUs.

Ghost1848 · Heute um 12:25

Mir ging es darum ob man das Qwen kostenlos nutzen kann, oder in irgendeiner Form bezahlen muss. Ich wäre ja auch gewillt was zu bezahlen, wenn dann uneingeschränkt nutzbar wäre. Nur leider sind bei den meisten Anbietern ja dann selbst bei monatlichem Beitrag, die Anzahl der Zeichen stark begrenzt.

[Sammelthread] STT/TTS - Sprache zu Text und Text zu Sprache - Allgemeine Diskussionen

Legende

Urgestein

Legende

Legende

Neuling

Legende

Neuling

Legende

Neuling

Legende

Neuling

Legende

Neuling

Enthusiast

Neuling

Enthusiast

Neuling

Enthusiast

Neuling