Speech to text mit Speaker Diarization (deutsch) Windows + Android App

ChckNrrs

Profi
Thread Starter
Mitglied seit
02.12.2021
Beiträge
181
Hallo,

ich habe nach Google Sucherei und nicht funktionierenden Chat GPT Vorschlägen
(inkl. totalem Müll aus Sri Lanka, der als bestes Tool von Chat GPT empfohlen wird)
kapituliert und brauche eure Hilfe. Ich suche

eine Windows Anwendung:

- speech to text, deutsch
- bestehende Audio Aufnahmen oder live Transkription
- primär: Upload von Audiodateien (Dateiformat: .mp3)
- Audiodateien bis 4 h Länge
- sekundär: live Transkription
- Speaker Diarization
- qualitativ sehr gute Ergebnisse !
- Installation und Bedienung mit einer GUI wünschenswert
- Datenschutz irrelevant
- darf Geld kosten

Ich bin an der Einrichtung von Whisper verzweifelt, mit Whisper X gibt's da ja wohl auch Speaker Diarization.

Whisper.cpp von Const-me (ohne Diarization) hat extrem schlecht funktioniert. Mehr als die Hälfte des Uploads nicht erkannt, Sätze mehrfach in der Textdatei (bis zu 20x hintereinander), ...

Aber wenn ihr eine aktuelle Schritt für Schritt Anleitung habt, würde ich es nochmal ausprobieren. Soll ja der Gold Standard sein.

Android

- wie oben
- aber primär für live Transkription

Vielen Dank an euch vorab!!!
 
Zuletzt bearbeitet:
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Auf Arbeit haben wir Dragon im Einsatz. Damit bin ich soweit zufrieden, kostet halt 2,50
 
Moin, und danke für deinen Post @VL125

Nuance Dragon (Professionell), richtig?

Asynchrone Backend Transkription (Audiodatei Upload) wird wohl unterstützt.

Unterstützt es auch Speaker Diarization?
Habe mal recherchiert, scheint nicht so zu sein.

Wahnsinn, bei

AWS Amazon Cloud Services

Google Cloud Services

Microsoft Azure AI

wird wohl überall vorausgesetzt, dass man selber Skripte erstellt, sich ggf. mit Python auskennt.

Gibt es da keine nutzerfreundliche Lösung mit grafischer Oberfläche?

Audio Datei Upload -> Text Datei Output (mit Speaker Diarization)
 
Zuletzt bearbeitet:
Ich probiere jetzt erstmal speechpulse.com, danach aTrain. Scheint beides Whisper basiert.

speechpulse ähnelt sehr whisper.cpp von const.me, das bei mir sehr schlechte Ergebnisse geliefert hat.

Aber schreibt gerne mal eure Erfahrungen und Tipps.

Ggf. freue ich mich auch über ein für Laien verständliches Tutorial zu Whisper und Whisper X. Danke euch vorab!
 
Zuletzt bearbeitet:
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh