Die richtige KI finden

cosmiq85

Enthusiast
Thread Starter
Mitglied seit
19.09.2012
Beiträge
216
Ort
Heidelberg
Guten Morgen,

wir haben 2 Anwendungsszenarien bei uns in der Firma:
1. Ein Lieferschein, der immer gleich aussieht, wird per PDF OCR eingescannt und dann mittels KI Modell, Seriennummer und 2 Zählerstände ausgelesen.

Deutlich häufiger:
2. Eingescannte Seiten, meist mehr zwischen 20 und 40, auf denen ebenfalls Modell, Seriennummer und 2 Zählerstände stehen.

Mein Problem ist jetzt, dass ChatGPT hier recht häufig versagt und dann von x Seiten grade mal 3 ausliest.
Gemini kann, wenn es grade Lust hat, alle Seiten auslesen.
Manchmal bringt es von 30 Seiten aber nur 25 oder schlimmer, es fängt ab einer Seite in den 20ern an, einfach Zählerstände oder Seriennummern zu erfinden.

Ich benutze immer die gleiche Anfrage, bekomme aber nicht immer zuverlässige Ergebnisse.

Gibt es hier eine KI, die das besser kann ?
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Grundproblem dürfte schonmal sein, das du ein LLM auf Daten loslässt, die du einfach nur auslesen willst. Empfehlung hab ich keine, aber ein LLM ist da schon vom Grundprinzip her falsch.
 
Grundproblem dürfte schonmal sein, das du ein LLM auf Daten loslässt, die du einfach nur auslesen willst. Empfehlung hab ich keine, aber ein LLM ist da schon vom Grundprinzip her falsch.
Äh, nein? Natürlich wäre ein LLM falsch, das kann nur Text. Es geht ja um OCR und Text Erkennung und VLMs, wozu auch ChatGPT/Gemini gehören, die sind schon lange keine reine LLMs mehr, sind oft für OCR trainiert und können diese normal auch gut lesen.

Guten Morgen,

wir haben 2 Anwendungsszenarien bei uns in der Firma:
1. Ein Lieferschein, der immer gleich aussieht, wird per PDF OCR eingescannt und dann mittels KI Modell, Seriennummer und 2 Zählerstände ausgelesen.

Deutlich häufiger:
2. Eingescannte Seiten, meist mehr zwischen 20 und 40, auf denen ebenfalls Modell, Seriennummer und 2 Zählerstände stehen.

Mein Problem ist jetzt, dass ChatGPT hier recht häufig versagt und dann von x Seiten grade mal 3 ausliest.
Gemini kann, wenn es grade Lust hat, alle Seiten auslesen.
Manchmal bringt es von 30 Seiten aber nur 25 oder schlimmer, es fängt ab einer Seite in den 20ern an, einfach Zählerstände oder Seriennummern zu erfinden.

Ich benutze immer die gleiche Anfrage, bekomme aber nicht immer zuverlässige Ergebnisse.

Gibt es hier eine KI, die das besser kann ?
Das klingt danach, dass ihr das komplette PDF mit allen Seiten an ChatGPT/Gemini sendet. Je mehr Seiten es sind desto größer wird der Kontext und KIs haben Probleme über längeren Kontext konsistent zu arbeiten, sprich die Qualität und Zuverlässigkeit der KI sinkt.

Habt ihr vielleicht die Möglichkeit diese PDFs auf einzelne Seiten aufzusplitten, so das ihr jede Seite einzeln an die KI senden könnt? Das wäre wohl die einfachste und sicherste Lösung Falscherkennungen zu reduzieren.

Mir selbst fehlt die Erfahrung mit PDFs bei solchen Dingen, daher weiß ich nicht was für Möglichkeiten es bei dem Format gibt und wie einfach aufsplitten umzusetzen oder gar das zu automatisieren wäre.

Vielleicht wäre auch eines der stärkeren ChatGPT/Gemini Modelle leistungsfähiger dafür, falls ihr nicht schon das leistungsfähigste Modell dafür nutzt. Diese können mit größerem Kontext normal besser umgehen.
 
Zuletzt bearbeitet:
Das klingt danach, dass ihr das komplette PDF mit allen Seiten an ChatGPT/Gemini sendet. Je mehr Seiten es sind desto größer wird der Kontext und KIs haben Probleme über längeren Kontext konsistent zu arbeiten, sprich die Qualität und Zuverlässigkeit der KI sinkt.

Habt ihr vielleicht die Möglichkeit diese PDFs auf einzelne Seiten aufzusplitten, so das ihr jede Seite einzeln an die KI senden könnt? Das wäre wohl die einfachste und sicherste Lösung Falscherkennungen zu reduzieren.

Klar könnte ich das einzeln machen aber das ist bei meist 40+ Seiten zeitlich ein ganz anderer Faktor als wenn ich 40 Zeilen von einer PDF auslesen lasse,
das würde nie funktionieren zeitlich.
Was ja, ich sag mal, an 3 von 5 Tagen einwandfrei funktioniert, nur an den anderen 2 hat Gemini dann zuviel Fantasie.
Entweder er zeigt dann alle 40 Zeilen, von denen ein paar frei erfunden sind oder er zeigt zb 25 Seiten und wenn ich dann darauf hinweise, dass die PDF 40 Seiten hat, kommen 29 und dabei bleibt es.

Ich kann nächste Woche mal versuchen, immer nur die Hälft einzulesen, so dass ich bei unter 20 Seiten bleibe. Wenn ich das ganze mit 2 PDFs statt einer machen kann und dabei das Problem gelöst ist, bin ich auch zufrieden.

Daher ja die Frage am Anfang, ob es eine KI jenseits Gemini/ChatGPT gibt, die das besser macht.
Gemini Pro haben wir
 
Naja es ist eine Frage wie viel ist einem das wert.

Ich würde das evtl über API und Agenten angehen z,.B,. wenn die Kontextlänge das Problem ist => pdfs automatisch spiltten lassen => erkennen lassen => erkanntes automatisch wieder zusammenfügen lassen.

Wenn das kein API Modell ist sondern "nur" ein Abomodell wqie Pro könnte es auch sein dass einfach an den schlechten Tragen ein kleineres Modell automatisch selektriert wird weil die Rechenleistung sparen. Schwankende Leistung ist da halt normal.

Evtl kannst ja mit Openrouter oder ähnlichem rumprobieren also mal Summe X in Tokens prepaid und schauen bringt das was oder nicht - dann sind die Kosten ja gedeckelt ohne Abo oder sonstwas# und Du kannst trotzdem prakltisch alle Modelle nutzen die es überhaupt gibt.

Oder du testest mal das hier https://cloud.google.com/document-ai das richtet sich an Enterprise Nutzer sollte also super optimiert sein - das was Du willst sind da halt vermutlich die 3 Cent / Seite oder wenn Daten selbst aus dem Text extrahiert werden 0,2 Cent / Seite.
 
Zuletzt bearbeitet:
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh