Die richtige KI finden

cosmiq85

Enthusiast
Thread Starter
Mitglied seit
19.09.2012
Beiträge
215
Ort
Heidelberg
Guten Morgen,

wir haben 2 Anwendungsszenarien bei uns in der Firma:
1. Ein Lieferschein, der immer gleich aussieht, wird per PDF OCR eingescannt und dann mittels KI Modell, Seriennummer und 2 Zählerstände ausgelesen.

Deutlich häufiger:
2. Eingescannte Seiten, meist mehr zwischen 20 und 40, auf denen ebenfalls Modell, Seriennummer und 2 Zählerstände stehen.

Mein Problem ist jetzt, dass ChatGPT hier recht häufig versagt und dann von x Seiten grade mal 3 ausliest.
Gemini kann, wenn es grade Lust hat, alle Seiten auslesen.
Manchmal bringt es von 30 Seiten aber nur 25 oder schlimmer, es fängt ab einer Seite in den 20ern an, einfach Zählerstände oder Seriennummern zu erfinden.

Ich benutze immer die gleiche Anfrage, bekomme aber nicht immer zuverlässige Ergebnisse.

Gibt es hier eine KI, die das besser kann ?
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Grundproblem dürfte schonmal sein, das du ein LLM auf Daten loslässt, die du einfach nur auslesen willst. Empfehlung hab ich keine, aber ein LLM ist da schon vom Grundprinzip her falsch.
 
Grundproblem dürfte schonmal sein, das du ein LLM auf Daten loslässt, die du einfach nur auslesen willst. Empfehlung hab ich keine, aber ein LLM ist da schon vom Grundprinzip her falsch.
Äh, nein? Natürlich wäre ein LLM falsch, das kann nur Text. Es geht ja um OCR und Text Erkennung und VLMs, wozu auch ChatGPT/Gemini gehören, die sind schon lange keine reine LLMs mehr, sind oft für OCR trainiert und können diese normal auch gut lesen.

Guten Morgen,

wir haben 2 Anwendungsszenarien bei uns in der Firma:
1. Ein Lieferschein, der immer gleich aussieht, wird per PDF OCR eingescannt und dann mittels KI Modell, Seriennummer und 2 Zählerstände ausgelesen.

Deutlich häufiger:
2. Eingescannte Seiten, meist mehr zwischen 20 und 40, auf denen ebenfalls Modell, Seriennummer und 2 Zählerstände stehen.

Mein Problem ist jetzt, dass ChatGPT hier recht häufig versagt und dann von x Seiten grade mal 3 ausliest.
Gemini kann, wenn es grade Lust hat, alle Seiten auslesen.
Manchmal bringt es von 30 Seiten aber nur 25 oder schlimmer, es fängt ab einer Seite in den 20ern an, einfach Zählerstände oder Seriennummern zu erfinden.

Ich benutze immer die gleiche Anfrage, bekomme aber nicht immer zuverlässige Ergebnisse.

Gibt es hier eine KI, die das besser kann ?
Das klingt danach, dass ihr das komplette PDF mit allen Seiten an ChatGPT/Gemini sendet. Je mehr Seiten es sind desto größer wird der Kontext und KIs haben Probleme über längeren Kontext konsistent zu arbeiten, sprich die Qualität und Zuverlässigkeit der KI sinkt.

Habt ihr vielleicht die Möglichkeit diese PDFs auf einzelne Seiten aufzusplitten, so das ihr jede Seite einzeln an die KI senden könnt? Das wäre wohl die einfachste und sicherste Lösung Falscherkennungen zu reduzieren.

Mir selbst fehlt die Erfahrung mit PDFs bei solchen Dingen, daher weiß ich nicht was für Möglichkeiten es bei dem Format gibt und wie einfach aufsplitten umzusetzen oder gar das zu automatisieren wäre.

Vielleicht wäre auch eines der stärkeren ChatGPT/Gemini Modelle leistungsfähiger dafür, falls ihr nicht schon das leistungsfähigste Modell dafür nutzt. Diese können mit größerem Kontext normal besser umgehen.
 
Zuletzt bearbeitet:
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh