Die richtige KI finden

cosmiq85 · 14.05.2026

Guten Morgen,

wir haben 2 Anwendungsszenarien bei uns in der Firma:
1. Ein Lieferschein, der immer gleich aussieht, wird per PDF OCR eingescannt und dann mittels KI Modell, Seriennummer und 2 Zählerstände ausgelesen.

Deutlich häufiger:
2. Eingescannte Seiten, meist mehr zwischen 20 und 40, auf denen ebenfalls Modell, Seriennummer und 2 Zählerstände stehen.

Mein Problem ist jetzt, dass ChatGPT hier recht häufig versagt und dann von x Seiten grade mal 3 ausliest.
Gemini kann, wenn es grade Lust hat, alle Seiten auslesen.
Manchmal bringt es von 30 Seiten aber nur 25 oder schlimmer, es fängt ab einer Seite in den 20ern an, einfach Zählerstände oder Seriennummern zu erfinden.

Ich benutze immer die gleiche Anfrage, bekomme aber nicht immer zuverlässige Ergebnisse.

Gibt es hier eine KI, die das besser kann ?

KurantRubys · 14.05.2026

Grundproblem dürfte schonmal sein, das du ein LLM auf Daten loslässt, die du einfach nur auslesen willst. Empfehlung hab ich keine, aber ein LLM ist da schon vom Grundprinzip her falsch.

Hoto · 14.05.2026

KurantRubys schrieb:
Grundproblem dürfte schonmal sein, das du ein LLM auf Daten loslässt, die du einfach nur auslesen willst. Empfehlung hab ich keine, aber ein LLM ist da schon vom Grundprinzip her falsch.

Äh, nein? Natürlich wäre ein LLM falsch, das kann nur Text. Es geht ja um OCR und Text Erkennung und VLMs, wozu auch ChatGPT/Gemini gehören, die sind schon lange keine reine LLMs mehr, sind oft für OCR trainiert und können diese normal auch gut lesen.

cosmiq85 schrieb:
Guten Morgen,

wir haben 2 Anwendungsszenarien bei uns in der Firma:
1. Ein Lieferschein, der immer gleich aussieht, wird per PDF OCR eingescannt und dann mittels KI Modell, Seriennummer und 2 Zählerstände ausgelesen.

Deutlich häufiger:
2. Eingescannte Seiten, meist mehr zwischen 20 und 40, auf denen ebenfalls Modell, Seriennummer und 2 Zählerstände stehen.

Mein Problem ist jetzt, dass ChatGPT hier recht häufig versagt und dann von x Seiten grade mal 3 ausliest.
Gemini kann, wenn es grade Lust hat, alle Seiten auslesen.
Manchmal bringt es von 30 Seiten aber nur 25 oder schlimmer, es fängt ab einer Seite in den 20ern an, einfach Zählerstände oder Seriennummern zu erfinden.

Ich benutze immer die gleiche Anfrage, bekomme aber nicht immer zuverlässige Ergebnisse.

Gibt es hier eine KI, die das besser kann ?

Das klingt danach, dass ihr das komplette PDF mit allen Seiten an ChatGPT/Gemini sendet. Je mehr Seiten es sind desto größer wird der Kontext und KIs haben Probleme über längeren Kontext konsistent zu arbeiten, sprich die Qualität und Zuverlässigkeit der KI sinkt.

Habt ihr vielleicht die Möglichkeit diese PDFs auf einzelne Seiten aufzusplitten, so das ihr jede Seite einzeln an die KI senden könnt? Das wäre wohl die einfachste und sicherste Lösung Falscherkennungen zu reduzieren.

Mir selbst fehlt die Erfahrung mit PDFs bei solchen Dingen, daher weiß ich nicht was für Möglichkeiten es bei dem Format gibt und wie einfach aufsplitten umzusetzen oder gar das zu automatisieren wäre.

Vielleicht wäre auch eines der stärkeren ChatGPT/Gemini Modelle leistungsfähiger dafür, falls ihr nicht schon das leistungsfähigste Modell dafür nutzt. Diese können mit größerem Kontext normal besser umgehen.

cosmiq85 · 14.05.2026

Hoto schrieb:
Das klingt danach, dass ihr das komplette PDF mit allen Seiten an ChatGPT/Gemini sendet. Je mehr Seiten es sind desto größer wird der Kontext und KIs haben Probleme über längeren Kontext konsistent zu arbeiten, sprich die Qualität und Zuverlässigkeit der KI sinkt.

Habt ihr vielleicht die Möglichkeit diese PDFs auf einzelne Seiten aufzusplitten, so das ihr jede Seite einzeln an die KI senden könnt? Das wäre wohl die einfachste und sicherste Lösung Falscherkennungen zu reduzieren.

Klar könnte ich das einzeln machen aber das ist bei meist 40+ Seiten zeitlich ein ganz anderer Faktor als wenn ich 40 Zeilen von einer PDF auslesen lasse,
das würde nie funktionieren zeitlich.
Was ja, ich sag mal, an 3 von 5 Tagen einwandfrei funktioniert, nur an den anderen 2 hat Gemini dann zuviel Fantasie.
Entweder er zeigt dann alle 40 Zeilen, von denen ein paar frei erfunden sind oder er zeigt zb 25 Seiten und wenn ich dann darauf hinweise, dass die PDF 40 Seiten hat, kommen 29 und dabei bleibt es.

Ich kann nächste Woche mal versuchen, immer nur die Hälft einzulesen, so dass ich bei unter 20 Seiten bleibe. Wenn ich das ganze mit 2 PDFs statt einer machen kann und dabei das Problem gelöst ist, bin ich auch zufrieden.

Daher ja die Frage am Anfang, ob es eine KI jenseits Gemini/ChatGPT gibt, die das besser macht.
Gemini Pro haben wir

HansBohne · 14.05.2026

Naja es ist eine Frage wie viel ist einem das wert.

Ich würde das evtl über API und Agenten angehen z,.B,. wenn die Kontextlänge das Problem ist => pdfs automatisch spiltten lassen => erkennen lassen => erkanntes automatisch wieder zusammenfügen lassen.

Wenn das kein API Modell ist sondern "nur" ein Abomodell wqie Pro könnte es auch sein dass einfach an den schlechten Tragen ein kleineres Modell automatisch selektriert wird weil die Rechenleistung sparen. Schwankende Leistung ist da halt normal.

Evtl kannst ja mit Openrouter oder ähnlichem rumprobieren also mal Summe X in Tokens prepaid und schauen bringt das was oder nicht - dann sind die Kosten ja gedeckelt ohne Abo oder sonstwas# und Du kannst trotzdem prakltisch alle Modelle nutzen die es überhaupt gibt.

Oder du testest mal das hier https://cloud.google.com/document-ai das richtet sich an Enterprise Nutzer sollte also super optimiert sein - das was Du willst sind da halt vermutlich die 3 Cent / Seite oder wenn Daten selbst aus dem Text extrahiert werden 0,2 Cent / Seite.

Ahrimaan · 04.06.2026

Wenn ihr Richtung Plattform denkt und mehrere Prozesse miteinander verkette wäre zB AWS die Lösung:

OCR-Software, Datenextraktionstool – Amazon Textract – AWS

Amazon Textract ist ein Machine-Learning-Dienst (ML), der die optische Zeichenerkennung (OCR) verwendet, um Text, Handschrift und Daten aus gescannten PDF Dokumenten, Formularen und Tabellen zu extrahieren.

aws.amazon.com

Daten extrahieren und dann per Bedrock jegliche Modelle nutzen die du magst:

Amazon Bedrock – Generative KI-Anwendungen und -Agenten im Produktionsmaßstab erstellen – AWS

Amazon Bedrock: Die Plattform für die Entwicklung generativer KI-Anwendungen und -Agenten im Produktionsmaßstab

aws.amazon.com

Oder ihr testet mal Amazon Quick aus.

Amazon Quick

Amazon Quick ist der KI-Assistent für den Arbeitsalltag. Verbinden Sie Ihre Tools, Daten und Teams an einem Ort mithilfe von KI-gestützter Recherche, Business Intelligence, Dashboards und Automatisierung.

aws.amazon.com

Suche

Die richtige KI finden

cosmiq85

Enthusiast

KurantRubys

Legende

Hoto

Legende

cosmiq85

Enthusiast

HansBohne

Experte

Ahrimaan

Urgestein

OCR-Software, Datenextraktionstool – Amazon Textract – AWS

Amazon Bedrock – Generative KI-Anwendungen und -Agenten im Produktionsmaßstab erstellen – AWS

Amazon Quick

Ähnliche Themen