OCR (Optical Character Recognition)

Kategorie: KI-Konzepte und Methoden

Texterkennung in Bildern und Scans — wandelt Papier-Dokumente in maschinenlesbaren Text um.

Definition

Optical Character Recognition (OCR) ist die maschinelle Erkennung gedruckten oder handschriftlichen Texts in Bildern, Scans und PDF-Dokumenten und seine Umwandlung in maschinenlesbaren Text.

Bedeutung im Unternehmenskontext

OCR ist eine der ältesten praxisreifen KI-Disziplinen und im Mittelstand der Schlüssel zur Automatisierung von Backoffice-Prozessen: Eingangsrechnungen erfassen, Lieferscheine abgleichen, Verträge digitalisieren, Bewerbungsunterlagen einlesen, Schadenmeldungen aus Fotos extrahieren. Moderne KI-OCR kombiniert klassische Texterkennung mit Sprachmodellen — sie liefert nicht mehr nur den reinen Text, sondern strukturiert ihn direkt in Felder (Rechnungsnummer, Datum, Beträge, Positionen). Für sensible Dokumente (Personalakten, Mandantenakten, Patientenakten) gilt: OCR und nachgelagerte Analyse müssen DSGVO-konform — idealerweise on-premise oder in EU-Cloud — laufen.

Weiterführend bei KBD

KI im Backoffice

OCR — KI-Glossar | KI-Beratung Deutschland