
Stellen Sie sich vor, Ihr Unternehmen könnte stundenlange manuelle Dokumentenarbeit in wenigen Sekunden erledigen – und das präziser, schneller und effizienter als je zuvor. Eine Wunschvorstellung? Wohl kaum, die SAP möchte das Gegenteil beweisen. Mit der neuesten KI-Funktion „Document Information Extraction“ ist es möglich, Informationen aus verschiedenen Dokumenten zu extrahieren und diese strukturiert in der Systemlandschaft bereitzustellen. Zum Einsatz kommt hierbei „Intelligent Document Processing (IDP)“, das es möglich macht, unstrukturierte Daten (Unstructured Data) aufzubereiten. In welcher Form KI sich hierbei einfindet und wie die Nachhaltigkeit solcher Anwendungen aussieht, erfahren Sie im folgenden Beitrag.
Alles auf einen Blick
Unstrukturierte Daten, wie sie in E-Mails, Textdokumenten oder Bildern vorkommen, stellen einen noch weitgehend unerschlossenen Wert dar. Sie enthalten oft wertvolle Informationen, die mit traditionellen Methoden schwer zugänglich sind. Intelligent Document Processing (IDP) macht dies möglich.
Der neueste KI-Service für die BTP „Document Information Extraction“ verkörpert die Technologie IDP. Hierdurch wird der Dokumentenverarbeitungsprozess automatisiert, was sowohl die Verarbeitungszeit verkürzt als auch die Fehlerquote minimiert. Gleichzeitig wird die Genauigkeit der Datenextraktion erheblich verbessert.
Document Information Extraction trägt zur Reduzierung des CO₂-Fußabdrucks bei, indem es den Papierverbrauch und den Energieaufwand für die manuelle Dokumentenverarbeitung verringert.
2025 wird der Document Information Service um Funktionen wie Dokumentenübersetzungen, Excel-Verarbeitung und Dokumenten-Workflows erweitert. Zudem wird die automatische Verarbeitung von E-Mail-Anhängen ermöglicht.
Schatzsuche im Datendschungel
Daten sind der Treibstoff, der den Betrieb von KI-Modellen überhaupt ermöglicht. Hierbei gilt, je besser der Treibstoff ist, umso besser läuft der Motor. Aber weg von Motoren und Treibstoff, wieder zurück zu Daten. Ein Unternehmen produziert im Schnitt 4-mal mehr unstrukturierte Daten, als es über strukturierte Daten verfügt. Mit anderen Worten, jedes Unternehmen sitzt auf einer Goldgrube, ohne es vielleicht direkt zu wissen.
Definition: „Unstrukturierte Daten bezeichnen Datensätze, die keinem festen Format folgen, wie beispielsweise E-Mails, Dokumente, Bilder oder Audiodateien.“
Diese Art von Daten lässt sich nicht direkt in Tabellen abbilden und erfordert eine Aufbereitung zu sogenannten „guten Daten“. Gute Daten zeichnen sich durch hohe Qualität, Konsistenz und Aktualität aus, sodass sie verlässliche Entscheidungsgrundlagen bieten. Welche unstrukturierten Daten sollten denn nun zu guten Daten umgewandelt werden? Einfach gesagt, all diese, die einen Anwendungsgedanken bereichern. Dementsprechend steht und fällt der Nutzen von guten Daten mit dem Konzeptsanierungsgedanken. Ist dieser nicht gut durchdacht, können Daten schnell obsolet werden.
Effiziente Analyse mit Intelligent Document Processing
Intelligent Document Processing ermöglicht es, die zuvor identifizierten unstrukturierten Daten aufzubereiten. Anstatt unstrukturierte Daten zeitaufwändig manuell zu durchsuchen, ermöglicht IDP eine automatisierte, KI-gestützte Extraktion relevanter Informationen aus vielfältigen Dokumentenformaten. Diese Technologie kombiniert maschinelles Lernen und natürliche Sprachverarbeitung, um Daten schnell und präzise zu strukturieren und in eine nutzbare Form zu überführen.
Damit können Unternehmen nicht nur den Aufwand in der Dokumentenverarbeitung erheblich reduzieren, sondern auch fundierte Entscheidungen schneller treffen. Des Weiteren ermöglicht das Monitoring eine kontinuierliche Optimierung der Effizienz und eine Reduzierung der Fehlerquote im Verlauf der Datenverarbeitung.
So unterstützt KI
Das „I“ in IDP steht für „Intelligent“ und bezieht sich auf die Nutzung Künstlicher Intelligenz. Zum Auslesen von Businessobjekten werden Natural Language Processing (NLP) und Optical Character Recognition (OCR) eingesetzt. Die Algorithmen ermöglichen das Klassifizieren, Kategorisieren und Extrahieren von Daten aus verschiedenen Dokumentformaten. Diese Eigenschaften verkörpert SAPs neuster AI-Service „Document Information Extraction“. Neben benutzerfreundlichen Anpassungsfähigkeiten für verschiedene Dokumentformate ermöglichen die Funktionen auch die Unterstützung von 40 verschiedenen Sprachen. Darüber hinaus lässt sich eine direkte Integration in SAP-Systeme realisieren, die eine kontextbezogene Weiterverarbeitung erlaubt. Die Integration des Services erfolgt über die Plattform SAP Build.
Für die Extraktion der Daten sind drei essenzielle Schritte notwendig.
Zuerst muss ein Schema erstellt werden, in dem die zu selektierenden Felder enthalten sind, siehe Abbildung 2.

Abbildung 2: Ausschnitt des Document Information Extraction Services aus einem SAP-Trial-Account - Erstellung eines Schemas
Ein Schema kann nachträglich angepasst werden. Dabei ist zu beachten, dass bei jeder Änderung eines Schemas eine neue Version erstellt wird, die anschließend einem Dokument erneut zugewiesen werden muss. Im zweiten Schritt muss ein neues Dokument angelegt werden. Dabei sollte darauf geachtet werden, die korrekte Schema-Version zu verwenden, siehe Abbildung 3.

Abbildung 3: Ausschnitt des Document Information Extraction Services aus einem SAP-Trial-Account - Verwendung der korrekten Schema-Version
Der dritte Schritt umfasst das Hochladen der Datei sowie die manuelle Anpassung. Letztere beinhaltet die Justierung der blauen Boxen, die die Extraktionsfläche definieren. Zudem besteht die Möglichkeit, die prozentuale Genauigkeit der Extraktionsergebnisse über farblich gekennzeichnete Schaltflächen festzulegen, siehe Abbildung 4. Diese Genauigkeit kann je nach Auflösung und Lesbarkeit des Dokuments variieren.

Abbildung 4: Ausschnitt des Document Information Extraction Services aus einem SAP-Trial-Account - Festlegung der prozentualen Genauigkeit der Extraktionsergebnisse
Weitere AI Use Cases
Neben der Extraktion von unstrukturierten Daten müssen diese auch weiterverarbeitet werden. Hierzu gibt es verschiedene KI Use Cases die seitens der SAP angeboten werden. Ein Anwendungsfall ist das automatische Erstellen von Kundenaufträgen aus unstrukturierten Daten. Mit dieser App lassen sich unstrukturierten Quellformaten (wie PDF-Dateien) extrahieren und in Kundenaufträge umsetzen. Die Funktionsweise, Implementierung und der Kernprozessablauf sind hier zu finden.
Ein weiterer spannender Anwendungsfall für die extrahierten Daten könnte die automatische Vervollständigung von unvollständigen Verkaufsbelegen sein. Mithilfe dieser Lösung für maschinelles Lernen werden fehlende Felder anhand von intelligenten Empfehlungen automatisch ergänzt. Der Prozess umfasst das Anlegen von Verkaufsbelegen, die Überwachung der Vervollständigung und die Bestätigung der Vorschläge, was eine termingerechte und effiziente Bearbeitung von Kundenaufträgen ermöglicht, und die Zahl unvollständiger Belege reduziert. Genaueres hierzu ist unter diesem Link zu finden.
Nachhaltigkeit
Zusätzlich zu den Vorteilen trägt die Document Information Extraction wesentlich zur Nachhaltigkeit bei, indem sämtliche Prozesse von der manuellen Dateneingabe bis hin zur Archivierung automatisiert ablaufen. Hierdurch wird der Arbeits- sowie der Energieaufwand reduziert. Mit IDP werden Rechnungen direkt aus verschiedenen digitalen Quellen extrahiert, verarbeitet und in die relevanten Systeme integriert, ohne dass Mitarbeiter Zeit für die manuelle Eingabe aufwenden müssen. Dies spart nicht nur Zeit und Arbeitskraft, sondern minimiert auch den Energieverbrauch für die manuelle Bearbeitung und Speicherung von Dokumenten. Dadurch wird der gesamte Prozess deutlich ressourcenschonender und energieeffizienter, was zu einer nachhaltigen Reduktion des CO₂-Fußabdrucks beiträgt.
Zukunftsausblick
Die Entwicklung des Document Information Extraction Service wird in diesem Jahr weitere Anpassungen und neue Einsatzmöglichkeiten erfahren, siehe Abbildung 5. Für das erste Quartal 2025 plant SAP, eine Funktion zur Übersetzung von Dokumenten zu integrieren, wodurch die Überprüfung von Dokumenten in Fremdsprachen erleichtert wird. Zusätzlich soll ab dem ersten Quartal die Verarbeitung von Excel-Dateien ermöglicht werden.
Im zweiten Quartal 2025 wird die Einbindung von Dokumenten-Workflows vorgesehen. Dadurch entfällt die Notwendigkeit, Extraktionsfelder für jedes einzelne Dokument separat zu erstellen. Es reicht aus, lediglich die benötigten Felder zu definieren. Beispielsweise können Vor- und Nachnamen verschiedener Lieferanten aus unterschiedlichen Formaten, wie PDF-Dateien oder Scans, extrahiert werden. Der Dokumenten-Workflow übernimmt hierbei die Verarbeitung des Schemas, ohne dass jedes Dokument manuell angepasst werden muss.
Darüber hinaus soll es im zweiten Quartal möglich sein, E-Mails aus Postfächern auszulesen und deren Anhänge automatisch zu verarbeiten. Ein umfassender Überblick über die gesamte Roadmap ist hier zu finden.

Abbildung 5: Ausblick Document Information Extraction Service in Anlehnung an die AI-Roadmap der SAP
Fazit
Document Information Extraction bietet Unternehmen die Möglichkeit, ihre Dokumentenverarbeitung nicht nur effizienter, sondern auch nachhaltiger zu gestalten. Durch die Nutzung von maschinellem Lernen zur automatischen Extraktion und Verarbeitung von Daten aus unstrukturierten Dokumenten, können sowohl Zeit als auch Ressourcen gespart werden. Der Einsatz von Document Information Extraction reduziert nicht nur den manuellen Aufwand und die Fehleranfälligkeit, sondern führt auch zu einem geringeren CO₂-Ausstoß, da der Energieverbrauch minimiert wird.
Eine genaue Angabe zur Effizienzsteigerung lässt sich aufgrund variierenden Geschäftskontexte pauschal nicht festlegen. Allerdings wird die Effizienzsteigerung auf zwischen 50 % und 70 % geschätzt.
Aus einem breiteren Blickwinkel betrachtet lässt sich zusammenfassen, dass Intelligent Document Processing ein essenzielles Zahnrad der großen AI-Maschinerie abbildet. Die Technologie macht es für AI-Modelle erst möglich, Business-relevante Entscheidungen zu generieren durch die Aufbereitung von unstrukturierten Daten.
Quellen:
- https://www.forbes.com/councils/forbestechcouncil/2024/05/24/how-ai-can-unlock-the-power-of-unstructured-data/
- https://www.ibm.com/blog/unstructured-data-trends/
- https://discovery-center.cloud.sap/viewServices?category=ai
- https://parashift.io/ai-powered-document-processing-is-your-gateway-to-sustainability/
- https://www.ibm.com/blog/unstructured-data-trends/
- https://www.docsumo.com/blogs/intelligent-document-processing/artificial-intelligence