ABBYY FineReader Engine ABBYY FineReader Engine

Das umfassendste OCR SDK für Softwareentwickler

Integrieren Sie KI-basierte OCR-Funktionen in Ihre Applikationen.

Dokumentenklassifizierung mit Machine Learning und NLPP

ABBYY FineReader Engine bietet eine API zur Dokumentenklassifizierung, mit der Sie Anwendungen erstellen können, die Dokumente automatisch kategorisieren und in vordefinierte Dokumentenklassen sortieren. Die fortschrittliche Dokumentenklassifizierung nutzt moderne Technologien wie maschinelles Lernen und maschinelle Verarbeitung natürlicher Sprache (NLP). Diese Technologien sind in der Lage, auch feinste Unterschiede zwischen den einzelnen Dokumentenkategorien zu erkennen und erlauben flexible und skalierbare Klassifizierungsprozesse, die eine granulare Unterscheidung zwischen vielen Dokumentenkategorien ermöglichen.

Der neue intelligente Image Classifier ist in der Lage, visuelle Informationen über Dokumentenbilder zu sammeln und zu verarbeiten und liefert schnelle Klassifizierungsergebnisse. Der erweiterte Text Classifier ist in der Lage, Informationen über den Inhalt der Dokumente zu extrahieren und zu verarbeiten, was die Klassifikationsgenauigkeit erhöht. Der Image Classifier und der Text Classifier können einzeln oder in Kombination verwendet werden.

Funktionsweise

Der Klassifizierungsprozess besteht im Wesentlichen aus drei Schritten:

  • 1

    Erstellung von Trainingsdaten für das Klassifikationstraining

    In diesem Schritt werden die gewünschten Dokumenttypen definiert. Für jede Dokumentklasse werden mehrere Dokumentbeispiele – mit ähnlichem Aussehen und/oder Inhalt – ausgewählt. Mit Hilfe von maschinellem Lernen und maschineller Verarbeitung natürlicher Sprache (NLP) analysiert die ABBYY-Technologie die Trainingsdokumente innerhalb jeder Dokumentenklasse und definiert Merkmale und Parameter, die zur Identifizierung der jeweiligen Dokumentenklasse verwendet werden sollen.

  • 2

    Training des Klassifikationsmodells

    In diesem Schritt werden Informationen über Dokumentenklassen und deren Parameter in das Klassifikationsmodell importiert und das Klassifikationsmodell wird trainiert. Das Modell kann Image Classifier, Text Classifier oder deren Kombination nutzen. Durch die Definition der Balance zwischen der Genauigkeit (Precision) und der Trefferquote (Recall) kann die Leistung optimiert werden. Zur Überprüfung der Qualität des Klassifikationsmodells ist es möglich, eine Kreuzvalidierung der Daten durchzuführen.

  • 3

    Einsatz der Klassifikation

    Während des Klassifizierungsprozesses analysiert das Klassifizierungsmodell jedes eingehende Dokument. Um den Dokumententyp korrekt zu bestimmen, berechnet das Klassifizierungsmodell die gewünschten Parameter für jedes Dokument und vergleicht sie mit den Informationen, die es während des Trainingsschritts erhalten hat. Entwickler können eine Routine erstellen, die es dem Anwender erlaubt, den Trainingsdatensatz flexibel zu aktualisieren und das Klassifikationsmodell neu zu trainieren.

Zusätzlich zu den Informationen über die erkannten Dokumententypen wird die Information über die Wahrscheinlichkeit, dass Dokumente zu ihnen gehören, bereitgestellt. Anhand der Wahrscheinlichkeitsinformationen können weitere Verarbeitungsschritte festgelegt werden, wie z.B. die Weiterleitung von Dokumenten an die entsprechenden Unternehmensbereiche oder deren Neuklassifizierung.

In der Dokumentation von ABBYY FineReader Engine wird der Klassifizierungsprozess durch ein Code-Beispiel veranschaulicht, das zum Testen verwendet, angepasst und in eigene Anwendungen integriert werden kann.

Klassifizierungsmodus

Je nach Einsatzszenario kann die Klassifizierung auf hohe Genauigkeit (High Precision), hohe Trefferquote (High Recall) oder eine Balance zwischen diesen optimiert werden.

  • High Precision Modus

    Dieser Modus wird in Szenarien empfohlen, in denen es wichtig ist, Dokumente in die richtigen Kategorien zu klassifizieren und die falsche Klassenzuordnung auf ein Minimum zu beschränken.

    Dokumente, die der Klasse A angehören, sollten wirklich der Klasse A und nicht der Klasse B angehören, während es als akzeptabel gilt, dass "unsichere" Dokumente der Klasse A nicht als solche eingestuft werden und weggelassen werden.

    Schwerpunkt: Dokumente präzise kategorisieren und das Risiko der Zuordnung zu falschen Dokumentenklassen begrenzen.

  • High Recall Modus

    Dieser Modus wird in Szenarien empfohlen, in denen es wichtig ist, alle Dokumente einer bestimmten Kategorie unter allen verfügbaren Dokumenten zu erkennen und das Risiko zu begrenzen, dass sie übersehen werden.

    Die zur Klasse A gehörenden Dokumente sollten in dem Dokumentenstapel nicht unentdeckt bleiben, während es akzeptabel ist, dass einige der als 'Klasse A' definierten Dokumente in Wirklichkeit zur Klasse B gehören können.

    Schwerpunkt: Innerhalb eines Dokumentenstapels alle zu einer bestimmten Klasse gehörende Dokumente zu identifizieren und das Risiko zu minimieren, sie auszulassen.

Haben Sie Fragen? Testversion gewünscht?

Füllen Sie einfach das Formular unten aus und wir werden Sie in Kürze kontaktieren.

Mir ist bekannt, dass ich meine Einwilligung jederzeit mit Wirkung für die Zukunft ganz oder teilweise widerrufen kann.

Um Ihre Einwilligung zu widerrufen, gehen Sie bitte auf Webseite abbestellen oder senden Sie eine E-Mail an dataprotection@abbyy.com.

Ich stimme der Nutzung meiner persönlichen Daten entsprechend der Datenschutzerklärung zu.

Vielen Dank für Ihr Interesse an ABBYY Produkten

Ihre Anfrage wurde erfolgreich weitergeleitet. Der verantwortliche ABBYY Mitarbeiter für Ihre Region wird sich so bald wie möglich bei Ihnen melden.

Mit freundlichen Grüßen
Ihr ABBYY Europe Team