ABBYY FineReader Engine ABBYY FineReader Engine

Das umfassendste OCR SDK für Softwareentwickler

Integrieren Sie KI-basierte OCR-Funktionen in Ihre Applikationen.

Erkennung: ein komplettes Set von Erkennungstechnologien

Für die eigentliche Texterkennung bietet ABBYY FineReader Engine umfassende Erkennungstechnologien. Dazu gehört die Erkennung von Maschinenschrift (OCR), Handschrift (ICR), optischen Markierungen (OMR) und Barcodes (OBR). Als Marktführer bietet ABBYY die größte Auswahl an OCR-Sprachen, die individuell kombiniert werden können. Im Folgenden finden Sie eine Liste der verfügbaren Technologien und Verarbeitungsoptionen.

Die OCR-Technologie ist verfügbar für über 200 Sprachen

  • Europäische Sprachen (lateinische, kyrillische, armenische, griechische Zeichensätze)
  • Nicht-europäische Sprachen: Chinesisch, Japanisch, Koreanisch, Arabisch, Farsi, Thai, Vietnamesisch, Hebräisch, Burmesisch (Vorschau)
  • FineReader XIX – für alte Dokumente, Bücher und Zeitungen, die von 1600 bis 1937 auf Englisch, Französisch, Deutsch, Italienisch und Spanisch in alten Schriftarten wie Fraktur, Schwabacher und Gothic publiziert wurden
  • Erkennung von OCR-A, OCR-B, MICR (E13B) und CMC7-Fonts und Dokumenten, die mit Nadeldruckern gedruckt oder auf Schreibmaschinen geschrieben wurden

Die ICR -Technologie ist verfügbar für über 120 Sprachen

  • Europäische und nicht-europäische Sprachen
  • 22 regionale Handschriftenstile
  • Erkennung von Handschrift in Feldern und Rahmen
  • ICR für indische Zahlen, die in arabischen Staaten verwendet werden

Erkennung von handschriftlichen Informationen in verschiedenen Sprachen (mehrsprachige ICR) möglich.

Die OMR-Technologie von ABBYY erkennt einfache Auswahlfelder, gruppierte Auswahlfelder, Modell-Auswahlfelder und Auswahlfelder mit handschriftlichen „Korrekturen“ in verschiedenen Variationen:

  • Auswahlfelder in eckigen Rahmen
  • Auswahlfelder vor leerem Hintergrund
  • Unkonventionelle Typen von Auswahlfeldern (Apprentissage erforderlich)
  • 1D und 2D Barcodes
  • Schnelle Extrahierung von Barcodes. Diese Funktion ermöglicht die automatisierte Identifikation und Erkennung von Barcodes auf einem Dokument, unabhängig wo es sich auf der Seite befindet.

Erkennungsmodi

Durch Definition eines Erkennungsmodus können Entwickler den Prozess schneller in Gang bringen und die Genauigkeit der Verarbeitung erhöhen. Neben dem Standardmodus können sowohl OCR- als auch ICR-Erkennung auch im normalen, schnellen und ausgewogenen Erkennungsmodus durchgeführt werden:

  • Erkennung im Normal Modus

    Der genaueste Modus, um die höchsten Erkennungsergebnisse zu erzielen, z.B. wenn Sie den gewonnenen Inhalt der Dokumente weiterverwenden möchten.

  • Fast-Mode-Erkennung

    Dieser Modus erhöht die Verarbeitungsgeschwindigkeit um 200-250 %, ideal für Content-Management (CMS), Dokumentenmanagement (DMS) und Archivierungssysteme.

  • Erkennung im Balanced Mode

    Dieser Modus bietet eine höhere Geschwindigkeit als der Normal-Modus bei einer fast ebenso hohen Genauigkeit.

Volltext- und Field-Level-Erkennung

Allgemein sind zwei Arten der Erkennung möglich: Volltext- und Felderkennung. Die Volltexterkennung wird für die Konvertierung von Dokumenten verwendet und arbeitet normalerweise mit der OCR-Technologie. Die Felderkennung wird für die Extraktion bestimmter Daten eingesetzt und arbeitet mit OCR, ICR und anderen Technologien.

Die folgende Tabelle zeigt die Unterschiede:

Spezifikation Volltext-Erkennung Field-Level-Erkennung
Verwendet für: Dokumentenkonvertierung, Archivierung von Büchern Data Capture / Datenerfassung
Dokumentenanalyse: Allgemeine Dokumentenanalyse, Dokumentenanalyse für Rechnungen, Dokumentenanalyse für Volltext-Indexierung Manuelle Spezifizierung der Blöcke für Field-Level-Erkennung
Erkennungstechnologien: OCR mit einer Genauigkeit bis 99% OCR, ICR, OMR, Barcode-Erkennung mit vordefinierten Datentypen und möglichen Werten. Genauigkeit von 99,99%
Verifizierung: Empfohlen (falls Inhalt weiterverwendet werden soll) Obligatorisch (da in den meisten Fällen die Genauigkeit entscheidend ist)
Synthese Verwendet für die Dokumentenrekonstruktion Nicht angewendet
Exportformat Dokumentdateien (RTF, DOC, PDF, etc.) Export zu XML-Datei oder Datenbank

Volltext-Erkennung ist die Grunderkennungsart für unterschiedliche Aufgaben, z.B.:

  • Konvertierung von Dokumenten und Büchern für Archivierung
  • Dokumentenkonvertierung zur Weiterverwendung des Inhalts
  • Grundsätzliche Extrahierung von Text zur Identifikation von Feldern und Dokumentenklassifizierung


All diese Aufgaben machen die Erkennung (OCR) des gesamten Textes notwendig. Der erkannte Text wird als reiner Text oder als ein Dokument in einem definierten Dateiformat ausgegeben.

Zur Unterstützung wichtiger Geschäftsprozesse wie der Verarbeitung von Formularen, Stichwortklassifizierung, Machine Vision oder Robotic Process Automation extrahiert ABBYY FineReader Engine Text aus Feldern oder Bereichen. Zu den wichtigsten Funktionen zählen die mehrsprachige OCR- und ICR-, OMR- und Barcode-Erkennung sowie spezifische Funktionen wie:

  • Datenextraktion aus Feldern mit unterschiedlichen Begrenzungen und Rahmen
  • Definition des Feldinhalts durch Festlegen von Zeichensätzen, Wörterbüchern, regulären Ausdrücken, Arten der Segmentierung, Handschriftstilen, etc.
  • Erkennung von Zeichenabständen innerhalb eines Feldes
  • Intelligente Verarbeitung von Blöcken mit unterbrechenden Teilen und Linien
  • "Säubern" von Textblöcken, mit der Möglichkeit, die Größe der weißen oder schwarzen "Verschmutzungen" zu definieren

Field-Level-Erkennung wird von den spezifischen Tools für Entwickler unterstützt, wie Voting API und "On-the-Fly" Tuning.

Benutzersprachen

Um die Erkennungsqualität zu erhöhen bietet ABBYY FineReader Engine eine API für die Erstellung und Bearbeitung von Erkennungssprachen, die Anpassung vordefinierter Erkennungssprachen und das Hinzufügen neuer Wörter zu den Benutzersprachen. Beispiele:

  • Um die Qualität der ICR-Erkennung in Formularen zu verbessern, können Sie Benutzersprachen verwenden, um die Art der Informationen zu beschreiben, die in jedes Feld eingegeben werden können (Postleitzahlen, Produktcodes, Zahlen).
  • Um die Erkennung von Produktcodes, Telefon- oder Passnummern zu verbessern, können Sie eine neue Erkennungssprache erstellen, die dem Programm hilft, bestimmte Arten von Daten zu lesen.

Muster Training

In den meisten Fällen kann FineReader Engine Texte auch ohne vorheriges Training erfolgreich auslesen. Bei der Erkennung dekorativer oder konturierter Schriftarten oder von Dokumenten in schlechter Qualität können eigene Muster erstellt werden, um die Erkennungsqualität zu verbessern.

Haben Sie Fragen? Testversion gewünscht?

Füllen Sie einfach das Formular unten aus und wir werden Sie in Kürze kontaktieren.

Mir ist bekannt, dass ich meine Einwilligung jederzeit mit Wirkung für die Zukunft ganz oder teilweise widerrufen kann.

Um Ihre Einwilligung zu widerrufen, gehen Sie bitte auf Webseite abbestellen oder senden Sie eine E-Mail an dataprotection@abbyy.com.

Ich stimme der Nutzung meiner persönlichen Daten entsprechend der Datenschutzerklärung zu.

Vielen Dank für Ihr Interesse an ABBYY Produkten

Ihre Anfrage wurde erfolgreich weitergeleitet. Der verantwortliche ABBYY Mitarbeiter für Ihre Region wird sich so bald wie möglich bei Ihnen melden.

Mit freundlichen Grüßen
Ihr ABBYY Europe Team