Mit erweiterter Funktionalität adressiert diese Plattform der nächsten Generation vertikale Schlüsselmärkte
ABBYY stellt neues SDK FineReader Engine 7.0 vor
ABBYY Europe, ein Mitglied der ABBYY Gruppe und führender Hersteller von Dokumenten-Erkennung und linguistischen Technologien, hat heute die ABBYY FineReader Engine 7.0 angekündigt, die neueste Version ihres Software Development Kit (SDK). Sie bietet die Integration von ABBYYs Erkennungs-Technologien für OCR, ICR, OMR und Barcodes in Windows-Applikationen.
Mit der FineReader Engine 7.0 erweitert ABBYY die Einsatzmöglichkeiten ihrer Technologie erheblich, denn die neuen Funktionalitäten adressieren auch vertikale Schlüsselmärkte und sind vielfach einsetzbar, wie bei der Rechnungsverarbeitung, Archivierungssystemen für Bibliotheken und Applikationen für asiatische Märkte. Die FineReader Engine 7.0 beinhaltet neben Erweiterungen in der Kernplattform, allgemeinen Verbesserungen der Genauigkeit, der Dokumentenanalyse und der Export-Funktionen auch hoch entwickelte neue Module zur Erfassung älterer und historischer Texte, PDF-Dateien, Rechnungen, Barcodes und asiatischer Schriftzeichen.
„Das Ziel von ABBYY ist die Bereitstellung von Erkennungs-Technologien, mit denen Organisationen Dokumente in Daten umwandeln können, die verarbeitet, durchsucht, indiziert, editiert, gesendet oder tabellarisiert werden können. Mit dem Fortschritt bei den Erkennungstechnologien liegt die technologische Herausforderung jetzt darin, speziellere Text- und Dokumentenformate zu unterstützen“, erklärt Vadim Tereshchenko, Vice President FineReader Division bei ABBYY. „Mit FineReader 7.0 bieten wir neue Add-On Module mit bahnbrechenden Technologien an, die die Funktionalität unserer Software für vertikale Schlüsselmärkte erweitern.“
Die Version 7.0 der ABBYY FineReader Engine bietet Entwicklern die leistungsstarke Funktionalität eines High Level OCR-Systems, das bereits weltweit von vielen führenden Unternehmen wie Cardiff, Kofax, Panasonic, Saperion und ZyLab verwendet wird. ABBYY FineReader, die Flaggschiff-OCR-Applikation von ABBYY auf Basis der FineReader Engine, hat seit 1998 weltweit mehr als 100 Auszeichnungen gewonnen.
Verbesserungen der Plattform
Die FineReader Engine 7.0 basiert auf einer völlig neuen Erkennungsplattform und bietet folgende Verbesserungen:
- Erkennungsgenauigkeit
Die Verbesserungen der proprietären IPA-Technologie von ABBYY und zusätzliche Tools zur Feineinstellung der Erkennung erhöhen die Genauigkeit des FineReader gegenüber früheren Versionen deutlich. Ein wesentlicher Faktor für die höhere Erkennungsgenauigkeit von Buchstaben, Wörtern und Zeilen ist die Integration neuer „struktureller Zeichenmodelle“. Außerdem verbessern neue Bildvorverarbeitungs-Algorithmen die Erfassung von Dokumenten, in denen Text auf ein Bild gedruckt ist, niedrige Kontraste vorliegen und Seiten mangelhaft gescannt wurden. Diese Verbesserungen in der Genauigkeit beruhen auf der Weiterentwicklung von zwei Bildvorverarbeitungs-Technologien, die bei der Erkennung solcher Texte eingesetzt werden: Adaptive Binarisierung und Intelligente Hintergrundfilterung. Die Adaptive Binarisierung nutzt eine „dynamische“ oder „intelligente“ Threshold-Technologie, die den Bildkontrast Zeile um Zeile und Wort für Wort einstellt. Damit wird die Qualität der Zeichen optimiert, was zu höchst genauen Erkennungsergebnissen führt. Die intelligente Hintergrundfilterung beseitigt Texturen und Hintergrund-„Rauschen“, selbst auf komplexen oder beeinträchtigten Dokumenten, die eine korrekte Erfassung des Texts behindern könnten. - Verbesserte Dokumenten- und Bildanalyse
FineReader Engine 7.0 bietet mit der Multilevel Dokument Analyse (MDA) einen weiteren, neuen Algorithmus. Die MDA analysiert ein Dokument auf verschiedenen Ebenen – von den Zeichen über die Wörter, Zeilen, Absätze bis hin zum gesamten Dokument. Mit diesem hoch entwickelten Analyse-Algorithmus für Dokumente und Bilder „versteht“ die FineReader Engine alle Formatierungselemente eines Dokuments. Dadurch können Applikationen, die FineReader Engine integriert haben, komplexes Layout wie die Platzierung von Bildern und Spalten auf der Seite, die Formatierung von Tabellen und die Schriftgrößen übernehmen. Weitere Schlüsselvorteile sind die verbesserte Erkennungsgenauigkeit komplexer Tabellen, mehrspaltiger Dokumente mit Bildern, HTML-Formatierungen und Aufzählungszeichen.
Neue Export- und Synthesemöglichkeiten
ABBYY FineReader 7.0 liefert auch deutliche Verbesserungen für den Export und die Synthese von Dokumenten. Sie beinhalten:
- Verbesserten PDF-Export. FineReader Engine erzeugt jetzt „linearisierte“ PDF-Dateien, die für eine Veröffentlichung im Web optimiert sind.
- Verbesserten WYSIWYG-HTML-Output. Die Übernahme komplexer Formatierungselemente (z.B. Text, der um nicht rechteckige Bilder fließt) wurde für die Ausgabe in HTML verbessert. Die damit erfassten HTML-Dateien sind kleiner, was besonders für Dokumente zur Veröffentlichung im Internet wichtig ist.
- Ausgabe in Microsoft PowerPoint
- Kleinere Dateien beim Export zu Microsoft Word
Neue Eingabeformate von Bildern
FineReader unterstützt den Input von JPEG 2000-Dateien
Erweiterte Funktionalität mit neuen Add-On Modulen
Bei der Entwicklung von FineReader Engine 7.0 hat sich ABBYY auf die Feineinstellung der Technologie konzentriert, um mit speziellen Features und Funktionen weitere Schlüsselmärkte zu erobern. Die Add-On Module der FineReader Engine bieten Software-Entwicklern, Systemintegratoren und VARs besondere Funktionen für die Arbeit mit speziellen Arten von Dokumenten und Dateien. Die Zusatzmodule der FineReader Engine 7.0 bieten:
1. Öffnen von PDFs
ABBYY FineReader Engine 7.0 bietet einen intelligenten PDF-Umwandlungsprozess. Sie führt zuerst die Standard-Erkennung auf der Bildebene durch und extrahiert dann die „Textebene“ (wenn eine vorhanden ist), um die Genauigkeit zu überprüfen. Mit einem solchen Verfahren vermeidet man die zahlreichen Erkennungsfehler, die durch speziell codierte Schriften auf der Textebene von PDFs verursacht werden.
2. FineReader XIX : Erkennung von Frakturschrift
FineReader 7.0 bietet die industrieweit erste Omnifont-OCR-Lösung für Frakturschrift, wie sie in Texten aus dem 19. und 20. Jahrhundert zu finden ist. FineReader kann kunstvolle Drucktypen ebenso erkennen wie romanische Zeichentypen im alten Stil, wie das gestreckte „s“ in frühen englischen oder französischen Texten. Dieses Modul wurde in Verbindung mit dem europäischen Archivierungsprojekt METAe entwickelt und wird bereits von führenden Universitäten getestet. FineReader XIX eignet sich ideal zur Archivierung einer Vielzahl alter Bücher und Dokumente und beinhaltet Wörterbücher für Deutsch, Englisch, Französisch, Italienisch und Spanisch.
3. Neues Modul für XML-Output
Das neue Modul zur Ausgabe in XML exportiert Erkennungsergebnisse zusammen mit Informationen der Dokumentenstruktur, inklusive der Positionierung von Grafiken, Tabellen, Absätzen und selbst der Zeichen. Ebenso liefern sie vollständige Formatierungsinformationen über Schriftzeichen, Abschnitte und Tabellen mit. Die Verarbeitung nach der Erkennung erleichtert den Export dieser Informationen in externe Applikationen wie Dokumenten- und Content-Management-Systeme oder Datenbanken (wie MS SQL Server, Oracle oder MS SharePoint). Der XML-Output wird in den folgenden Formaten geboten:
- Natives XML (enthält Ergebnisse mit Informationen über die Dokumentstruktur, inklusive Zeichen, Wortkoordinaten, Erkennungswahrscheinlichkeit etc. für den einfachen Export in externe Anwendungen)
- Microsoft Word XML. Erkannte Dateien können als native XML-Dateien mit dem in Microsoft Word 2003 definierten Schema exportiert werden.
- ASCII XML Output. Ein spezielles ASCII XML Output-Modul wurde für DMS- und Archivierungsapplikationen entwickelt. Damit erstellte Dateien enthalten Informationen über die Position der Zeichen und Werte für Erkennungsgenauigkeit und können leicht indiziert werden. Es entfernt automatisch Textteile, die einen niedrigen Genauigkeitswert haben.
4. Erkennung von Chinesisch und Japanisch
ABBYY FineReader Engine 7.0 besitzt jetzt auch ein Add-On Modul zur Erkennung von Chinesisch (traditionelles und vereinfachtes Chinesisch) und Japanisch (Hiragana, Katakana und Kanji). Dieses nahtlos in die Kern-Engine integrierte Modul ermöglicht Entwicklern, das vorhandene API der FineReader Engine zu verwenden, um die Erkennung chinesischer und japanischer Texte auszuführen. Die Funktionen beinhalten die Erkennung mehrsprachiger Dokumente (Chinesisch-Englisch und Japanisch-Englisch), die automatische Erkennung vertikaler und horizontaler Texte, die automatische Erkennung von Textblöcken, Tabellen, Spalten und Bildern in einem Dokument, manuelles Zeichnungen von Erkennungsbereichen, detaillierte Informationen über erkannte Schriftzeichen sowie den Export erkannter Texte in die Dateiformate RTF, XML, HTML, TXT, CSV und DBF.
5. Dokumentenanalyse für Rechnungen
Die Dokumentenanalyse für Rechnungen ist ein spezielles OCR-Modul und wurde zur Verarbeitung von Rechnungen entwickelt. Es kann als Vorverarbeitungs-Engine für die Umwandlung von halbstrukturierten Dokumenten wie Rechnungen, Zahlungsanweisungen, Schecks und Überweisungen verwendet werden. Das Modul wird für die Vorverarbeitung verwendet und soll so viel Text wie möglich auf diesen Dokumenten finden, auch Zeichen und Zahlen – selbst wenn diese Informationen innerhalb von Stempeln, Logos oder kleinen Textfeldern vorkommt.
Im Unterschied zu Standard OCR erkennt dieses Modul alle gedruckten Informationen eines Dokuments als Text und gewährleistet somit, dass wichtige Textinformationen nicht fälschlicherweise als grafische Elemente identifiziert werden und dass Wörter oder Zahlenwerte nicht in einzelne Zeichen unterteilt werden. Somit ist die maximale Textinformation, mit den Positions-Koordinaten, verfügbar für die Analyse, Feld für Feld Verarbeitung und Parsing, das durch andere Schritte in darauf folgenden Verarbeitungsschritten durchgeführt wir.
6. OMR-Modul (Auswahlfelder)
Das OMR-Modul erkennt einfache Auswahlfelder , Radio Groups, Modellauswahlfelder sowie Auswahlfelder mit handschriftlichen Korrekturen.
7. 2D Barcode Erkennungs-Modul (PDF417)
Das Modul zur Erkennung von 2D-Barcode erkennt PDF417, den Industriestandard für 2D-Barcodes. Es eignet sich ideal für die Erkennung und Kategorisierung von Produkt-Labels und Verpackungen. PDF417 kodiert bis zu 1,1 KBit an Daten, darunter Text und grafische Informationen.
Spezifikationen
Das FineReader Engine SDK besteht aus einem Set an Dynamic Link Libraries (DLLs) und einem Application Programming Interface (API), die der Component Object Model (COM)-Norm entsprechen. Der leichte Zugriff auf die API mit Visual Studio.Net, C/C++, Visual Basic oder jedem anderen Entwicklertool, das COM-Komponenten unterstützt, ist möglich. Die FineReader Engine bietet vollständigen Zugriff auf die OCR/ICR/OMR/Barcode-Funktionalität und erfordert kein GUI (Graphical User Interface).
ABBYY bietet auch ein OCR-SDK für die Linux-Plattform an. Das FineReader Engine SDK für Linux unterstützt Linux-basierte Programmierungsumgebungen und das Betriebssystem und bietet über ein Application Programming Interface (API) und die Befehlszeile den Zugriff auf die ABBYY OCR-Funktionalität.
Demoversion
ABBYY bietet eine kostenlose, zeitlich begrenzte aber voll funktionsfähige Demoversion von ABBYY FineReader Engine 7.0 an. Potenzielle Kunden können das Programm damit unter realen Arbeitsbedingungen ohne Einschränkung der Funktionalität testen. Eine Testversion ist über den Vertrieb von ABBYY erhältlich.
Preise und Verfügbarkeit
Die Verfügbarkeit der ABBYY FineReader Engine 7.0 ist für Ende 2003 geplant. ABBYY bietet flexible Preisoptionen, die Entwicklern ermöglichen, die für ihre Produkt- und Vertriebsstrategie geeignetste Lizenzierungsart zu wählen. Weitere Informationen finden sich auf der Internetseite von ABBYY unter http://www.abbyy.com .
ABBYY Europe GmbH
ABBYY Europe ist ein Mitglied der ABBYY Gruppe und veröffentlicht und vertreibt ABBYY-Produkte in Westeuropa. ABBYY Software House ist ein führender Entwickler von Technologien für Dokumenterkennung und Linguistik. Das Unternehmen ist auf die Entwicklung von Software für die optische Zeichenerkennung (OCR), Handschrifterkennung (ICR), Linguistik, Semantik und elektronische Lexikografie spezialisiert. Führende Produkte von ABBYY sind die OCR-, ICR- und OMR-Programme der FineReader-Produktlinie sowie die FineReader-Entwicklungstools. Zu den Lizenznehmern der OCR/ICR-Technologien von ABBYY zählen Siemens Nixdorf, Samsung Electronics, C-Technologies, Sumitomo Electric Systems, Arkenstone, Banctec, Acer, Hewlett-Packard, Microtek, Legato Systems, Grantsmart, Lexmark, Mustek, UMAX, NewSoft, Primax and Cardiff. Weitere Informationen über ABBYY finden sich im Web unter www.abbyy.com.
Weitere Informationen
ABBYY Europe GmbH
Paula Fujimoto
Anglerstraße 6
D - 80339 München
Web: www.abbyy.com
Pressekontakt
AxiCom GmbH
Detlev Henning
Junkersstraße 1
D - 82178 Puchheim
Tel.: 089/800908-14
Fax: 089/800908-10
E-Mail: detlev.henning@axicom.de