ocr-icon-80x80.png

Qu’est-ce que l’OCR ? Comment fonctionne la reconnaissance optique de caractères ?

Admettons que vous vouliez numériser un article de journal ou un contrat sur papier. Deux solutions se présentent à vous : soit vous passez un temps incalculable à le ressaisir et à corriger les erreurs de frappe, soit vous transformez ces mêmes documents en format numérique en quelques minutes en utilisant un scanner (ou un appareil photo numérique) et la technologie OCR (ROC) de reconnaissance optique de caractères (en anglais : optical character recognition).

En savoir plus sur les produits ABBYY de reconnaissance de texte / OCR ›

Qu’est-ce que l’OCR au juste ?

Le mot OCR (en anglais : optical character recognition) signifie reconnaissance optique de caractères ou reconnaissance de texte, une technologie qui vous permet de convertir différents types de documents tels que les documents papiers scannés, les fichiers PDF ou les photos numériques en fichiers modifiables et interrogeables.

Supposez que vous ayez un document au format papier, par exemple un article de journal, une brochure ou un contrat, que votre partenaire vous a envoyé en pièce jointe au format PDF. Un scanner ne suffit pas pour extraire les informations pertinentes de ces documents pour les retranscrire par exemple dans le format éditable Microsoft Word. Tout ce qu’un scanner peut faire c’est de réaliser une image du document. Et celle-ci n’est autre qu’une collection de points noirs et blancs ou de couleur, ordonnés sous forme de grille, et connue en langage technique sous le terme de « trame ». Pour lire et exploiter les informations issues de documents scannés, d’images numériques ou de PDF d’images seulement, il faut un  logiciel OCR qui reconnaît dans les images des lettres, reconstitue des mots, puis des phrases entières. Le logiciel vous permet ainsi d’avoir accès au contenu proprement dit des documents que vous pouvez ensuite retravailler.

Apprenez-en davantage sur les fonctionnalités que proposent le logiciel OCR, comme p.ex. ABBY FineReader ›

Quelle technologie se cache derrière l’OCR ?

Ce qui nous amène à nous intéresser de plus près à la façon dont l’OCR d’ABBYY FineReader reconnaît les textes. Avant toute chose, le programme analyse la structure de l’image du document, dont il divise la page en éléments distincts tels que les textes, les tableaux, les images... Les lignes sont définies en mots, puis en caractères. Une fois que le caractère aura été isolé, le programme les compare avec un groupe de modèles d’images grâce auxquels des hypothèses sont avancées sur ce que représente le caractère. C’est sur cette base d’hypothèses que le programme analyse les différentes variantes des courbures des lignes en mots et de mots en caractères. Après avoir passé en revue toutes ces hypothèses, le programme prend la décision de vous livrer un texte qu’il pense être conforme à l’image reconnue.

En complément, ABBYY FineReader dispose de dictionnaires pour différentes langues. Cette option permet d’affiner l’analyse d’un niveau texte à un niveau mot. Grâce à la prise en charge du dictionnaire, le programme améliore la précision de la reconnaissance des documents et facilite les vérifications ultérieures de résultats.

Sur quel principe repose l’OCR FineReader ?

Les systèmes de reconnaissance optique de caractères les plus développés et donc les plus avancés, comme l’OCR ABBYY FineReader, visent à imiter la reconnaissance d’objets telle qu’on la trouve dans la nature ou chez les animaux. De manière générale, ces systèmes reposent sur les trois principes fondamentaux intégrité, définiton des objectifs et adaptabilité (Integrity, Purposefulness und Adaptability, soit IPA).

Sur la base de ces principes, le programme applique une méthode de reconnaissance flexible et intelligente qui est très proche de la capacité de l’homme de reconnaître des objets.

Après des années de recherche, ABBYY a réussi à intégrer les principes IPA susmentionnés dans sa technologie OCR.

En savoir plus sur les fonctionnalités d’ABBYY FineReader ›

Quels bénéfices pouvez-vous tirer de l’OCR ?

Avec l’OCR FineReader, les documents reconnus ont la même mise en page que les originaux. Le logiciel OCR performant et sophistiqué vous fait gagner beaucoup de temps et vous épargne beaucoup de travail lors de la création, du traitement et de la réutilisation de nombreux documents différents. Avec l’OCR d’ABBYY FineReader, vous pouvez numériser des documents papier pour les retravailler ultérieurement et les transférer aux collègues et partenaires. Vous pouvez extraire des citations de livres et de magazines et créer vos propres documents sans devoir les ressaisir manuellement. Avec un appareil photo numérique et FineReader OCR, vous pouvez capturer des textes sur les affiches, posters, panneaux de signalisation et tous types de documents rencontrés en chemin pour vos besoins particuliers. De la même manière, vous pouvez capturer des informations sur des documents papier et des livres si vous n’avez pas de scanner sous la main ou s’il ne peut pas être utilisé. Vous pouvez utiliser en outre un logiciel OCR pour créer des archives PDF consultables.

Le processus entier de conversion de données à partir d’un document papier, une image ou un fichier PDF prend moins d’une minute et le document final, reconnu est identique à l’original !

Apprenez comment le logiciel OCR peut vous aider au quotidien ›

Comment utiliser un logiciel OCR ?

Utiliser ABBYY FineReader OCR est simple : le processus se décompose en 3 étapes : « ouvrir » (numériser) le document, le « reconnaître » puis le « sauvegarder » dans un format courant (DOC, RTF, XLS, PDF, HTML, TXT, etc.) ou exporter les données directement vers une application de Microsoft Office telle que Microsoft Word, Excel ou Adobe Acrobat.

Cliquez ici pour découvrir comment fonctionne ABBYY FineReader ›

Est-il possible d’automatiser la reconnaissance optique de caractères ?

La version Corporate d’ABBYY FineReader soutient par ailleurs le traitement de données automatisé qui est notamment indispensable pour traiter les tâches régulières. Avec cette caractéristique, la reconnaissance optique de caractères se déroule automatiquement, sans avoir besoin d’activer manuellement les étapes individuelles.

Voyez ici comment le traitement automatisé de documents avec ABBYY Hot Folder fonctionne ›

En savoir plus sur ABBYY FineReader