ABBYY FineReader Engine ABBYY FineReader Engine

Le SDK OCR le plus complet pour les développeurs de logiciels

Intégrez des fonctionnalités OCR reposant sur l’IA à vos applications.

Classification des documents grâce à l'apprentissage automatique (Machine Learning) et au traitement automatique du langage naturel (TALN)

ABBYY FineReader Engine fournit une API (interface de programmation applicative) pour classer les documents, ce qui vous permet de créer des applications capables de catégoriser automatiquement les documents et de les trier par catégories prédéfinies. Cette classification de pointe des documents exploite pleinement les technologies modernes telles que l’apprentissage par les machines et le traitement automatisé du langage naturel. Ces technologies sont capables de détecter même d’infimes différences entre les catégories de documents et permettent de mettre en place des procédures de tri souples et sur mesure, à même de distinguer de façon très précise de nombreux différents types de documents.

Le nouvel outil intelligent, Image Classifier, est capable de collecter et de traiter les informations visuelles contenues dans les images d’un document et de le classifier rapidement. L’outil de pointe Text Classifier est capable d’extraire et de traiter les informations contenues dans le texte du document, ce qui augmente la précision de la classification. Ces deux outils peuvent être utilisés seuls ou en combinaison.

Comment cela fonctionne-t-il ?

Par principe, le processus de classification comprend 3 étapes :

  • 1

    Préparer des ensembles de données pour entraîner à la classification

    Lors de cette étape, les différentes catégories nécessaires de documents sont définies. Pour chaque catégorie, plusieurs exemples de documents – ayant un aspect ou/et un contenu similaire – sont sélectionnés. Grâce aux algorithmes de Machine Learning et de TALN, la technologie ABBYY analyse ces documents pour entraîner l’outil au sein de chaque catégorie et définit les paramètres qui devront être utilisés pour identifier chacune de ces catégories de documents.

  • 2

    « Entraîner » le Modèle de Classification

    Lors de cette étape, les informations relatives à la catégorie du document et à ses paramètres respectifs sont importées dans le Modèle de Classification et le Modèle de Classification est « entraîné ». Pour cela, il peut utiliser Image Classifier, Text Classifier ou une combinaison des deux. L’efficacité peut être optimisée en définissant l’équilibre voulu entre haut degré de reconnaissance et haut degré de précision. Une validation croisée des données est disponible pour tester la qualité du Modèle de Classification.

  • 3

    Déployer la classification

    Lors du processus de classification, le Modèle de Classification analyse chaque document entrant. Pour définir correctement à quelle catégorie les documents appartiennent, le Modèle de Classification calcule les paramètres requis pour chacun d’eux et les compare avec les informations reçues lors de la phase d’entraînement. Les développeurs peuvent créer une routine qui permettra aux utilisateurs de mettre à jour facilement les ensembles de données utilisés pour l’entraînement et de « ré-entraîner » le Modèle de Classification.

Outre les informations sur les catégories détectées, des informations sur la probabilité que les documents appartiennent à l’une ou l’autre sont également fournies. Ces informations sur le niveau de probabilité peuvent être utilisées pour définir les prochaines étapes de traitement, comme le transfert des documents au bon département dans l’entreprise ou leur re-classification.

Dans la documentation fournie avec ABBYY FineReader Engine, le processus de classification est illustré par un exemple de code qui peut être utilisé pour les tests, adapté et intégré à vos propres applications.

Modes de classification

En fonction du scénario d’utilisation, la classification peut être paramétrée pour avoir le plus fort niveau de reconnaissance possible, la plus grande précision possible ou un équilibre entre les deux.

  • Mode « haute précision »

    Ce mode est recommandé pour les cas où il est important de classifier avec précision les documents dans les bonnes catégories et de réduire à un minimum les erreurs de classification.

    Les documents identifiés comme appartenant à la catégorie A doivent vraiment appartenir à la catégorie A et pas à la catégorie B, alors qu’il est acceptable que les documents appartenant de façon incertaine à la catégorie A ne soient pas mis dans cette catégorie et soient mis de côté.

    Priorité : classer avec précision les documents et limiter les risques d’attribuer un document à une mauvaise catégorie.

  • Mode « haute reconnaissance »

    Ce mode est recommandé pour les cas où il est important de détecter tous les documents appartenant à une certaine catégorie parmi tous les documents disponibles et de limiter les risques qu’ils passent à la trappe.

    Les documents identifiés comme appartenant à la catégorie A ne doivent pas rester non détectés au sein d’un lot de documents, alors qu’il est acceptable que certains des documents classifiés comme appartenant à la catégorie A appartiennent en réalité à la catégorie B.

    Priorité : au sein d’un lot de documents, détecter tous les documents appartenant à une catégorie donnée et limiter les risques d’omission.

Souhaitez-vous une version d’évaluation ?
Avez-vous des questions ?

Veuillez remplir le formulaire ci-dessous pour obtenir une version d’évaluation ou plus d’informations.

Je sais que je peux révoquer mon consentement, en tout ou partie, à tout moment à l'avenir.

Afin de révoquer votre consentement, rendez-vous à la page Web de désinscription ou envoyez un e-mail à dataprotection@abbyy.com.

J’autorise l’utilisation de mes données personnelles aux fins prévues dans la Politique de confidentialité.

Merci de votre intérêt pour les produits ABBYY !

Votre demande a été transmise au Responsable commercial de votre pays et une réponse vous sera donnée le plus rapidement possible. Veuillez visiter notre page Contacts pour prendre contact avec votre équipe ABBYY la plus proche.

Avec nos meilleures salutations,
Votre équipe ABBYY