ABBYY FineReader Engine

Le SDK OCR le plus complet pour les développeurs de logiciels

Intégrez des fonctionnalités OCR reposant sur l’IA à vos applications.

Classification des documents grâce au Machine Learning

ABBYY FineReader Engine fournit une API (interface de programmation applicative) pour classer les documents, ce qui vous permet de créer des applications capables de catégoriser automatiquement les documents et de les trier par catégories prédéfinies. Cette classification de pointe des documents exploite pleinement les technologies modernes telles que l’apprentissage par les machines. Ces technologies sont capables de détecter même d’infimes différences entre les catégories de documents et permettent de mettre en place des procédures de tri souples et sur mesure, à même de distinguer de façon très précise de nombreux différents types de documents.

Le nouvel outil intelligent, Image Classifier, est capable de collecter et de traiter les informations visuelles contenues dans les images d’un document et de le classifier rapidement. L’outil de pointe Text Classifier est capable d’extraire et de traiter les informations contenues dans le texte du document, ce qui augmente la précision de la classification. Ces deux outils peuvent être utilisés seuls ou en combinaison.

Comment cela fonctionne-t-il ?

Par principe, le processus de classification comprend 3 étapes :

Lors de cette étape, les différentes catégories nécessaires de documents sont définies. Pour chaque catégorie, plusieurs exemples de documents – ayant un aspect ou/et un contenu similaire – sont sélectionnés. Grâce aux algorithmes de Machine Learning, la technologie ABBYY analyse ces documents pour entraîner l’outil au sein de chaque catégorie et définit les paramètres qui devront être utilisés pour identifier chacune de ces catégories de documents.

Lors de cette étape, les informations relatives à la catégorie du document et à ses paramètres respectifs sont importées dans le Modèle de Classification et le modèle de classification est « entraîné ». Pour cela, il peut utiliser Image Classifier, Text Classifier ou une combinaison des deux. L’efficacité peut être optimisée en définissant l’équilibre voulu entre haut degré de reconnaissance et haut degré de précision. Une validation croisée des données est disponible pour tester la qualité du Modèle de Classification.

Lors du processus de classification, le Modèle de Classification analyse chaque document entrant. Pour définir correctement à quelle catégorie les documents appartiennent, le Modèle de Classification calcule les paramètres requis pour chacun d’eux et les compare avec les informations reçues lors de la phase d’entraînement. Les développeurs peuvent créer une routine qui permettra aux utilisateurs de mettre à jour facilement les ensembles de données utilisés pour l’entraînement et de « ré-entraîner » le Modèle de Classification.

En fonction du scénario d’utilisation, la classification peut être paramétrée pour avoir le plus fort niveau de reconnaissance possible, la plus grande précision possible ou un équilibre entre les deux.

Ce mode est recommandé pour les cas où il est important de classifier avec précision les documents dans les bonnes catégories et de réduire à un minimum les erreurs de classification.

Les documents identifiés comme appartenant à la catégorie A doivent vraiment appartenir à la catégorie A et pas à la catégorie B, alors qu’il est acceptable que les documents appartenant de façon incertaine à la catégorie A ne soient pas mis dans cette catégorie et soient mis de côté.

Priorité: classer avec précision les documents et limiter les risques d’attribuer un document à une mauvaise catégorie.

Ce mode est recommandé pour les cas où il est important de détecter tous les documents appartenant à une certaine catégorie parmi tous les documents disponibles et de limiter les risques qu’ils passent à la trappe.

Les documents identifiés comme appartenant à la catégorie A ne doivent pas rester non détectés au sein d’un lot de documents, alors qu’il est acceptable que certains des documents classifiés comme appartenant à la catégorie A appartiennent en réalité à la catégorie B.

Priorité: au sein d’un lot de documents, détecter tous les documents appartenant à une catégorie donnée et limiter les risques d’omission.

Prêt à parler à un expert ?

Demander une démo Contactez-nous

Le SDK OCR le plus complet pour les développeurs de logiciels

Classification des documents grâce au Machine Learning

Comment cela fonctionne-t-il ?

Préparer des ensembles de données pour entraîner à la classification

« Former » le Modèle de Classification

Déployer la classification

Modes de classification

Mode « haute précision »

Mode « haute reconnaissance »

Prêt à parler à un expert ?

Le SDK OCR le plus complet pour les développeurs de logiciels

Classification des documents grâce au Machine Learning

Comment cela fonctionne-t-il ?

Préparer des ensembles de données pour entraîner à la classification

« Former » le Modèle de Classification

Déployer la classification

Modes de classification

Mode « haute précision »

Mode « haute reconnaissance »

Prêt à parler à un expert ?

Prêt à parler à un expert ?