ABBYY FineReader Engine

El SDK de OCR más completo para desarrolladores de software.

Integre en sus aplicaciones funciones de OCR basadas en la IA.

Clasificación de documentos mediante aprendizaje automático

Acerca de las tecnologías

ABBYY FineReader Engine ofrece una API para la clasificación de documentos, que le permitirá crear aplicaciones que categorizan automáticamente los documentos y los dividen en clases predefinidas. La clasificación avanzada de documentos aprovecha las tecnologías modernas como el aprendizaje automático. Estas tecnologías son capaces de detectar incluso pequeñas diferencias entre las categorías individuales de documentos y permiten configurar procesos de clasificación flexibles y escalables que pueden distinguir detalladamente un gran número de categorías de documentos.

Image Classifier, el nuevo clasificador de imágenes inteligente, recopila y procesa la información visual sobre las imágenes de los documentos y ofrece resultados rápidos de clasificación. Text Classifier, el clasificador avanzado de textos, extrae y procesa la información sobre el contenido de los documentos, lo que aumenta la precisión de la clasificación. Image Classifier y Text Classifier pueden combinarse o usarse separadamente.

¿Cómo funciona?

Básicamente, el proceso de clasificación se divide en tres pasos:

Factoids 025 77X77

Preparación de los conjuntos de datos para el entrenamiento de clasificación

En este paso, se definen las clases de documentos indicadas. Para cada clase de documento, se seleccionan varios ejemplos de documentos (con una apariencia y/o contenido similar). Con la ayuda de algoritmos de aprendizaje automático, la tecnología ABBYY analiza los documentos de entrenamiento de cada clase de documento y define los parámetros que deberán usarse para identificar cada clase de documento.

Factoids 020 77X77

Entrenamiento del modelo de clasificación

En este paso, se importan al modelo de clasificación tanto información como las clases de documentos y sus correspondientes parámetros con el fin de entrenarlo. El modelo de clasificación puede usar Image Classifier, Text Classifier o una combinación de ambos. Su rendimiento puede optimizarse definiendo el equilibrio entre un gran nivel de recuperación y un gran nivel de precisión. La validación cruzada de datos se encuentra disponible para probar la calidad del modelo de clasificación.

Factoids 018 77X77

Implementación de la clasificación

Durante el proceso de clasificación, el modelo de clasificación analiza cada documento entrante. Para establecer correctamente el tipo de documento, calcula los parámetros indicados para cada documento y los compara con la información que ha recibido durante la fase de entrenamiento. Los desarrolladores podrán crear una rutina que permita a los usuarios actualizar de manera flexible los datos de entrenamiento y corregir el entrenamiento del modelo de clasificación.

Además de la información sobre las categorías de documentos detectadas, se proporcionará información sobre la probabilidad de que los documentos pertenezcan a ellas. La información relativa a la probabilidad podrá usarse para establecer los próximos pasos de procesamiento, como puede ser el envío de los documentos a los departamentos correspondientes de la empresa o su nueva clasificación.

En la documentación de ABBYY FineReader Engine, se ilustra el proceso de clasificación con códigos de muestra que pueden utilizarse para realizar pruebas ajustándolos e integrándolos en las aplicaciones propias.

Modos de clasificación

Según el uso, la clasificación puede optimizarse para conseguir un alto nivel de precisión, un alto nivel de recuperación o un equilibrio entre ambos.

Benefits 118V 77X77

Modo de precisión alta

Este modo se recomienda para aquellos casos en los que es importante clasificar los documentos de forma precisa en las categorías adecuadas y minimizar la asignación de clases incorrectas.

Los documentos identificados como pertenecientes a la clase A deben pertenecer a la clase A y no a la clase B, mientras que es aceptable que los documentos «indeterminados» pertenecientes a la clase A no se clasifiquen dentro de esta clase y se queden sin clasificar.

Enfoque clave: Categorizar documentos con precisión y limitar el riesgo de asignar documentos a clases incorrectas.

Benefits 165R 77X77

Modo de recuperación alta

Este modo se recomienda para aquellos casos en los que es importante detectar, entre todos los documentos disponibles, los pertenecientes a una determinada categoría y limitar el riesgo de que puedan quedarse sin clasificar.

Los documentos pertenecientes a la clase A no deben quedarse sin detectar en el lote de documentos, mientras que es aceptable que algunos de los documentos clasificados como pertenecientes a la clase A puedan pertenecer a la clase B.

Enfoque clave: Dentro de un lote de documentos, detectar todos los documentos pertenecientes a una determinada clase y limitar el riesgo de que se queden sin clasificar.

Solicite información

Versión de prueba

Rellene el formulario siguiente y nos pondremos en contacto con usted en breve.

Soy consciente de que se pued revocar mi consentimiento en cualquier momento haciendo clic en el enlace para cancelar la suscripción dentro de cualquier correo electrónico recibido de ABBYY Solutions Ltd. o a través del Formulario de derechos de acceso del sujeto de los datos de ABBYY.

Al enviar este formulario, doy mi consentimiento para el uso de mis datos personales con los fines descritos en el Aviso de Privacidad.

¡Muchas gracias por su interés por los productos de ABBYY!

Su solucitud está procesándose y el gerente de ventas en su región le responderá lo antes posible.

Con los mejores deseos,
El equipo de ABBYY