ABBYY FineReader Engine

O SDK de OCR mais completo para desenvolvedores de software.

Integre a tecnologia de OCR alimentada por IA  em seus aplicativos.

Classificação de documentos usando Aprendizado de Máquina

Sobre tecnologias

O ABBYY FineReader Engine fornece uma API para classificação de documentos, permitindo que você crie aplicativos, que categorizam automaticamente os documentos e os classificam de acordo com tipos de documentos predefinidos. A classificação avançada de documentos utiliza tecnologias modernas, como aprendizado de máquina. Essa tecnologia é capaz de detetar até mesmo pequenas diferenças entre categorias de documentos permitindo configurar o processo de classificação flexível e escalável.

O Classificados de Imagem (Image Classifier) inteligente é capaz de coletar e processar informações visuais sobre imagens de documentos para obter resultados rápidos de classificação. O Classificador de Texto (Text Classifier) avançado é capaz de extrair e processar informações sobre o conteúdo de documento para aumentar a precisão da classificação. O Classificados de Imagem e o Classificador de Texto podem ser usados individualmente ou em combinação.

Como funciona a classificação?

Basicamente, o processo de classificação consiste em três passos:

Factoids 025 77X77

Preparação de conjuntos de dados para treinamento de classificação

Nesta etapa, as classes de documentos solicitadas são definidas. Para cada classe de documento são selecionados vários exemplos de documentos com aparência e / ou conteúdo similar. Com a ajuda dos algoritmos de Aprendizado de Maquina, a tecnologia da ABBYY analisa os documentos de treinamento dentro de cada classe de documento e define os parâmetros que devem ser usados para identificar a classe de documento.
 

Factoids 020 77X77

Treinamento de Modelo de Classificação

Durante esta etapa, as informações sobre as classes de documentos e parâmetros correspondentes são importadas para o Modelo de Classificação para executar o treinamento. O Modelo pode usar o Classificados de Imagem, o Classificados de Texto ou uma combinação deles. O desempenho pode ser otimizado ao difinir o equilíbrio entre alta resposta e alta precisão. A validação de dados está disponível para testar a qualidade do Modelo de Classificação.
 

Factoids 018 77X77

Implantação de classificação

Durante o processo de classificação, o Modelo de Classificação analisa cada documento recebido. Para determinar corretamente o tipo de documento, o Modelo de Classificação calcula os parâmetros solicitados para cada documento e compara-os com as informações recebidas durante a etapa de treinamento. Os desenvolvedores podem criar uma rotina, que permite aos usuários atualizar de forma flexível o conjunto de dados de treinamento e treinar novamente o Modelo de Classificação.
 

Além das informações sobre as categorias de documentos detetadas, é também fornecida a informação sobre a probabilidade de que os documentos pertençam a esta categoria. As informações de probabilidade podem ser usadas para determinar as próximas etapas de processamento, como encaminhamento de documentos para os departamentos relevantes ou reclassificação.

Na documentação do ABBYY FineReader Engine, o processo de classificação é ilustrado por um exemplo de código, que pode ser usado para teste, ajustado e integrado em aplicativos próprios.

Modos de classificação

Dependendo do cenário de uso, a classificação pode ser otimizada para alta precisão, alto recall ou equilíbrio entre eles.

Benefits 118V 77X77

Modo de alta precisão

Esse modo é recomendado em cenários, onde é importante classificar com precisão os documentos nas categorias certas e limitar a atribuição incorreta de classe ao mínimo.

Os documentos identificados como pertencentes à classe A devem pertencer à classe A e não à classe B, embora seja aceitável que os documentos "incertos" pertencentes à classe A não sejam classificados como tal e possam ser deixados de fora.

Foco principal: categorize documentos com precisão e limite o risco de atribuir documentos a classes de documentos erradas.

Benefits 165R 77X77

Modo de alto recall

Esse modo é recomendado em cenários nos quais é importante detectar todos os documentos pertencentes a uma determinada categoria dentre todos os documentos disponíveis e limitar o risco de que possam ser perdidos.

Os documentos pertencentes à classe A não devem permanecer indetizados no lote de documentos, embora seja aceitável que alguns dos documentos classificados como pertencentes à classe A possam, na realidade, pertencer à classe B.

Foco principal: em um lote de documentos, detecte todos os documentos pertencentes a uma determinada classe e limite o risco de deixá-los fora.

Solicitar informação

Solicitar trial

Por favor, preencha o formulário abaixo e retornaremos em breve.

Estou ciente de que meu consentimento pode ser revogado a qualquer momento, clicando no link de cancelamento de inscrição em qualquer e-mail recebido da ABBYY Solutions Ltd. ou através do Formulário de Direitos de Acesso de Titular dos Dados da ABBYY.

Eu dou consentimento ao uso de meus dados pessoais para os propósitos descritos na Notificação de Privacidade.

ABBYY agradece pelo seu interesse nos nossos produtos!

Em breve entraremos em contato com você.

Cordialmente,
A equipe da ABBYY