ABBYY FineReader Engine ABBYY FineReader Engine

O SDK de OCR mais completo para desenvolvedores

Integre a tecnologia de OCR inteligente em seus aplicativos.

Reconhecimento: Conjunto completo de tecnologias de reconhecimento

Para a etapa de reconhecimento de texto, o ABBYY FineReader Engine oferece um conjunto abrangente de tecnologias de reconhecimento. As tecnologias fornecidas incluem o reconhecimento de textos impressos por máquina (OCR), textos impressos à mão (ICR), reconhecimento de marcas óticas (OMR) e reconhecimento de códigos de barras (OBR). Como líder do mercado, a ABBYY oferece o maior número de idiomas de OCR, que podem ser combinados. Veja abaixo a lista de tecnologias disponíveis e opções de processamento.

A tecnologia de OCR está disponível para mais de 200 idiomas:

  • Idiomas europeus (alfabetos latinos, cirílicos, armênios e gregos)
  • Idiomas não europeus: chinês, japonês, coreano, árabe, farsi, tailandês, vietnamita, hebraico, birmanês (pré-visualização)
  • O FineReader XIX - para documentos antigos, livros e jornais publicados de 1600 a 1937 em inglês, francês, alemão, italiano e espanhol em fontes antigas como Fraktur, Schwabacher e fontes góticas
  • Reconhecimento de fontes OCR-A, OCR-B, MICR (E13B) e CMC7 e documentos impressos por impressoras matriciais ou digitados em máquinas de escrever

A tecnologia de ICR está disponível em mais de 120 idiomas.

  • Idiomas europeus e não europeus
  • 22 estilos regionais de impressão manual
  • Reconhecimento de caracteres impressos à mão em campos e enquadramentos
  • ICR para algarismos indianos utilizados nos estados árabes

O reconhecimento de informações impressas à mão em diferentes idiomas (ICR multilíngue) é possível.

A tecnologia de OMR da ABBYY reconhece marcas de seleção simples, marcas de seleção agrupadas, marcas de seleção de modelos e marcas de seleção com “correções” feitas à mão em diferentes formas:

  • Marcas de seleção na estrutura
  • Marcas de seleção contra o fundo vazio
  • O tipo de marcas de seleção não padronizado (requer o treinamento)
  • Tipos de códigos de barras 1D e 2D
  • Extração rápida do código de barras. Esse recurso permite detetar e o reconhecer automaticamente os códigos de barras em qualquer ângulo num documento.

Modos de reconhecimento

Ao definir um modo de reconhecimento, os desenvolvedores podem rapidamente configurar e ajustar a velocidade e a precisão do processamento. Além do modo de processamento padrão, o reconhecimento de OCR e ICR pode ser realizado em modos de reconhecimento normal, rápido e balanceado:

  • Modo de reconhecimento normal

    O modo mais preciso para obter a mais alta qualidade de reconhecimento, por exemplo, se você estiver planejando reutilizar o conteúdo reconhecido.

  • Modo de reconhecimento rápido

    Esse modo aumenta a velocidade de processamento em 200 a 250%, tornando a tecnologia ideal para sistemas de gerenciamento de conteúdo (CMS), gerenciamento de documentos (DMS) e arquivamento.

  • Modo de reconhecimento balanceado

    Este modo fornece velocidade mais elevada que o modo Normal, atingindo quase a mesma precisão.

Reconhecimento de Texto Completo e Reconhecimento por campo

No geral, dois tipos de reconhecimento são possíveis: Reconhecimento de texto completo e reconhecimento por campo. O reconhecimento de texto completo é utilizado para conversão de documentos e geralmente inclui o uso da tecnologia de OCR. O reconhecimento por campo é utilizado para extrair dados específicos e inclui o uso de OCR, ICR e outras tecnologias.

A tabela a seguir mostra as diferenças:

Especificação Reconhecimento de texto completo Reconhecimento por campo
Utilizado para: Conversão de documentos, arquivamento de livros Captura de dados / extração de dados
Análise de Documentos: Análise geral de documentos, análise de documentos para faturas, análise de documentos para indexação de texto completo Especificação de blocos manuais para reconhecimento por campo
Tecnologias de reconhecimento: OCR com até 99% de precisão OCR, ICR, OMR, reconhecimento de códigos de barras com tipos de dados predefinidos e intervalo de valores. Até 99.99% de precisão
Verificação: Recomendado (para reutilização de conteúdo) Obrigatório (como a precisão é uma questão crítica na maioria dos casos)
Síntese E utilizado para reconstrução de documentos Não é utilizado
Formato de exportação Arquivos de documentos (RTF, DOC, PDF, etc.) Exportação para arquivo ou banco de dados XML

O reconhecimento de texto completo é um tipo de reconhecimento básico para tarefas diferentes, como:

  • Conversão de documentos e livros para arquivamento
  • Conversão de documentos para reutilização de conteúdo
  • Extração da base do texto para deteção de campos e classificação de documentos

Todos eles exigem o reconhecimento (OCR) de todo o texto. O texto resultante é exportado como um texto sem formatação ou como um documento completo no formato solicitado.

Para suportar os principais processos de negócios, como processamento de formulários, classificação de palavras-chave, visão de máquina ou automação robótica de processos, o ABBYY FineReader Engine extrai texto de campos ou zonas. A principal funcionalidade inclui OCR e ICR em vários idiomas, OMR, reconhecimento de código de barras e uma gama de funções específicas, como:

  • Extração de dados de campos com várias bordas e enquadramentos
  • Definição do conteúdo dos campos, definindo alfabetos, dicionários, expressões regulares, estilos de caligrafia, etc.
  • Deteção de espaçamento do campo
  • Processamento inteligente de blocos com interseção de partes e linhas
  • Text block despeckling, with the ability to specify the size of "garbage"

O reconhecimento por campo também é suportado por ferramentas especiais para desenvolvedores, como a API de votação e o ajuste de reconhecimento "On-the-fly".

Idiomas do usuário

Para aumentar a qualidade de reconhecimento, o ABBYY FineReader Engine fornece um API para criar e editar idiomas de reconhecimento, ajustar idiomas de reconhecimento predefinidos e adicionar novas palavras aos idiomas do usuário. Exemplos:

  • Para melhorar a qualidade do reconhecimento de ICR em formulários, você pode utilizar os idiomas do usuário para descrever o tipo de informação, que pode ser inserida em cada campo (códigos postais, códigos de produto, números).
  • Para melhorar a qualidade do reconhecimento de ICR em formulários, você pode utilizar os idiomas do usuário para descrever o tipo de informação, que pode ser inserida em cada campo (códigos postais, códigos de produto, números).

Treinamento padrão

Na grande maioria dos casos, o FineReader Engine consegue ler textos com sucesso sem nenhum treinamento prévio. No entanto, ao reconhecer fontes decorativas ou delineadas ou documentos de baixa qualidade de impressão, os padrões próprios podem ser treinados e a qualidade de reconhecimento aumentada.

Pronto para testar? Precisa de mais informações?

Por favor, preencha o formulário abaixo e retornaremos em breve.

Eu estou ciente de que posso revogar meu consentimento, parcial ou integralmente, a qualquer momento e com efeitos no futuro.

Para revogar seu consentimento, visite a página “cancelar inscrição” ou envie um e-mail para dataprotection@abbyy.com.

Eu dou consentimento ao uso de meus dados pessoais para os propósitos descritos na Notificação de Privacidade.

ABBYY agradece pelo seu interesse nos nossos produtos!

Em breve entraremos em contato com você.

Cordialmente,
A equipe da ABBYY