OCR - Reconhecimento Óptico de Caracteres

O que é OCR?

OCR é a sigla para Reconhecimento Óptico de Caracteres. Esse processo é usado para reconhecer a representação visual de texto, por exemplo em uma imagem. Com base nisso, o OCR pode criar texto real que pode então ser editado, copiado, alterado etc. Funciona muito bem com texto digitado e impresso e, em casos bem raros, com texto manuscrito.

Como o reconhecimento óptico de caracteres funciona?

O OCR pode funcionar de duas maneiras: um caractere por vez ou uma palavra por vez. A primeira é a mais usada, já que a segunda exige que o idioma separe palavras usando um espaço.

No começo, os processadores de OCR eram treinados para reconhecer caracteres isolados em uma fonte específica. Hoje, a maioria das fontes sem serifa e com serifa é conhecida e pode ser reconhecida pelo OCR. Até mesmo digitalizações e imagens tortas, que não estão 100% retas, são interpretadas de forma satisfatória. Isso graças ao pré-processamento que muitos programas de OCR realizam. Isso inclui correção de inclinação e remoção de ruídos, conversão da digitalização ou imagem para tons de cinza e mais.

Casos de uso do reconhecimento óptico de caracteres

Por que você precisaria ou gostaria de usar OCR? Veja alguns casos de uso comuns:

  • Criar anotações a partir de slides de aula e apresentação que você fotografou
  • Extrair texto de documentos que foram digitalizados como imagens
  • Digitalizar sua papelada e torná-la pesquisável por números de fatura ou similares

Como usar OCR

  1. Acesse o conversor de PDF para Word do PDF2Go
  2. Envie seu arquivo via arrastar e soltar ou faça o upload a partir do seu disco rígido, Dropbox ou Google Drive.
  3. Para reconhecimento de texto, escolha "Converter com OCR". Configure as opções de OCR de acordo com suas necessidades.
  4. Nas configurações opcionais, escolha Microsoft Word (.docx) ou Word 2003 ou anterior (.doc) no menu suspenso.
  5. Clique em "INICIAR".