O que é OCR?
OCR é a sigla para Reconhecimento Óptico de Caracteres. Esse processo é usado para reconhecer a representação visual de texto, por exemplo em uma imagem. Com base nisso, o OCR pode criar texto real que pode então ser editado, copiado, alterado etc. Funciona muito bem com texto digitado e impresso e, em casos bem raros, com texto manuscrito.
Como o reconhecimento óptico de caracteres funciona?
O OCR pode funcionar de duas maneiras: um caractere por vez ou uma palavra por vez. A primeira é a mais usada, já que a segunda exige que o idioma separe palavras usando um espaço.
No começo, os processadores de OCR eram treinados para reconhecer caracteres isolados em uma fonte específica. Hoje, a maioria das fontes sem serifa e com serifa é conhecida e pode ser reconhecida pelo OCR. Até mesmo digitalizações e imagens tortas, que não estão 100% retas, são interpretadas de forma satisfatória. Isso graças ao pré-processamento que muitos programas de OCR realizam. Isso inclui correção de inclinação e remoção de ruídos, conversão da digitalização ou imagem para tons de cinza e mais.
Casos de uso do reconhecimento óptico de caracteres
Por que você precisaria ou gostaria de usar OCR? Veja alguns casos de uso comuns:
- Criar anotações a partir de slides de aula e apresentação que você fotografou
- Extrair texto de documentos que foram digitalizados como imagens
- Digitalizar sua papelada e torná-la pesquisável por números de fatura ou similares
Como usar OCR
- Acesse o conversor de PDF para Word do PDF2Go
- Envie seu arquivo via arrastar e soltar ou faça o upload a partir do seu disco rígido, Dropbox ou Google Drive.
- Para reconhecimento de texto, escolha "Converter com OCR". Configure as opções de OCR de acordo com suas necessidades.
- Nas configurações opcionais, escolha Microsoft Word (.docx) ou Word 2003 ou anterior (.doc) no menu suspenso.
- Clique em "INICIAR".