¿Qué es el OCR?
OCR es la abreviatura de Reconocimiento óptico de caracteres. Este proceso se utiliza para reconocer la representación visual de texto, por ejemplo en una imagen. A partir de esto, OCR puede crear texto real que luego se puede editar, copiar, cambiar, etc. Funciona muy bien con texto mecanografiado e impreso, y solo en muy raras ocasiones con texto escrito a mano.
¿Cómo funciona el reconocimiento óptico de caracteres?
OCR puede funcionar de dos maneras: un carácter a la vez o una palabra a la vez. La primera es la más utilizada, ya que la segunda requiere que el idioma separe las palabras con un espacio.
Al principio, los procesadores OCR se entrenaban para reconocer caracteres individuales en una fuente específica. Hoy en día, la mayoría de las tipografías con y sin serifas son conocidas y pueden ser reconocidas por el OCR. Incluso los escaneos torcidos y las imágenes que no están 100 % rectas se interpretan bastante bien. Esto se debe al preprocesamiento que realizan muchos programas OCR. Incluye corregir la inclinación y eliminar motas, convertir el escaneo o la imagen a escala de grises y más.
Casos de uso del reconocimiento óptico de caracteres
¿Por qué necesitarías o querrías usar OCR? Estos son algunos casos de uso comunes:
- Crear notas a partir de diapositivas de clases y presentaciones que fotografiaste
- Extraer texto de documentos que se escanearon como imágenes
- Digitalizar tu documentación en papel y hacerla buscable por números de factura o similares
Cómo usar OCR
- Ve a conversor de PDF a Word de PDF2Go
- Sube tu archivo con arrastrar y soltar o súbelo desde tu disco duro, Dropbox o Google Drive.
- Para el reconocimiento de texto, elige "Convertir con OCR". Configura los ajustes de OCR según tus necesidades.
- En la configuración opcional, elige Microsoft Word (.docx) o Word 2003 o anterior (.doc) en el menú desplegable.
- Haz clic en "INICIAR".