OCR - Reconnaissance Optique de Caractères

Qu'est-ce que l'OCR ?

OCR est l’abréviation de Reconnaissance Optique de Caractères. Ce procédé sert à reconnaître la représentation visuelle d’un texte, par exemple dans une image. À partir de cela, l’OCR peut créer un véritable texte qui pourra ensuite être modifié, copié, changé, etc. Cela fonctionne très bien avec du texte tapé ou imprimé, et seulement dans de très rares cas avec du texte manuscrit.

Comment fonctionne la reconnaissance optique de caractères ?

L’OCR peut fonctionner de deux manières : un caractère à la fois ou un mot à la fois. La première méthode est la plus couramment utilisée, car la seconde nécessite que la langue sépare les mots par un espace.

Au début, les processeurs OCR étaient entraînés à reconnaître des caractères isolés dans une police spécifique. Aujourd’hui, la plupart des polices avec et sans empattement sont connues et peuvent être reconnues par l’OCR. Même les numérisations et images légèrement de travers sont assez bien interprétées. Cela est dû au prétraitement effectué par de nombreux programmes OCR. Il comprend la correction d’inclinaison et la suppression des taches, la conversion de la numérisation ou de l’image en niveaux de gris, et plus encore.

Cas d’usage de la reconnaissance optique de caractères

Pourquoi auriez-vous besoin ou envie d’utiliser l’OCR ? Voici quelques cas d’usage courants :

  • Créer des notes à partir de diapositives de cours et de présentations que vous avez prises en photo
  • Récupérer du texte à partir de documents qui ont été numérisés sous forme d’images
  • Numériser vos documents papier et les rendre consultables par numéro de facture ou équivalent

Comment utiliser l’OCR

  1. Allez sur convertisseur PDF en Word de PDF2Go
  2. Téléversez votre fichier par glisser-déposer ou depuis votre disque dur, Dropbox ou Google Drive.
  3. Pour la reconnaissance de texte, choisissez "Convertir avec OCR". Configurez les paramètres OCR selon vos besoins.
  4. Dans les paramètres optionnels, choisissez Microsoft Word (.docx) ou Word 2003 ou version antérieure (.doc) dans le menu déroulant.
  5. Cliquez sur "START".