Apa itu OCR?
OCR adalah singkatan dari Optical Character Recognition. Proses ini digunakan untuk mengenali representasi visual teks, misalnya dalam gambar. Berdasarkan hal ini, OCR dapat membuat teks sebenarnya yang kemudian dapat diedit, disalin, diubah, dan sebagainya. OCR bekerja sangat baik dengan teks ketikan dan cetakan, dan hanya pada kasus yang sangat jarang untuk teks tulisan tangan.
Bagaimana cara kerja optical character recognition?
OCR dapat bekerja dengan dua cara: satu karakter dalam satu waktu atau satu kata dalam satu waktu. Cara pertama adalah yang paling sering digunakan karena cara kedua mengharuskan bahasa tersebut memisahkan kata dengan spasi.
Pada awalnya, pemroses OCR dilatih untuk mengenali karakter tunggal dalam satu jenis font tertentu. Saat ini, sebagian besar font sans dan serif sudah dikenal dan dapat dikenali oleh OCR. Bahkan pemindaian miring dan gambar yang tidak 100% lurus pun dapat diinterpretasikan dengan cukup baik. Ini berkat pra-pemrosesan yang dilakukan banyak program OCR. Ini mencakup pelurusan (deskewing) dan pembersihan bintik (despeckling), mengubah hasil scan atau gambar menjadi skala abu-abu, dan lainnya.
Kasus penggunaan optical character recognition
Mengapa Anda perlu atau ingin menggunakan OCR? Berikut beberapa kasus penggunaan yang umum:
- Buat catatan berdasarkan slide kuliah dan presentasi yang Anda foto
- Ambil teks dari dokumen yang dipindai sebagai gambar
- Digitalisasi dokumen Anda dan buat dapat dicari, misalnya berdasarkan nomor faktur
Cara menggunakan OCR
- Masuk ke konverter PDF ke Word dari PDF2Go
- Upload file Anda dengan drag & drop atau unggah dari hard drive, Dropbox, atau Google Drive.
- Untuk pengenalan teks, pilih "Convert with OCR". Konfigurasikan pengaturan OCR agar sesuai dengan kebutuhan Anda.
- Di pengaturan opsional, pilih Microsoft Word (.docx) atau Word 2003 atau yang lebih lama (.doc) dari menu dropdown.
- Klik "START".