OCR - Nhận dạng ký tự quang học

OCR là gì?

OCR là viết tắt của Nhận dạng ký tự quang học. Quy trình này được dùng để nhận diện phần chữ hiển thị, ví dụ như trong một hình ảnh. Dựa trên đó, OCR có thể tạo văn bản thực để bạn có thể chỉnh sửa, sao chép, thay đổi, v.v. OCR hoạt động rất tốt với văn bản được gõ và in, và chỉ trong một số rất ít trường hợp với chữ viết tay.

Nhận dạng ký tự quang học hoạt động như thế nào?

OCR có thể hoạt động theo hai cách: từng ký tự một hoặc từng từ một. Cách thứ nhất được dùng phổ biến hơn vì cách thứ hai yêu cầu ngôn ngữ phải tách từ bằng dấu cách.

Ban đầu, các bộ xử lý OCR được huấn luyện để nhận diện từng ký tự trong một phông chữ cụ thể. Đến nay, hầu hết các phông chữ sans và serif đều đã được OCR biết đến và có thể nhận diện. Ngay cả những bản quét bị lệch và hình ảnh không hoàn toàn thẳng cũng được xử lý khá tốt. Điều này là nhờ phần tiền xử lý mà nhiều chương trình OCR thực hiện. Nó bao gồm căn lại cho thẳng và khử nhiễu, chuyển bản quét hoặc hình ảnh sang thang xám, v.v.

Các trường hợp sử dụng nhận dạng ký tự quang học

Tại sao bạn lại cần hoặc muốn dùng OCR? Dưới đây là một số trường hợp sử dụng phổ biến:

  • Tạo ghi chú dựa trên slide bài giảng và trình bày mà bạn đã chụp ảnh
  • Trích xuất văn bản từ tài liệu được quét dưới dạng hình ảnh
  • Số hóa giấy tờ của bạn và giúp chúng có thể tìm kiếm theo số hóa đơn hoặc tương tự

Cách sử dụng OCR

  1. Truy cập trình chuyển đổi PDF sang Word của PDF2Go
  2. Tải tệp của bạn lên bằng cách kéo & thả hoặc tải từ ổ cứng, Dropbox hay Google Drive.
  3. Để nhận diện văn bản, hãy chọn "Convert with OCR". Cấu hình cài đặt OCR để phù hợp với nhu cầu của bạn.
  4. Trong cài đặt tùy chọn, hãy chọn Microsoft Word (.docx) hoặc Word 2003 trở về trước (.doc) từ menu thả xuống.
  5. Nhấp vào "START".