14 September 2015

Scan OCR gambar menjadi teks di linux ubuntu


Untuk keperluan merubah dokumen scan menjadi teks (misalnya hasil scan dari tulisan di buku) yang berupa gambar, agar kemudian menjadi bentuk teks diperlukan software OCR. Pada Sistem Oprasi Linux bisa menggunakan aplikasi tesseract. 

Berikut langkah-langkah nya.

1. Instalasinya melalui command line :

sudo apt-get install tesseract-ocr

( Apabila mendapatkan pesan error untuk install dependency yang dibutuhkan tesseract, maka gunakan perintah : sudo apt-get -f install , untuk melakukan instalasi dependency tesseract. Kemudian jalankan kembali perintah installasi tesseract : sudo apt-get install tesseract-ocr )

2. Install bahasa , 
untuk bahasa lengkapnya bisa dilihat di sini  contohnya (e.g. -ind, -eng, -deu, -fra, -ita, -ndl, -por, -spa, dll)
misalnya dokumen yang akan kita scan berbahasa Indonesia, maka kita install plugin bahasa indonesia

sudo apt-get install tesseract-ocr-ind

3. Jalankan aplikasi tesseract

tesseract scan.jpg texthasilscan -l ind

secara otomatis file hasil convert akan berekstensi .txt, sehingga menjadi texthasilscan.txt, untuk bahasa menggunakan paramater -l ind (untuk bahasa indonesia)

Disini saya mencoba melakukan convert dari file gambar isi buku yang saya ambil menggunakan foto camera hp,

tesseract 1.jpg 1 -l ind

Tunggu beberapa saat sampai proses scanning selesai, jika sudah selesai hasil output akan tampak pada file 1.txt 

berikut gambar nya

dan berikut hasil convert nya
   

Tentang Penulis
JUBILEE ENTERPRISE
Jubilee Enterprise adalah ”a Creative Media Content Provider” dengan
misi ”Mengeksplorasi Teknologi Informasi tercanggih di dunia dan
menyaiikannya dalam bentuk media dengan gaya bahasa yang
sederhana, mudah dicerna, dan gampang dipraktikkan oleh siapa

pun .
Di Jubilee Enterprise, ”Information Technology is our passion”_ ltulah
mengapa setiap hari kami mengeksplorasi, meneliti, dan bereks-
perimen dengan banyak teknologi tercanggih saat ini. Hasil penelitian
tersebut kami persembahkan dalam bentuk media cetak (buku) dan
elektronik (blog).
, . . . 'do
, ang diterbitkan oleh PT Elex Media Komputm
BUkU-bUkU kirsrlnpzs Gramedia), telah didistribusikan ke seluruh
Malaysia, membantu dan menginspirasi pembaca-
ketika menggunakan program Photoshop, CorelDraw,
Pembaca kam' f Gagdelf dan lain sebagainya secara mudah dan,
MS Office, |nterne
praklls.

Selanjutnya tinggal disesuaikan dan dikoreksi secara manual.

Untuk anda yang tidak biasa dengan 'dunia hitam' (commannd line) di terminal, maka bisa menggunakan aplikasi gimagereader  sebagai interface nya,
berikut instalasinya

1. Tambahkan Repository Aplikasi :

sudo add-apt-repository ppa:sandromani/gimagereader

2. Update the repository sources

sudo apt-get update

3. Install the application

sudo apt-get install gimagereader

dan berikut tampilan dari aplikasi graphical frontend gImageReader for tesseract.


Silahkan di eksplorasi lagi aplikasinya,

Semoga bermanfaat,

Seno :)

*reff : https://ubuntu.flowconsult.at/linux/ocr-tesseract-text-recognition-ubuntu-14-04/