Untuk keperluan merubah dokumen scan menjadi teks (misalnya hasil scan dari tulisan di buku) yang berupa gambar, agar kemudian menjadi bentuk teks diperlukan software OCR. Pada Sistem Oprasi Linux bisa menggunakan aplikasi tesseract.
Berikut langkah-langkah nya.
1. Instalasinya melalui command line :
sudo apt-get install tesseract-ocr
( Apabila mendapatkan pesan error untuk install dependency yang dibutuhkan tesseract, maka gunakan perintah : sudo apt-get -f install , untuk melakukan instalasi dependency tesseract. Kemudian jalankan kembali perintah installasi tesseract : sudo apt-get install tesseract-ocr )
2. Install bahasa ,
untuk bahasa lengkapnya bisa dilihat di sini contohnya (e.g. -ind, -eng, -deu, -fra, -ita, -ndl, -por, -spa, dll)
misalnya dokumen yang akan kita scan berbahasa Indonesia, maka kita install plugin bahasa indonesia
sudo apt-get install tesseract-ocr-ind
3. Jalankan aplikasi tesseract
Berikut langkah-langkah nya.
1. Instalasinya melalui command line :
sudo apt-get install tesseract-ocr
( Apabila mendapatkan pesan error untuk install dependency yang dibutuhkan tesseract, maka gunakan perintah : sudo apt-get -f install , untuk melakukan instalasi dependency tesseract. Kemudian jalankan kembali perintah installasi tesseract : sudo apt-get install tesseract-ocr )
2. Install bahasa ,
untuk bahasa lengkapnya bisa dilihat di sini contohnya (e.g. -ind, -eng, -deu, -fra, -ita, -ndl, -por, -spa, dll)
misalnya dokumen yang akan kita scan berbahasa Indonesia, maka kita install plugin bahasa indonesia
sudo apt-get install tesseract-ocr-ind
3. Jalankan aplikasi tesseract
tesseract scan.jpg texthasilscan -l ind
secara otomatis file hasil convert akan berekstensi .txt, sehingga menjadi texthasilscan.txt, untuk bahasa menggunakan paramater -l ind (untuk bahasa indonesia)
Disini saya mencoba melakukan convert dari file gambar isi buku yang saya ambil menggunakan foto camera hp,
tesseract 1.jpg 1 -l ind
Tunggu beberapa saat sampai proses scanning selesai, jika sudah selesai hasil output akan tampak pada file 1.txt
berikut gambar nya
dan berikut hasil convert nya
Tentang Penulis
JUBILEE ENTERPRISE
Jubilee Enterprise adalah ”a Creative Media Content Provider” dengan
misi ”Mengeksplorasi Teknologi Informasi tercanggih di dunia dan
menyaiikannya dalam bentuk media dengan gaya bahasa yang
sederhana, mudah dicerna, dan gampang dipraktikkan oleh siapa
”
pun .
Di Jubilee Enterprise, ”Information Technology is our passion”_ ltulah
mengapa setiap hari kami mengeksplorasi, meneliti, dan bereks-
perimen dengan banyak teknologi tercanggih saat ini. Hasil penelitian
tersebut kami persembahkan dalam bentuk media cetak (buku) dan
elektronik (blog).
, . . . 'do
, ang diterbitkan oleh PT Elex Media Komputm
BUkU-bUkU kirsrlnpzs Gramedia), telah didistribusikan ke seluruh
Malaysia, membantu dan menginspirasi pembaca-
ketika menggunakan program Photoshop, CorelDraw,
Pembaca kam' f Gagdelf dan lain sebagainya secara mudah dan,
MS Office, |nterne
praklls.
Untuk anda yang tidak biasa dengan 'dunia hitam' (commannd line) di terminal, maka bisa menggunakan aplikasi gimagereader sebagai interface nya,
berikut instalasinya
1. Tambahkan Repository Aplikasi :
sudo add-apt-repository ppa:sandromani/gimagereader
2. Update the repository sources
sudo apt-get update
3. Install the application
sudo apt-get install gimagereader
dan berikut tampilan dari aplikasi graphical frontend gImageReader for tesseract.
Silahkan di eksplorasi lagi aplikasinya,
Semoga bermanfaat,
Seno :)
*reff : https://ubuntu.flowconsult.at/linux/ocr-tesseract-text-recognition-ubuntu-14-04/