Langsung ke konten utama

Scan OCR gambar menjadi teks di linux ubuntu


Untuk keperluan merubah dokumen scan menjadi teks (misalnya hasil scan dari tulisan di buku) yang berupa gambar, agar kemudian menjadi bentuk teks diperlukan software OCR. Pada Sistem Oprasi Linux bisa menggunakan aplikasi tesseract. 

Berikut langkah-langkah nya.

1. Instalasinya melalui command line :

sudo apt-get install tesseract-ocr

( Apabila mendapatkan pesan error untuk install dependency yang dibutuhkan tesseract, maka gunakan perintah : sudo apt-get -f install , untuk melakukan instalasi dependency tesseract. Kemudian jalankan kembali perintah installasi tesseract : sudo apt-get install tesseract-ocr )

2. Install bahasa , 
untuk bahasa lengkapnya bisa dilihat di sini  contohnya (e.g. -ind, -eng, -deu, -fra, -ita, -ndl, -por, -spa, dll)
misalnya dokumen yang akan kita scan berbahasa Indonesia, maka kita install plugin bahasa indonesia

sudo apt-get install tesseract-ocr-ind

3. Jalankan aplikasi tesseract

tesseract scan.jpg texthasilscan -l ind

secara otomatis file hasil convert akan berekstensi .txt, sehingga menjadi texthasilscan.txt, untuk bahasa menggunakan paramater -l ind (untuk bahasa indonesia)

Disini saya mencoba melakukan convert dari file gambar isi buku yang saya ambil menggunakan foto camera hp,

tesseract 1.jpg 1 -l ind

Tunggu beberapa saat sampai proses scanning selesai, jika sudah selesai hasil output akan tampak pada file 1.txt 

berikut gambar nya

dan berikut hasil convert nya
   

Tentang Penulis
JUBILEE ENTERPRISE
Jubilee Enterprise adalah ”a Creative Media Content Provider” dengan
misi ”Mengeksplorasi Teknologi Informasi tercanggih di dunia dan
menyaiikannya dalam bentuk media dengan gaya bahasa yang
sederhana, mudah dicerna, dan gampang dipraktikkan oleh siapa

pun .
Di Jubilee Enterprise, ”Information Technology is our passion”_ ltulah
mengapa setiap hari kami mengeksplorasi, meneliti, dan bereks-
perimen dengan banyak teknologi tercanggih saat ini. Hasil penelitian
tersebut kami persembahkan dalam bentuk media cetak (buku) dan
elektronik (blog).
, . . . 'do
, ang diterbitkan oleh PT Elex Media Komputm
BUkU-bUkU kirsrlnpzs Gramedia), telah didistribusikan ke seluruh
Malaysia, membantu dan menginspirasi pembaca-
ketika menggunakan program Photoshop, CorelDraw,
Pembaca kam' f Gagdelf dan lain sebagainya secara mudah dan,
MS Office, |nterne
praklls.

Selanjutnya tinggal disesuaikan dan dikoreksi secara manual.

Untuk anda yang tidak biasa dengan 'dunia hitam' (commannd line) di terminal, maka bisa menggunakan aplikasi gimagereader  sebagai interface nya,
berikut instalasinya

1. Tambahkan Repository Aplikasi :

sudo add-apt-repository ppa:sandromani/gimagereader

2. Update the repository sources

sudo apt-get update

3. Install the application

sudo apt-get install gimagereader

dan berikut tampilan dari aplikasi graphical frontend gImageReader for tesseract.


Silahkan di eksplorasi lagi aplikasinya,

Semoga bermanfaat,

Seno :)

*reff : https://ubuntu.flowconsult.at/linux/ocr-tesseract-text-recognition-ubuntu-14-04/

Komentar

Postingan populer dari blog ini

Membuka konten halaman web yang telah expired

Pernahkan anda mempunyai web yang telah expired, dan konten di dalamnya juga belum sempat terselamatkan, atau ingin melihat isi dari web yang telah expired masa berlaku domainnya. Berikut ini cara untuk membuka history halaman web yang telah expired.
Masuk ke alamat https://archive.org/web/
Silahkan masukkan alamat web yang diinginkan, kemudian klik Browse History.



Kemudian pilih tanggal pada saat website di capture yang ditandai dengan efek bold seperti dibawah ini.



Maka akan tampil konten website pada tanggal di capture tersebut.

Semoga bermanfaat.,



Aplikasi Untuk Membuka file Epub di Komputer dan Android

Sekarang ini banyak kita jumpai ebook-ebook di internet baik yang gratis maupun yang berbayar, ekstensi ebook pun kian hari kian berkembang, dari jaman dahulu banyak ebook-ebook kecil berekstensi .txt , kemudian untuk yang skala lebih besar lagi berekstensi .rtf, .chm, .hpl dan lain sebagainya. Namun sekarang semakin berkembangnya jaman, ebook semakin canggih juga, ekstensi yang masih sering digunakan ialah pdf, doc, dan yang lebih modern lagi adalah .epub . Kenapa saya katakan modern, karena .epub ini menurut saya ekstensi paling bagus diantara yang lainnya, lebih interaktif, lebih jernih dan lebih nyaman membacanya. Nah untuk mengetahui tentang asal usul epub, bisa langsung mengunjungi halaman berikut ini http://en.wikipedia.org/wiki/EPUB
Disini yang akan saya bahas adalah cara membuka file .epub . Untuk membukanya, : Pada perangkat komputer (os windows maupun linux) , bisa menggunakan aplikasi calibre , silahkan di unduh aplikasinya :)Pada perangkat Android, bisa menggunakan aplikasi moo…

Menambahkan Hardisk pada Proxmox

Untuk menambahkan hardisk baru pada proxmox,langkah pertama adalah pastikan hardisk sudah terpasang di komputer. Selanjutnya masuk ke server proxmox, dan jalankan perintah berikut untuk mengetahui letak hardisk baru tersebut fdisk -l
Akan terlihat letak dari hardisk baru tersebut, ditempat saya terletak pada /dev/sdb root@seno:~# fdisk -l

WARNING: GPT (GUID Partition Table) detected on '/dev/sda'! The util fdisk doesn't support GPT. Use GNU Parted.


Disk /dev/sda: 300.0 GB, 300000000000 bytes
255 heads, 63 sectors/track, 36472 cylinders, total 585937500 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x00000000

 Device Boot      Start         End      Blocks   Id  System
/dev/sda1               1   585937499   292968749+  ee  GPT

WARNING: GPT (GUID Partition Table) detected on '/dev/sdb'! The util fdisk doesn't support GPT. Use GNU Parted.

Disk /dev/sdb:…