digilib@itb.ac.id +62 812 2508 8800

Louis Riemenn [13519016].pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Digitalisasi data menjadi topik yang penting, terutama dalam era modern saat ini. Pemrosesan dokumen secara manual memerlukan waktu dan usaha yang lebih dibandingkan dengan pemrosesan yang sudah diotomatisasi dengan memanfaatkan data digital. Dalam konteks digitalisasi dokumen seperti KTP, SIM, dan KK, optical character recognition digunakan untuk mengubah teks dalam citra menjadi format digital. Format ini kemudian dapat diolah untuk proses digital lebih lanjut. Pada tugas akhir ini, dikembangkan modul pembangkitan data sintetis untuk KTP, SIM, dan KK; modul text detection untuk dokumen KK; dan modul text recognition untuk dokumen KK. Pembangkitan data sintetis dilakukan dengan teknik synthetic composites, yang melibatkan citra asli yang telah dimodifikasi dengan menambahkan unsur-unsur sintetis yang sebelumnya tidak ada. Citra asli (citra dari setiap dokumen KTP, SIM, dan KK) dimodifikasi dengan cara menghilangkan informasi-informasi tertentu pada citra. Pada citra hasil modifikasi kemudian digambar informasi palsu lalu diberikan derau dan dimiringkan. Modul text detection dan text recognition dibangun dengan tiga tahapan. Tahapan pertama adalah pemilihan model yang paling sesuai melalui benchmarking. Tahapan kedua adalah melatih model yang terpilih menggunakan dataset KK. Tahapan terakhir adalah evaluasi model untuk memastikan bahwa model memiliki kinerja yang baik dan lebih baik dari sebelumnya. Berdasarkan benchmarking yang telah dilakukan, model yang terpilih untuk text detection adalah DB dengan backbone MobileNetV3. Sedangkan model yang terpilih untuk text recognition adalah SVTR dengan backbone SVTR-Tiny. Model yang terpilih juga telah memiliki kinerja yang lebih baik setelah melalui pelatihan dengan dataset KK, yaitu untuk model text detection dengan precision 97.80%, recall 97.29%, dan hmean 97.54%, sedangkan untuk model text recognition memiliki akurasi 99.99%.