digilib@itb.ac.id +62 812 2508 8800

Sharon Bernadetha Marbun [13519092].pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Dokumen resmi seperti KTP, SIM, dan KK sangat penting untuk didigitalisasi untuk mempermudah proses input data, pencarian informasi, dan analisis data. Namun, tantangan muncul akibat ketidakmerataan akses internet di Indonesia. Oleh karena itu, tujuan dari capstone ini adalah mengembangkan aplikasi OCR berbasis mobile yang dapat bekerja dalam mode luring, untuk mendigitalisasi dokumen KTP, SIM, dan KK. Dengan adanya pembagian tugas di antara anggota tim capstone, fokus utama dari tugas akhir ini adalah pengembangan modul OCR, termasuk modul text detection dan text recognition, untuk membaca dokumen KTP, serta pengembangan modul NER untuk mengubah hasil bacaan dari modul OCR menjadi data terstruktur melalui pengenalan entitas bernama. Modul text detection dan text recognition untuk KTP dikembangkan dengan memilih model pretrain terbaik berdasarkan benchmarking, kemudian melatih model tersebut menggunakan dataset KTP. Model yang telah dilatih kemudian dievaluasi dan dikonversi ke format mobile untuk kebutuhan deployment. Model yang dipilih untuk text detection adalah model DB dengan backbone MobileNetV3. Hasil evaluasi menunjukkan bahwa model text detection yang telah dilatih memiliki kinerja dan efisiensi yang baik, dengan precision 98.73%, recall 97.5%, hmean 98.11%, ukuran 2.26 MB, dan waktu inferensi 2.0129 detik. Model yang dipilih untuk text recognition adalah model SVTR dengan backbone SVTR-Tiny. Hasil evaluasi menunjukkan bahwa model text recognition yang telah dilatih memiliki kinerja dan efisiensi yang baik, dengan accuracy 99.37%, ukuran 8.85 MB, dan waktu inferensi 1.4201 detik. Modul NER untuk mengenali entitas pada hasil bacaan OCR dokumen KTP, SIM, dan KK dikembangkan secara terpisah dengan menggunakan pendekatan berbasis lexicon dan aturan. Kamus dan aturan yang digunakan disesuaikan terhadap karakteristik dokumen masing-masing. Hasil evaluasi menunjukkan bahwa modul NER sudah memiliki kinerja yang baik dalam mengenali entitas pada hasil OCR ketiga dokumen tersebut, yaitu dengan accuracy 100% untuk setiap entitas.