digilib@itb.ac.id +62 812 2508 8800

13519161 Harith Fakhiri Setiawan.pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Digitalisasi Pengarsipan menjadi salah satu solusi yang baik dalam menangani kebutuhan pengarsipan yang ada sekarang ini. Salah satu metode yang dapat membantu dalam digitalisasi pengarsipan adalah dengan menerapkan Optical Character Recognition (OCR). Namun, perangkat lunak OCR yang sekarang ini sedang marak sebagian besar masih memerlukan internet dalam penggunaannya. Padahal, akses jaringan internet di Indonesia masih belum merata. Selain itu, kebutuhan akan perangkat lunak OCR dalam membantu digitalisasi pengarsipan dokumen formal terus meningkat, contohnya digitalisasi dokumen formal NPWP. Oleh karena itu, perlu dikembangkan sebuah sistem pemahaman dokumen formal NPWP yang mempertimbangkan faktor akses jaringan internet masyarakat Indonesia. Sistem pemahaman dokumen formal NPWP terdiri dari 5 tahap, yaitu pra-pemrosesan citra, text recognition, re-alignment, text detection, serta NER Tagging. Model yang digunakan dalam sistem pemahaman adalah DB++ ResNet50 untuk text detection dengan F1 3 skor bernilai 93,4% ?PP-OCRv3 untuk text recognition dengan CER bernilai 7.87%, dan model NER dari spaCy untuk NER Tagging dengan nilai 100%. Model tersebut dipilih berdasarkan performa yang telah diuji berdasarkan metrik penilaian, ukuran dan waktu inferensinya. Hasil pengujian menunjukkan model yang digunakan sudah memiliki kinerja yang baik dan berhasil diintegrasikan pada perangkat lunak OCR yang dibuat. Selain itu, digunakan juga strategi meminimalisasi penggunaan internet dengan sistem backend berupa REST API dengan framework Flask.