13519161 Harith Fakhiri Setiawan.pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Digitalisasi Pengarsipan menjadi salah satu solusi yang baik dalam menangani kebutuhan
pengarsipan yang ada sekarang ini. Salah satu metode yang dapat membantu dalam
digitalisasi pengarsipan adalah dengan menerapkan Optical Character Recognition (OCR).
Namun, perangkat lunak OCR yang sekarang ini sedang marak sebagian besar masih
memerlukan internet dalam penggunaannya. Padahal, akses jaringan internet di Indonesia
masih belum merata. Selain itu, kebutuhan akan perangkat lunak OCR dalam membantu
digitalisasi pengarsipan dokumen formal terus meningkat, contohnya digitalisasi dokumen
formal NPWP. Oleh karena itu, perlu dikembangkan sebuah sistem pemahaman dokumen
formal NPWP yang mempertimbangkan faktor akses jaringan internet masyarakat Indonesia.
Sistem pemahaman dokumen formal NPWP terdiri dari 5 tahap, yaitu pra-pemrosesan citra,
text recognition, re-alignment, text detection, serta NER Tagging. Model yang digunakan
dalam sistem pemahaman adalah DB++ ResNet50 untuk text detection dengan F1
3
skor
bernilai 93,4% ?PP-OCRv3 untuk text recognition dengan CER bernilai 7.87%, dan model
NER dari spaCy untuk NER Tagging dengan nilai 100%. Model tersebut dipilih berdasarkan
performa yang telah diuji berdasarkan metrik penilaian, ukuran dan waktu inferensinya. Hasil
pengujian menunjukkan model yang digunakan sudah memiliki kinerja yang baik dan
berhasil diintegrasikan pada perangkat lunak OCR yang dibuat. Selain itu, digunakan juga
strategi meminimalisasi penggunaan internet dengan sistem backend berupa REST API
dengan framework Flask.