digilib@itb.ac.id +62 812 2508 8800

Syarifah Aisha Geubrina Yasmin [13519089].pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Pengarsipan dokumen digital mengatasi keterbatasan kualitas dokumen fisik dan mempermudah pengolahan informasi. Proses digitalisasi dapat dibantu dengan sistem Optical Character Recognition (OCR), tetapi sampai saat ini, perangkat lunak OCR yang terintegrasi dengan basis data untuk menangani dokumen formal, lebih spesifik lagi rekening koran, dan yang memperhatikan akses internet di Indonesia belum banyak dikembangkan sehingga dibutuhkan sistem pemahaman dokumen formal rekening koran yang mendukung hal tersebut. Sistem pemahaman dokumen formal rekening koran terdiri dari 5 tahap, yaitu pra-pemrosesan citra, text detection, re-alignment, text recognition, dan NER tagging untuk dapat mengekstraksi informasi penting dari rekening koran. Model yang digunakan untuk masing-masing text detection, text recognition, dan NER tagging adalah PP-OCRv3 dengan nilai F! " Score 93,8%, SVTR dengan nilai CER 5.629%, dan model NER dari kakas spaCy dengan akurasi 100% (BCA) dan 99% (BNI). Model dihasilkan dari proses pelatihan ulang pada pre-trained model dengan data sintesis rekening koran. Pengujian performa tiap-tiap model didasarkan kepada metrik penilaian untuk masing-masing model serta ukuran dan waktu inferensi. Selain itu, dalam usaha meminimalisasi penggunaan internet, strategi yang digunakan adalah dengan implementasi sistem backend berupa API menggunakan framework Flask.