digilib@itb.ac.id +62 812 2508 8800

Salah satu permasalahan Post OCR Error Detection adalah keterbatasaannya dalam mendeteksi error untuk pola-pola unik yang tidak bergantung pada bahasa tertentu. Belum ada penelitian yang khusus menghadapi permasalahan ini, pendekatan regex dan lexicon dianggap sulit beradaptasi untuk tipe dokumen yang dinamis dan pendekatan Deep Learning membutuhkan waktu yang lama untuk training dan biaya komputasi yang tinggi. Metode NCD (gzip) kNN menawarkan solusi klasifikasi yang sama baiknya dengan metode Deep Learning seperti BERT dan mampu mencapai akurasi yang sebanding tanpa training dan biaya komputasi tinggi. Pengaplikasian metode NCD (gzip) kNN untuk klasifikasi error pada data teks pendek yang biasa ditemukan pada data teks formulir menunjukkan hasil penurunan akurasi yang signifikan dibandingkan dengan data teks panjang dan waktu prediksi yang lama, hal ini disebabkan oleh tipe data teks pendek dan klasifikasi error yang sulit dibedakan oleh NCD (gzip), oleh karena itu dicoba pendekatan lain untuk teknik kompresinya dengan menggunakan zstd dictionary, metode ini berhasil menurunkan waktu prediksi dari yang sebelumnya 3,5s menjadi 0,015ms namun dari segi akurasi metode ini masih belum membaik dibandingkan dengan NCD (gzip) kNN. Pendekatan LZ78 custom compression dibuat dengan tujuan untuk mendeteksi perbedaan antar data yang error dan tidak error, metode ini berhasil meningkatkan akurasi menjadi 0,69 untuk dataset teks pendek meskipun jika dibandingkan metode Deep Learning hasil tersebut belum melampaui BERT. Penggunaan dataset FUNSD+ digunakan untuk implementasi metode LZ78 pada data formulir menunjukkan hasil akurasi 0,745 dan nilai presisi 0,85 di mana untuk akurasi OCR 0,511 metode ini dapat meningkatkan akurasi OCR tersebut menjadi 0,93. Metode LZ78 custom compression menawarkan Post OCR Error Detection pada teks pendek dari data formulir dengan komputasi yang ringan dan waktu training 0,5s untuk tiap label.