Salah satu permasalahan Post OCR Error Detection adalah keterbatasaannya dalam
mendeteksi error untuk pola-pola unik yang tidak bergantung pada bahasa tertentu. Belum ada
penelitian yang khusus menghadapi permasalahan ini, pendekatan regex dan lexicon dianggap
sulit beradaptasi untuk tipe dokumen yang dinamis dan pendekatan Deep Learning
membutuhkan waktu yang lama untuk training dan biaya komputasi yang tinggi. Metode NCD
(gzip) kNN menawarkan solusi klasifikasi yang sama baiknya dengan metode Deep Learning
seperti BERT dan mampu mencapai akurasi yang sebanding tanpa training dan biaya
komputasi tinggi. Pengaplikasian metode NCD (gzip) kNN untuk klasifikasi error pada data
teks pendek yang biasa ditemukan pada data teks formulir menunjukkan hasil penurunan
akurasi yang signifikan dibandingkan dengan data teks panjang dan waktu prediksi yang lama,
hal ini disebabkan oleh tipe data teks pendek dan klasifikasi error yang sulit dibedakan oleh
NCD (gzip), oleh karena itu dicoba pendekatan lain untuk teknik kompresinya dengan
menggunakan zstd dictionary, metode ini berhasil menurunkan waktu prediksi dari yang
sebelumnya 3,5s menjadi 0,015ms namun dari segi akurasi metode ini masih belum membaik
dibandingkan dengan NCD (gzip) kNN. Pendekatan LZ78 custom compression dibuat dengan
tujuan untuk mendeteksi perbedaan antar data yang error dan tidak error, metode ini berhasil
meningkatkan akurasi menjadi 0,69 untuk dataset teks pendek meskipun jika dibandingkan
metode Deep Learning hasil tersebut belum melampaui BERT. Penggunaan dataset FUNSD+
digunakan untuk implementasi metode LZ78 pada data formulir menunjukkan hasil akurasi
0,745 dan nilai presisi 0,85 di mana untuk akurasi OCR 0,511 metode ini dapat meningkatkan
akurasi OCR tersebut menjadi 0,93. Metode LZ78 custom compression menawarkan Post OCR
Error Detection pada teks pendek dari data formulir dengan komputasi yang ringan dan waktu
training 0,5s untuk tiap label.