digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Perkembangan teknologi Optical Character Recognition (OCR) semakin berperan penting dalam otomatisasi ekstraksi informasi dari dokumen digital maupun non-digital. Namun, sebagian besar sistem OCR yang tersedia masih bersifat umum (general-purpose) dan belum optimal dalam menangani data domain tertentu yang memiliki struktur dan terminologi spesifik. Penelitian ini bertujuan untuk mengembangkan sistem OCR berbasis pre-trained models yang dioptimalkan melalui pendekatan fine-tuning, dengan fokus pada perbandingan dua arsitektur utama: OCR+LLM (pipeline berbasis ekstraksi teks dan pemahaman konteks oleh language model) dan Donut (end-to-end multimodal transformer). Evaluasi dilakukan secara bertahap pada tiga skenario: baseline (tanpa fine-tuning), fine-tuning parsial (20% langkah pelatihan), dan fine-tuning penuh (90% langkah pelatihan). Tiga metrik utama digunakan dalam pengujian, yaitu Exact Match (EM), Field Accuracy (FA), dan Edit Distance (ED). Hasil eksperimen menunjukkan bahwa pada baseline, Donut unggul tipis dengan field accuracy 13,2% dibandingkan OCR+LLM yang hanya 9,9%. Namun, setelah fine-tuning penuh, OCR+LLM secara konsisten melampaui Donut dengan EM 30,9%, field accuracy 60,9%, dan edit distance 0,3. Temuan ini menegaskan bahwa proses fine-tuning merupakan faktor krusial dalam meningkatkan kinerja model OCR domain-spesifik, serta menunjukkan bahwa arsitektur pipeline OCR+LLM memiliki kapasitas adaptasi yang lebih tinggi dibandingkan model end-to-end seperti Donut. Penelitian ini membuktikan kelayakan pengembangan sistem OCR berbasis pre-trained models yang dapat disesuaikan dengan kebutuhan domain tertentu, sekaligus membuka ruang eksplorasi lebih lanjut terkait optimisasi strategi fine-tuning dan integrasi multimodal untuk meningkatkan akurasi serta efisiensi.