Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Perkembangan teknologi Optical Character Recognition (OCR) semakin berperan penting
dalam otomatisasi ekstraksi informasi dari dokumen digital maupun non-digital. Namun,
sebagian besar sistem OCR yang tersedia masih bersifat umum (general-purpose) dan belum
optimal dalam menangani data domain tertentu yang memiliki struktur dan terminologi
spesifik. Penelitian ini bertujuan untuk mengembangkan sistem OCR berbasis pre-trained
models yang dioptimalkan melalui pendekatan fine-tuning, dengan fokus pada perbandingan
dua arsitektur utama: OCR+LLM (pipeline berbasis ekstraksi teks dan pemahaman konteks
oleh language model) dan Donut (end-to-end multimodal transformer). Evaluasi dilakukan
secara bertahap pada tiga skenario: baseline (tanpa fine-tuning), fine-tuning parsial (20%
langkah pelatihan), dan fine-tuning penuh (90% langkah pelatihan). Tiga metrik utama
digunakan dalam pengujian, yaitu Exact Match (EM), Field Accuracy (FA), dan Edit Distance
(ED). Hasil eksperimen menunjukkan bahwa pada baseline, Donut unggul tipis dengan field
accuracy 13,2% dibandingkan OCR+LLM yang hanya 9,9%. Namun, setelah fine-tuning
penuh, OCR+LLM secara konsisten melampaui Donut dengan EM 30,9%, field accuracy
60,9%, dan edit distance 0,3. Temuan ini menegaskan bahwa proses fine-tuning merupakan
faktor krusial dalam meningkatkan kinerja model OCR domain-spesifik, serta menunjukkan
bahwa arsitektur pipeline OCR+LLM memiliki kapasitas adaptasi yang lebih tinggi
dibandingkan model end-to-end seperti Donut. Penelitian ini membuktikan kelayakan
pengembangan sistem OCR berbasis pre-trained models yang dapat disesuaikan dengan
kebutuhan domain tertentu, sekaligus membuka ruang eksplorasi lebih lanjut terkait optimisasi
strategi fine-tuning dan integrasi multimodal untuk meningkatkan akurasi serta efisiensi.
Perpustakaan Digital ITB