Arsip Nasional Republik Indonesia (ANRI) menyimpan ribuan koleksi dokumen
paleografi dari abad ke-16 hingga ke-18 yang memiliki nilai sejarah krusial.
Namun, sebagian besar dokumen tersebut mengalami degradasi fisik yang parah
akibat faktor usia, kelembapan tropis, dan korosi tinta iron gall. Kondisi ini
memunculkan tantangan ganda: dokumen sulit dibaca secara visual oleh manusia
dan hampir mustahil diproses oleh mesin. Pendekatan restorasi konvensional selama
ini cenderung menitikberatkan pada perbaikan visual semata (estetika), seperti
penghilangan noda dan peningkatan kontras. Sayangnya, peningkatan kualitas
visual tersebut tidak selalu berbanding lurus dengan peningkatan keterbacaan mesin,
yang menjadi syarat mutlak bagi upaya digitalisasi dan pengindeksan arsip secara
massal. Kesenjangan antara kualitas visual dan fungsional inilah yang menjadi fokus
utama penelitian ini. Penelitian ini bertujuan mengembangkan metode restorasi
dokumen berbasis Generative Adversarial Network (GAN) yang secara eksplisit
mengintegrasikan umpan balik semantik guna meningkatkan kinerja Handwritten
Text Recognition (HTR). Kebaruan penelitian ini terletak pada penerapan strategi
frozen recognizer yang dikombinasikan dengan fungsi kerugian multiobjektif lima
komponen, serta evaluasi mendalam terhadap arsitektur diskriminator dual-modal.
Metode yang digunakan melibatkan pelatihan generator U-Net yang dimodifikasi,
yang belajar tidak hanya dari perbedaan piksel citra, tetapi juga dari umpan balik
gradien model pengenal teks yang bobotnya dibekukan. Pendekatan ini dirancang
untuk menjaga stabilitas pelatihan yang sering kali menjadi masalah pada arsitektur
GAN konvensional. Evaluasi dilakukan secara komprehensif menggunakan 712 citra
uji semisintetis yang merepresentasikan karakteristik degradasi dokumen historis.
Hasil penelitian menunjukkan bahwa model yang diusulkan mampu menurunkan
Character Error Rate (CER) secara signifikan dari rata-rata 83,4% pada dokumen
terdegradasi menjadi 34,9% pada dokumen hasil restorasi (p < 0,001). Capaian
CER 34,9% ini hampir setara dengan CER 34,1% yang diperoleh ketika model
pengenal memproses citra bersih tanpa degradasi—batas bawah teoretis yang
mencerminkan keterbatasan inheren model pengenal itu sendiri. Selain keunggulan
fungsional, model juga mempertahankan kualitas visual yang tinggi dengan skor Peak
i
Signal-to-Noise Ratio (PSNR) mencapai 30,74 dB dan Structural Similarity Index
(SSIM) sebesar 0,987. Dibandingkan dengan penelitian sejenis yang menggunakan
arsitektur joint-training, pendekatan frozen recognizer terbukti lebih unggul dalam
mencegah fenomena mode collapse dan ketidakstabilan gradien. Melalui studi
ablasi, penelitian ini mengungkap temuan empiris yang menantang asumsi umum
dalam literatur deep learning terkini. Studi ini menemukan bahwa penambahan
kompleksitas arsitektur melalui diskriminator dual-modal (visual-tekstual) hanya
memberikan kontribusi peningkatan kinerja yang marginal dan tidak signifikan secara
statistik. Sebaliknya, protokol pelatihan yang disiplin menggunakan strategi frozen
recognizer dan penyeimbangan fungsi loss terbukti menjadi faktor determinan utama
keberhasilan restorasi. Hal ini mengindikasikan bahwa stabilitas sinyal pembelajaran
jauh lebih vital daripada kompleksitas arsitektur jaringan itu sendiri. Secara teoretis,
penelitian ini menyumbangkan wawasan baru mengenai prinsip parsimoni dalam
perancangan jaringan saraf tiruan untuk restorasi dokumen, yakni arsitektur yang
lebih efisien dapat mengungguli arsitektur kompleks apabila dilatih dengan strategi
berobjektif ganda yang tepat. Secara praktis, metode ini menawarkan solusi konkret
bagi lembaga kearsipan untuk mempercepat proses transkripsi otomatis dokumen
historis yang sebelumnya tidak terbaca, membuka peluang baru bagi pelestarian
warisan budaya bangsa di era digital.
Perpustakaan Digital ITB