Organisasi pemerintah menghasilkan dokumen yang masif sebagai bagian dari
proses layanan. Dokumen pada umumnya hasil scan dan photo capture yang
disimpan dalam format gambar atau pdf. Permasalahan yang terjadi pada
operasional adalah perekaman data yang kurang efisien dengan dibutuhkan biaya
yang besar untuk perangkat lunak, perangkat keras, dan sumber daya manusia.
Selain itu waktu yang dibutuhkan untuk merekam dalam satu siklus dokumen
kurang lebih 62 – 217 detik.
Penelitian ditujukan untuk membantu proses perekaman data dengan mengganti
proses yang dilakukan oleh manusia dengan proses yang dilakukan oleh mesin.
Telah dikembangkan banyak model pembelajaran mesin yang dilakukan untuk
menyelesaikan pekerjaan klasifikasi dengan melakukan ekstraksi fitur visual dan
teks pada dokumen. Penelitian ini mengajukan desain framework untuk problem
spesifik yaitu klasifikasi dokumen arsip Indonesia berbasis supervised learning
memanfaatkan metode transfer learning, multimodal, dan modular pada proses
pembelajaran mesin. Framework usulan terdiri dari proses identifikasi
permasalahan dan manfaat, identifikasi situasi, identifikasi data, perencanaan tata
kelola, persiapan data, penciptaan data, pemrosesan awal data, pemodelan, evaluasi
model, implementasi, pengawasan dan perawatan, serta meninjau dan klarifikasi
manfaat.
Eksperimen dan evaluasi menunjukkan desain framework dapat memberikan
manfaat pada organisasi dengan memberikan akurasi klasifikasi yang optimal.
Selain itu framework dengan mudah diimplementasikan untuk permasalahan
klasifikasi dokumen. Framework menghasilkan akurasi 97% untuk klasifikasi jenis
dokumen, 100% untuk klasifikasi kode dokumen, dan 84% untuk ekstraksi entitas
dokumen. Framework menghasilkan durasi perekaman dokumen kurang lebih 38,5
sampai dengan 140 detik pada setiap siklus perekaman dokumen. Berdasarkan
justifikasi tenaga ahli, framework dinilai sangat baik dengan skor 86,46%.