
Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Perkembangan large language model yang pesat membuat model kecerdasan
buatan memiliki kemampuan kognitif yang mirip seperti manusia. Dalam
pengembangan model ini, penting untuk memastikan model dapat terus diperbarui,
terutama dalam sistem production. Sama seperti manusia yang dapat belajar terusmenerus
tanpa melupakan pengetahuan yang telah dipelajari, idealnya model dapat
melakukan hal yang sama. Namun, berbeda dengan manusia, model kecerdasan
buatan dapat mengalami catastrophic forgetting, yaitu penurunan kinerja pada task
yang sudah dipelajari saat dilatih pada task baru. Penelitian ini mengeksplorasi
solusi dengan menggunakan Low-Rank Adapter (LoRA) pada continual learning
dengan studi kasus multilingual continual learning.
Model pralatih yang digunakan dalam penelitian ini adalah XLM-R, dengan
eksperimen yang dilakukan pada dataset MASSIVE yang mencakup 52 bahasa dan
dirancang untuk task BIO tagging. Penelitian ini mengeksplorasi dua pendekatan
utama LoRA, yaitu sebagai adapter untuk setiap bahasa (mono) dan penggabungan
model atau adapter (merge) serta sebagai metode isolasi parameter (sequential
dengan LoRA). Hasil eksperimen dievaluasi dengan menggunakan F1-score, crossforward
transfer (CFT), dan cross-backward transfer (CBT) untuk mengukur zeroshot
learning dan forgetting pada metode yang memiliki keterurutan.
Metode mono menunjukkan kemampuan terbaik dalam mempertahankan kinerja
lintas bahasa karena hasilnya hanya memiliki penurunan sekitar 1,7% dengan nilai
batas atas. Di sisi lain, penggunaan metode merge tidak bekerja secara efektif
meskipun diimplementasikan tanpa LoRA (lebih rendah sekitar 44,58% dengan
batas atas). Metode isolasi parameter juga kurang bekerja secara efektif (lebih
rendah sekitar 11,78% dengan batas atas) karena memiliki banyak dip atau
forgetting ketika mempelajari bahasa tertentu yang tidak memiliki spasi seperti
Mandarin dan Jepang. Kemudian, jumlah rank LoRA pada metode multi, mono, dan
sequential tidak berdampak signifikan pada kinerja model. Sebaliknya, pada
metode merge, semakin besar jumlah rank, semakin baik kinerjanya. Sementara itu,
hasil CFT dan CBT terbaik didapatkan oleh metode sequential tanpa LoRA.