digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Perkembangan large language model yang pesat membuat model kecerdasan buatan memiliki kemampuan kognitif yang mirip seperti manusia. Dalam pengembangan model ini, penting untuk memastikan model dapat terus diperbarui, terutama dalam sistem production. Sama seperti manusia yang dapat belajar terusmenerus tanpa melupakan pengetahuan yang telah dipelajari, idealnya model dapat melakukan hal yang sama. Namun, berbeda dengan manusia, model kecerdasan buatan dapat mengalami catastrophic forgetting, yaitu penurunan kinerja pada task yang sudah dipelajari saat dilatih pada task baru. Penelitian ini mengeksplorasi solusi dengan menggunakan Low-Rank Adapter (LoRA) pada continual learning dengan studi kasus multilingual continual learning. Model pralatih yang digunakan dalam penelitian ini adalah XLM-R, dengan eksperimen yang dilakukan pada dataset MASSIVE yang mencakup 52 bahasa dan dirancang untuk task BIO tagging. Penelitian ini mengeksplorasi dua pendekatan utama LoRA, yaitu sebagai adapter untuk setiap bahasa (mono) dan penggabungan model atau adapter (merge) serta sebagai metode isolasi parameter (sequential dengan LoRA). Hasil eksperimen dievaluasi dengan menggunakan F1-score, crossforward transfer (CFT), dan cross-backward transfer (CBT) untuk mengukur zeroshot learning dan forgetting pada metode yang memiliki keterurutan. Metode mono menunjukkan kemampuan terbaik dalam mempertahankan kinerja lintas bahasa karena hasilnya hanya memiliki penurunan sekitar 1,7% dengan nilai batas atas. Di sisi lain, penggunaan metode merge tidak bekerja secara efektif meskipun diimplementasikan tanpa LoRA (lebih rendah sekitar 44,58% dengan batas atas). Metode isolasi parameter juga kurang bekerja secara efektif (lebih rendah sekitar 11,78% dengan batas atas) karena memiliki banyak dip atau forgetting ketika mempelajari bahasa tertentu yang tidak memiliki spasi seperti Mandarin dan Jepang. Kemudian, jumlah rank LoRA pada metode multi, mono, dan sequential tidak berdampak signifikan pada kinerja model. Sebaliknya, pada metode merge, semakin besar jumlah rank, semakin baik kinerjanya. Sementara itu, hasil CFT dan CBT terbaik didapatkan oleh metode sequential tanpa LoRA.