Perpustakaan Digital - Digilib ITB

PEMBANGUNAN METODE LANGUAGEFUSION UNTUK MENGATASI LANGUAGE IDENTIFICATION BOTTLENECK PADA MODULAR MULTILINGUAL LANGUAGE MODELS DALAM INTENT CLASSIFICATION TASK

123 views

Penulis	:	Muhammad Farid Adilazuarda [23522045]
Kontributor / Dosen Pembimbing	:	Dr. Eng. Ayu Purwarianti, S.T, M.T.
Jenis Koleksi	:	Tesis
Penerbit	:	Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	LanguageFusion, Pretrained Language Models, Language Identification Bottleneck, Parameter-Efficient Fine-Tuning, Adapter
Sumber	:
Staf Input/Edit	:	Dessy Rondang Monaomi
File	:	1 file
Tanggal Input	:	16 Agu 2023

23522045 Muhammad Farid Adilazuarda.pdf

PUBLIC Dessy Rondang Monaomi

Perkembangan LLM (Large Language Models) yang pesat telah menimbulkan tantangan ketika “language identification bottleneck” menjadi salah satu masalah yang penting pada konteks multilingual. Fenomena ini berdampak signifikan terhadap efektivitas intent classification dalam task-oriented dialogue system dalam skenario multilingual. Penelitian ini menyelidiki pengaruh modul language identification yang “off-the-shelf ” (LID) terhadap kinerja model dan membandingkannya dalam skenario di mana bahasa input sudah diketahui dan dibandingkan ketika bahasa input tidak diketahui. Dari eksperimen yang dilafkukan, penggunaan LID masih belum cukup baik untuk bisa mengungguli kinerja model yang menggunakan teknik fine-tuning secara multilingual. Penelitian ini mengusulkan sebuah metode baru bernama LanguageFusion yang memungkinkan modular LM melakukan inferensi pada input bahasa yang tidak diketahui tanpa perlu menggunakan modul LID eksternal. Penelitian ini mengusulkan metode yang memungkinkan model bahasa modular untuk menangani situasi ketika bahasa input tidak diketahui, menyediakan solusi praktis untuk aplikasi multilingual dari LLM. LanguageFusion bekerja dengan cara memanfaatkan suatu fusion layer yang berguna untuk menentukan attention weights dari masing-masing modul adapter yang digunakan. Skenario baseline eksperimen yang dijalankan yaitu ketika ada suatu input kalimat dalam suatu bahasa, LID akan melakukan deteksi bahasa terhadap kalimat input ini. Setelah ditentukan bahasa dari kalimat input, sebuah pretrained language adapter akan dipasangkan terhadap suatu LLM. Kemudian, dilakukan proses inferensi terhadap teks input oleh LLM + Adapter. Metode ini kemudian juga dibandingkan dengan metode LanguageFusion yang diusulkan, dan didapatkan hasil bahwa metode LanguageFusion mampu mengungguli model mBERT-vanilla dan MAD-X dalam menangani language identification bottleneck, terutama dalam hasil pengujian unseen languages dengan margin sebesar 2.47% dibandingkan dengan metode lain.

Perpustakaan Digital ITB

PEMBANGUNAN METODE LANGUAGEFUSION UNTUK MENGATASI LANGUAGE IDENTIFICATION BOTTLENECK PADA MODULAR MULTILINGUAL LANGUAGE MODELS DALAM INTENT CLASSIFICATION TASK

Artikel Terkait