Perkembangan LLM (Large Language Models) yang pesat telah menimbulkan
tantangan ketika “language identification bottleneck” menjadi salah satu masalah
yang penting pada konteks multilingual. Fenomena ini berdampak signifikan
terhadap efektivitas intent classification dalam task-oriented dialogue system
dalam skenario multilingual. Penelitian ini menyelidiki pengaruh modul
language identification yang “off-the-shelf ” (LID) terhadap kinerja model dan
membandingkannya dalam skenario di mana bahasa input sudah diketahui dan
dibandingkan ketika bahasa input tidak diketahui. Dari eksperimen yang dilafkukan,
penggunaan LID masih belum cukup baik untuk bisa mengungguli kinerja model
yang menggunakan teknik fine-tuning secara multilingual.
Penelitian ini mengusulkan sebuah metode baru bernama LanguageFusion yang
memungkinkan modular LM melakukan inferensi pada input bahasa yang tidak
diketahui tanpa perlu menggunakan modul LID eksternal. Penelitian ini mengusulkan
metode yang memungkinkan model bahasa modular untuk menangani situasi ketika
bahasa input tidak diketahui, menyediakan solusi praktis untuk aplikasi multilingual
dari LLM. LanguageFusion bekerja dengan cara memanfaatkan suatu fusion layer
yang berguna untuk menentukan attention weights dari masing-masing modul
adapter yang digunakan.
Skenario baseline eksperimen yang dijalankan yaitu ketika ada suatu input kalimat
dalam suatu bahasa, LID akan melakukan deteksi bahasa terhadap kalimat input ini.
Setelah ditentukan bahasa dari kalimat input, sebuah pretrained language adapter
akan dipasangkan terhadap suatu LLM. Kemudian, dilakukan proses inferensi
terhadap teks input oleh LLM + Adapter. Metode ini kemudian juga dibandingkan
dengan metode LanguageFusion yang diusulkan, dan didapatkan hasil bahwa metode
LanguageFusion mampu mengungguli model mBERT-vanilla dan MAD-X dalam
menangani language identification bottleneck, terutama dalam hasil pengujian unseen
languages dengan margin sebesar 2.47% dibandingkan dengan metode lain.