digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Interpretabilitas mekanistik model bahasa besar (LLM) telah mendorong pengembangan berbagai kapabilitas model bahasa, seperti controllable generation, knowledge editing, model stitching, dan lainnya. Namun, interpretabilitas LLM dalam konteks multimodal dan multibahasa masih belum banyak dieksplorasi, meskipun kompleksitas model bahasa seiring waktu terus meningkat. Tugas akhir ini menyelidiki salah satu komponen dalam interpretabilitas model bahasa, yaitu representation alignment, melalui investigasi internal state model bahasa audio (LALM) saat memproses dan merepresentasikan fitur masukan, seperti bahasa, modalitas, dan penutur audio ucapan. Melalui serangkaian eksperimen, laten pemrosesan dari dua LALM open-weight termutakhir: Ultravox 0.5 dan Qwen2 Audio, diekstraksi dan dianalisis dengan menggunakan berbagai jenis masukan. Studi ini menelusuri pola representasi berdasarkan variasi fitur masukan, meliputi tujuh bahasa dan dua modalitas (teks dan audio ucapan). Selain itu, fitur-fitur paralinguistik pada audio ucapan juga dieksplorasi, seperti gender, usia, dan aksen, serta fitur akustik yang timbul akibat variasi pada lingkungan perekaman. Hasil eksperimen menunjukkan adanya klaster yang terbentuk sepanjang pemrosesan masukan dalam model bahasa yang keberadaannya bergantung pada fitur masukan. Dengan eksperimen yang dilakukan, tugas akhir ini membuka jalan bagi penelitian terkait interpretabilitas yang lebih dalam dan pengembangan kapabilitas yang lebih luas dengan melibatkan ruang representasi model bahasa.