digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Code-switching merupakan fenomena pencampuran lebih dari satu bahasa dalam sebuah percakapan oleh pembicara multibahasa yang seringkali terjadi di kehidupan sehari-hari. Hal tersebut muncul sebagai urgensi diperlukannya sebuah produk Natural Language Processing (NLP) untuk menyelesaikan permasalahan code-switching. Penelitian ini mengembangkan sebuah code-switching benchmark dataset dengan tugas Question Answering (QA) sebagai solusi untuk masalah tersebut. Dataset yang dihasilkan mencakup variasi pasangan Bahasa Jawa- Indonesia-Inggris dan Indonesia-Inggris dengan total 200 instan dialog. Sementara itu, tugas QA yang diujikan tersusun atas pertanyaan pilihan ganda dan isian singkat dengan kategori answerable dan unanswerable. Dalam penelitian ini, dihasilkan instan data tugas QA yang jumlahnya mencapai 2000 pertanyaan. Selanjutnya, dataset digunakan untuk menguji Large Language Models (LLM) dari beberapa aspek, seperti cakupan bahasa (model multibahasa, regional, dan Indonesia); penalaran; dan instruksi. Pengujian dilakukan menggunakan metrik evaluasi akurasi untuk pertanyaan pilihan ganda dan exact match untuk pertanyaan isian singkat. Hasil pengujian menunjukkan bahwa LLM masih mengalami kesulitan dalam menyelesaikan permasalahan tugas QA dengan konteks dialog code- switching dari dataset yang dihasilkan. Selain itu, penelitian ini juga menunjukkan bahwa beberapa keunikan khusus dari setiap LLM berpengaruh dalam proses penyelesaian tugas QA dari dataset.