digilib@itb.ac.id +62 812 2508 8800

Teknologi representasi teks semakin berkembang dengan adanya model bahasa pralatih monolingual dan multilingual. Teknik representasi teks ini semakin banyak digunakan salah satunya dalam task klasifikasi teks. Fenomena yang terjadi dalam data tekstual diantaranya adalah fenomena code-mixing dan synonym replacement. Dengan semakin vitalnya peran model bahasa pralatih, perlu dilakukan pengujian lebih lanjut apakah model bahasa pralatih yang ada sudah cukup baik dalam menangani fenomena tersebut. Salah satu teknik yang dapat digunakan adalah dengan adversarial attack. Teknik adversarial attack (Jin dkk., 2020) memiliki kemampuan untuk mencari kata yang paling berkontribusi pada prediksi label oleh suatu model (vulnerable word). Dengan memanfaatkan teknik adversarial attack, vulnerable word tersebut akan ditranslasi untuk mensimulasikan fenomena perturbasi code-mixing dan synonym replacement. Teks hasil perturbasi akan dievaluasi dengan skor semantic similarity untuk tetap mempertahankan makna semantiknya. Eksperimen dilakukan dengan dua task klasifikasi teks dan didapatkan hasil bahwa seluruh model bahasa mengalami penurunan kinerja. Pada kasus code-mixing Bahasa Indonesia dengan bahasa asing yang tidak berkerabat dengan Bahasa Indonesia, model XLM-R mengungguli kinerja model IndoBERT, sedangkan pada kasus code-mixing bahasa yang berkerabat dengan Bahasa Indonesia, model IndoBERT mengungguli kinerja model XLM-R. Hasil eksperimen juga menunjukkan bahwa peningkatan ukuran model juga diiringi dengan peningkatan robustness model.