Teknologi representasi teks semakin berkembang dengan adanya model bahasa
pralatih monolingual dan multilingual. Teknik representasi teks ini semakin banyak
digunakan salah satunya dalam task klasifikasi teks. Fenomena yang terjadi dalam
data tekstual diantaranya adalah fenomena code-mixing dan synonym replacement.
Dengan semakin vitalnya peran model bahasa pralatih, perlu dilakukan pengujian
lebih lanjut apakah model bahasa pralatih yang ada sudah cukup baik dalam
menangani fenomena tersebut. Salah satu teknik yang dapat digunakan adalah
dengan adversarial attack.
Teknik adversarial attack (Jin dkk., 2020) memiliki kemampuan untuk mencari kata
yang paling berkontribusi pada prediksi label oleh suatu model (vulnerable word).
Dengan memanfaatkan teknik adversarial attack, vulnerable word tersebut akan
ditranslasi untuk mensimulasikan fenomena perturbasi code-mixing dan synonym
replacement. Teks hasil perturbasi akan dievaluasi dengan skor semantic similarity
untuk tetap mempertahankan makna semantiknya.
Eksperimen dilakukan dengan dua task klasifikasi teks dan didapatkan hasil bahwa
seluruh model bahasa mengalami penurunan kinerja. Pada kasus code-mixing Bahasa
Indonesia dengan bahasa asing yang tidak berkerabat dengan Bahasa Indonesia,
model XLM-R mengungguli kinerja model IndoBERT, sedangkan pada kasus
code-mixing bahasa yang berkerabat dengan Bahasa Indonesia, model IndoBERT
mengungguli kinerja model XLM-R. Hasil eksperimen juga menunjukkan bahwa
peningkatan ukuran model juga diiringi dengan peningkatan robustness model.