digilib@itb.ac.id +62 812 2508 8800

Meningkatnya popularitas Large Language Models (LLMs) dan adopsi-nya dalam industri telah meningkatkan kebutuhan atas jumlah training data yang sangat besar. Keperluan yang terus berkembang ini menebabkan kemuncul praktik pengumpulan data yang lebih efisien namun dengan kualitas yang lebih rendah. Metode seperti scraping dan crowdsourcing membuka kerentanan terhadap serangan data poisoning, yang telah mendorong penelitian terhadap berbagai metode pertahanan. Data augmentation, yang telah banyak dieksplorasi untuk model berbasis gambar, belum sepenuhnya diteliti untuk LLMs. Penelitian ini mengevaluasi efektivitas 2 metode data augmentation: back translation (BT) dan contextual augmentation (CA) dalam memitigasi serangan BadNet, style, dan BITE poisoning. Eksperimen menggunakan BERT-base pada dataset SST-2 dan TREC-Coarse menunjukkan bahwa BT mampu menurunkan Attack Success Rate (ASR) secara signifikan pada BadNet (sekitar ~60%), serta memberikan hasil yang cukup baik pada serangan Style dan BITE (sekitar ~5– 10%), dengan penurunan clean accuracy yang relatif kecil (~0,5–1%). CA menunjukkan efektivitas yang terbatas pada BadNet dan Style, namun memberikan hasil yang cukup baik terhadap BITE (sekitar ~3–10%), dengan penurunan clean accuracy yang lebih besar (~1–1,5%). Kombinasi BT dan CA menghasilkan kinerja pertahanan yang konsisten untuk seluruh jenis serangan, meskipun dengan kinerja yang lebih rendah dibandingkan BT saja dan penurunan clean accuracy terbesar (~1,5–2%). Selain itu, degradasi clean accuracy pada dataset TREC-Coarse sedikit lebih besar dibandingkan SST-2, namun hanya meningkat sekitar ~0,5%. Temuan ini menunjukkan bahwa pendekatan berbasis data augmentation berpotensi menjadi mekanisme pertahanan umum yang praktis ketika jenis serangan tidak diketahui sebelumnya.