Meningkatnya popularitas Large Language Models (LLMs) dan adopsi-nya dalam
industri telah meningkatkan kebutuhan atas jumlah training data yang sangat besar.
Keperluan yang terus berkembang ini menebabkan kemuncul praktik pengumpulan
data yang lebih efisien namun dengan kualitas yang lebih rendah. Metode seperti
scraping dan crowdsourcing membuka kerentanan terhadap serangan data
poisoning, yang telah mendorong penelitian terhadap berbagai metode pertahanan.
Data augmentation, yang telah banyak dieksplorasi untuk model berbasis gambar,
belum sepenuhnya diteliti untuk LLMs.
Penelitian ini mengevaluasi efektivitas 2 metode data augmentation: back
translation (BT) dan contextual augmentation (CA) dalam memitigasi serangan
BadNet, style, dan BITE poisoning. Eksperimen menggunakan BERT-base pada
dataset SST-2 dan TREC-Coarse menunjukkan bahwa BT mampu menurunkan
Attack Success Rate (ASR) secara signifikan pada BadNet (sekitar ~60%), serta
memberikan hasil yang cukup baik pada serangan Style dan BITE (sekitar ~5–
10%), dengan penurunan clean accuracy yang relatif kecil (~0,5–1%). CA
menunjukkan efektivitas yang terbatas pada BadNet dan Style, namun memberikan
hasil yang cukup baik terhadap BITE (sekitar ~3–10%), dengan penurunan clean
accuracy yang lebih besar (~1–1,5%). Kombinasi BT dan CA menghasilkan kinerja
pertahanan yang konsisten untuk seluruh jenis serangan, meskipun dengan kinerja
yang lebih rendah dibandingkan BT saja dan penurunan clean accuracy terbesar
(~1,5–2%). Selain itu, degradasi clean accuracy pada dataset TREC-Coarse sedikit
lebih besar dibandingkan SST-2, namun hanya meningkat sekitar ~0,5%. Temuan
ini menunjukkan bahwa pendekatan berbasis data augmentation berpotensi menjadi
mekanisme pertahanan umum yang praktis ketika jenis serangan tidak diketahui
sebelumnya.
Perpustakaan Digital ITB