Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Peningkatan skala model bahasa hingga puluhan miliar parameter telah
menghasilkan kemajuan signifikan dalam pemrosesan bahasa alami. Namun,
kebutuhan memori untuk key-value cache (KV cache) selama generasi auto-regresif
menjadi tantangan utama dalam penerapan model-model ini secara besar-besaran.
Pendekatan yang ada, seperti Multi-Query Attention (MQA) dan Grouped-Query
Attention (GQA), telah berusaha mengurangi penggunaan memori KV cache namun
masih terbatas dalam kapasitasnya.
Tugas akhir ini memperkenalkan Multi-Layer Key-Value sharing (MLKV), sebuah
pendekatan baru yang memperluas pembagian KV antar lapisan dalam arsitektur
transformer. Dengan berbagi proyeksi key-value antar lapisan, MLKV bertujuan
untuk mengurangi penggunaan memori lebih rendah dibanding MQA dan
GQA. Metode yang diusulkan melibatkan modifikasi model transformer untuk
mendukung pembagian KV antar lapisan dan menerapkan prosedur uptraining
untuk mengadaptasi model ke arsitektur baru ini.
Efektivitas MLKV dievaluasi menggunakan serangkaian benchmark NLP dan
metrik waktu inferensi dengan melakukan uptraining beberapa varian dari
checkpoint Pythia-160M. Uptraining melibatkan konversi bobot model dasar untuk
pembagian KV dan melanjutkan pra-pelatihan untuk 5% dari data asli. Hasil
menunjukkan bahwa MLKV dapat secara signifikan mengurangi penggunaan
memori dengan hanya sedikit penurunan kinerja model. Misalnya, varian MLKV
dengan 2 KV head mencapai akurasi benchmark rata-rata hanya 0,031 lebih rendah
dari baseline, sambil mencapai ukuran batch hingga 20 kali lebih besar. Selain
itu, model MLKV-2 menunjukkan kecepatan inferensi 136 token per detik, 1,7 kali
lebih cepat dari baseline 80 token per detik dalam eksperimen, menekankan potensi
metode ini untuk penerapan model transformer dalam skala besar.