digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Peningkatan skala model bahasa hingga puluhan miliar parameter telah menghasilkan kemajuan signifikan dalam pemrosesan bahasa alami. Namun, kebutuhan memori untuk key-value cache (KV cache) selama generasi auto-regresif menjadi tantangan utama dalam penerapan model-model ini secara besar-besaran. Pendekatan yang ada, seperti Multi-Query Attention (MQA) dan Grouped-Query Attention (GQA), telah berusaha mengurangi penggunaan memori KV cache namun masih terbatas dalam kapasitasnya. Tugas akhir ini memperkenalkan Multi-Layer Key-Value sharing (MLKV), sebuah pendekatan baru yang memperluas pembagian KV antar lapisan dalam arsitektur transformer. Dengan berbagi proyeksi key-value antar lapisan, MLKV bertujuan untuk mengurangi penggunaan memori lebih rendah dibanding MQA dan GQA. Metode yang diusulkan melibatkan modifikasi model transformer untuk mendukung pembagian KV antar lapisan dan menerapkan prosedur uptraining untuk mengadaptasi model ke arsitektur baru ini. Efektivitas MLKV dievaluasi menggunakan serangkaian benchmark NLP dan metrik waktu inferensi dengan melakukan uptraining beberapa varian dari checkpoint Pythia-160M. Uptraining melibatkan konversi bobot model dasar untuk pembagian KV dan melanjutkan pra-pelatihan untuk 5% dari data asli. Hasil menunjukkan bahwa MLKV dapat secara signifikan mengurangi penggunaan memori dengan hanya sedikit penurunan kinerja model. Misalnya, varian MLKV dengan 2 KV head mencapai akurasi benchmark rata-rata hanya 0,031 lebih rendah dari baseline, sambil mencapai ukuran batch hingga 20 kali lebih besar. Selain itu, model MLKV-2 menunjukkan kecepatan inferensi 136 token per detik, 1,7 kali lebih cepat dari baseline 80 token per detik dalam eksperimen, menekankan potensi metode ini untuk penerapan model transformer dalam skala besar.