Perpustakaan Digital - Digilib ITB

MLKV: PROYEKSI KEY-VALUE MULTILAPISAN UNTUK INFERENSI MODEL BAHASA TRANSFORMER YANG EFISIEN MEMORI

188 views

Penulis	:	Zayd Muhammad Kawakibi Zuhri [13520144]
Kontributor / Dosen Pembimbing	:	Dr. Eng. Ayu Purwarianti, S.T, M.T. Alham Fikri Aji, Ph.D.
Jenis Koleksi	:	Tugas Akhir
Tahun Terbit	:
Penerbit	:	Teknik Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	Pemrosesan Bahasa Alami, Transformer, Key-Value Cache, Efisiensi Memori, Optimasi Model, Multi-Layer Key-Value Sharing
Sumber	:
Staf Input/Edit	:	Dessy Rondang Monaomi
File	:	1 file
Tanggal Input	:	19 Agu 2024

Dokumen Asli
Terbatas Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Peningkatan skala model bahasa hingga puluhan miliar parameter telah menghasilkan kemajuan signifikan dalam pemrosesan bahasa alami. Namun, kebutuhan memori untuk key-value cache (KV cache) selama generasi auto-regresif menjadi tantangan utama dalam penerapan model-model ini secara besar-besaran. Pendekatan yang ada, seperti Multi-Query Attention (MQA) dan Grouped-Query Attention (GQA), telah berusaha mengurangi penggunaan memori KV cache namun masih terbatas dalam kapasitasnya. Tugas akhir ini memperkenalkan Multi-Layer Key-Value sharing (MLKV), sebuah pendekatan baru yang memperluas pembagian KV antar lapisan dalam arsitektur transformer. Dengan berbagi proyeksi key-value antar lapisan, MLKV bertujuan untuk mengurangi penggunaan memori lebih rendah dibanding MQA dan GQA. Metode yang diusulkan melibatkan modifikasi model transformer untuk mendukung pembagian KV antar lapisan dan menerapkan prosedur uptraining untuk mengadaptasi model ke arsitektur baru ini. Efektivitas MLKV dievaluasi menggunakan serangkaian benchmark NLP dan metrik waktu inferensi dengan melakukan uptraining beberapa varian dari checkpoint Pythia-160M. Uptraining melibatkan konversi bobot model dasar untuk pembagian KV dan melanjutkan pra-pelatihan untuk 5% dari data asli. Hasil menunjukkan bahwa MLKV dapat secara signifikan mengurangi penggunaan memori dengan hanya sedikit penurunan kinerja model. Misalnya, varian MLKV dengan 2 KV head mencapai akurasi benchmark rata-rata hanya 0,031 lebih rendah dari baseline, sambil mencapai ukuran batch hingga 20 kali lebih besar. Selain itu, model MLKV-2 menunjukkan kecepatan inferensi 136 token per detik, 1,7 kali lebih cepat dari baseline 80 token per detik dalam eksperimen, menekankan potensi metode ini untuk penerapan model transformer dalam skala besar.

Perpustakaan Digital ITB

MLKV: PROYEKSI KEY-VALUE MULTILAPISAN UNTUK INFERENSI MODEL BAHASA TRANSFORMER YANG EFISIEN MEMORI

Artikel Terkait