Beberapa tahun belakangan ini, pemanfaatan model pra-latih telah mendominasi penelitian
komputasi di berbagai bidang, termasuk pemrosesan bahasa alami. Salah satu model pra-latih yang
populer adalah Bidirectional Encoder Representations from Transformers (BERT). BERT berhasil
menjadi state-of-the-art diantara model-model yang lain dan diadaptasi ke berbagai bahasa,
termasuk bahasa Indonesia, IndoBERT. Sebagaimana model BERT, IndoBERT memiliki ukuran
yang besar sehingga menimbulkan isu terkait latency dan efisiensi dari modelnya. Untuk
mengatasi masalah efisisiensi di IndoBERT, dalam studi ini kami mengeksplorasi kemungkinan
penggunaan kuantisasi untuk mengkompresi IndoBERT.
Kuantisasi adalah sebuah teknik untuk melakukan komputasi dan penyimpanan tensor pada
presisi bit yang lebih kecil. Kuantisasi memiliki kelebihan yakni kuantisasi hanya mengubah
ukuran bit pada bobot model, sehingga arsitektur model tidak perlu diubah dan desain model yang
lebih kecil juga tidak diperlukan. Kuantisasi juga memiliki penurunan performa yang cukup rendah
hingga tanpa pengurangan sama sekali. Metode kuantisasi yang populer adalah post training
quantization dan quantization aware training. Post training quantization merupakan metode
kuantisasi dimana bobot dari model yang telah di fine tuning dikurangi presisi bitnya. Sedangkan
Quantization aware training merupakan metode dimana operasi kuantisasi dalam model
dimasukkan pada saat training/fine tuning dengan tujuan untuk membuat model dapat beradaptasi
dengan bobot dan aktivasi yang dikuantisasi.
Eksperimen dilakukan dengan 7 downstream task dan didapatkan hasil bahwa model
memiliki kinerja yang baik jika dibandingkan dengan model full precision. Terdapat penurunan
kinerja pada kasus ekstrem seperti kuantisasi 4 bit. Downstream task berjenis sequence labeling
juga terbukti memiliki sensitivitas yang lebih tinggi. Hasil eksperimen juga menunjukkan bahwa
penurunan performa dapat diminimalisir dengan metode Quantization Aware Training.