digilib@itb.ac.id +62 812 2508 8800

Proses komputasi pada deep learning umumnya jauh lebih banyak daripada machine learning konvensional, sehingga membutuhkan banyak waktu untuk proses pelatihannya. Distributed deep learning adalah sebuah alternatif pendekatan yang dilakukan untuk memangkas waktu pelatihan dengan cara mendistibusikan beban perhitungan ke beberapa mesin. DRAGON scheduler adalah sebuah scheduler yang digunakan untuk menjadwalkan berbagai tugas pelatihan terdistibusi dengan arsitektur parameter server menggunakan Tensorflow pada suatu cluster Kubernetes. DRAGON scheduler memiliki keunggulan untuk dapat melakukan scaling jumlah worker dari suatu job pelatihan yang bergantung pada ketersediaan sumber daya di cluster. Namun, berdasarkan implementasi scaling pada DRAGON scheduler, proses penambahan dan pengurangan worker yang fokus dilakukan pada satu job terlebih dahulu, ternyata ditemui tidak efisien dari sisi durasi pelatihan karena keterbatasan dari arsitektur parameter server. Sehingga, akibat keterbatasan tersebut, diperlukan modifikasi pada proses scaling di DRAGON scheduler dengan menerapkan worker balancing, yang dilakukan implementasinya pada Tugas Akhir ini. Pada DRAGON scheduler yang diterapkan worker balancing diperoleh durasi dari pelatihan dapat berkurang hingga 16.305% dengan tetap menjaga akurasi dari prediksi hasil pelatihan.