Proses komputasi pada deep learning umumnya jauh lebih banyak daripada machine learning
konvensional, sehingga membutuhkan banyak waktu untuk proses pelatihannya. Distributed
deep learning adalah sebuah alternatif pendekatan yang dilakukan untuk memangkas waktu
pelatihan dengan cara mendistibusikan beban perhitungan ke beberapa mesin. DRAGON
scheduler adalah sebuah scheduler yang digunakan untuk menjadwalkan berbagai tugas
pelatihan terdistibusi dengan arsitektur parameter server menggunakan Tensorflow pada suatu
cluster Kubernetes.
DRAGON scheduler memiliki keunggulan untuk dapat melakukan scaling jumlah worker dari
suatu job pelatihan yang bergantung pada ketersediaan sumber daya di cluster. Namun,
berdasarkan implementasi scaling pada DRAGON scheduler, proses penambahan dan
pengurangan worker yang fokus dilakukan pada satu job terlebih dahulu, ternyata ditemui tidak
efisien dari sisi durasi pelatihan karena keterbatasan dari arsitektur parameter server. Sehingga,
akibat keterbatasan tersebut, diperlukan modifikasi pada proses scaling di DRAGON scheduler
dengan menerapkan worker balancing, yang dilakukan implementasinya pada Tugas Akhir ini.
Pada DRAGON scheduler yang diterapkan worker balancing diperoleh durasi dari pelatihan
dapat berkurang hingga 16.305% dengan tetap menjaga akurasi dari prediksi hasil pelatihan.