digilib@itb.ac.id +62 812 2508 8800




BAB 2 Muhammad Sulthan Adhipradhana
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan

BAB 3 Muhammad Sulthan Adhipradhana
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan

BAB 4 Muhammad Sulthan Adhipradhana
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan

BAB 5 Muhammad Sulthan Adhipradhana
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan


Battle Royale merupakan permainan multi-agen yang memiliki aturan permainan yaitu tiap agen harus saling membunuh dan bertahan hingga akhir permainan. Pada permainan ini, tiap agen dikendalikan oleh sistem kendali yang bergerak secara otomatis. Untuk mendapatkan sistem kendali ini, agen dilatih terlebih dahulu menggunakan algoritma reinforcement learning. Reinforcement Learning merupakan paradigma dari machine learning yang mempelajari bagaimana cara agen untuk mengambil keputusan yang tepat dalam suatu kondisi tanpa diberi informasi spesifik cara untuk mengambil keputusan yang tepat. Terdapat banyak algoritma pada reinforcement learning yang dapat digunakan untuk menghasilkan sistem kendali, salah satunya yaitu Multi-Agent Deep Deterministic Policy Gradient (MADDPG). MADDPG merupakan algoritma reinforcement learning yang mempunyai dua policy, yaitu policy actor untuk mengambil keputusan dan policy critic untuk mengevaluasi seberapa baik policy actor. Pada Battle Royale, pemain dibebaskan untuk menentukan strategi dalam memenangkan permainan. Pemain dapat bersifat agresif dengan mencari pemain dan paket peluru secara aktif. Pemain juga dapat bersifat pasif dengan cara berdiam diri dan menunggu lawan untuk lewat. Tugas Akhir ini ditujukan untuk mengamati apakah agen dapat menghasilkan strategi normal, agresif, dan pasif. Dari strategi-strategi tersebut, strategi terbaik untuk memenangkan permainan akan ditentukan. Untuk mengukur performa dari agen, digunakan metrik pengukuran. Metrik-metrik yang digunakan adalah akurasi tembakan agen, rasio kill/death agen, dan rata-rata reward agen dalam melakukan pembelajaran. Untuk mengukur performa MADDPG terhadap kendali agen, digunakan algoritma lainnya, yaitu Deep Deterministic Policy Gradient (DDPG) sebagai pembanding. Dari hasil yang dilakukan, agen dapat menghasilkan strategi normal, agresif, dan pasif. Dari tiga strategi tersebut, strategi terbaik adalah strategi pasif. Dari perbandingan algoritma, performa agen MADDPG lebih bagus dibandingkan DDPG.