digilib@itb.ac.id +62 812 2508 8800



BAB 1 Nicholas Rianto Putra
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan

BAB 2 Nicholas Rianto Putra
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan

BAB 3 Nicholas Rianto Putra
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan

BAB 4 Nicholas Rianto Putra
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan

BAB 5 Nicholas Rianto Putra
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan


Reinforcement Learning (RL) adalah salah satu metode pembelajaran mesin, dimana mesin melakukan training menggunakan pengalaman yang didapat dengan tujuan menemukan aksi yang tepat dari setiap situasi, sehingga mampu memaksimalkan hasil yang didapat. Beberapa permasalahan di dunia ini perlu direpresentasikan dalam bentuk multi-agent, sehingga pendekatan multi-agent reinforcement learning (MARL) dibutuhkan. Simulasi permainan tradisional menjadi salah satu sarana yang cocok untuk studi dan implementasi MARL. Contohnya adalah penelitian terkait permainan tradisional hide-and-seek yang dilakukan oleh OpenAI. Indonesia memiliki banyak sekali permainan tradisional. Salah satu contoh yang cukup terkenal adalah permainan Benteng. Tugas akhir ini akan melakukan studi dan implementasi MARL pada simulasi permainan Benteng karena karakteristiknya yang kaya akan strategi kerja sama tim sangat cocok untuk penelitian MARL. Algoritma yang dipakai adalah Proximal Policy Optimization 2 (PPO2), karena kinerjanya yang lebih baik dari pendekatan state-of-the-art, dengan proses implementasi dan tuning yang jauh lebih mudah. Terdapat dua environment yang dibuat, yaitu normal dan alternate, yang berjalan di bawah OpenAI gym. Algoritma PPO yang digunakan merupakan implementasi milik RLLib. Mekanisme training menggunakan metode self-play dengan pool of policies. Pengujian kinerja dilakukan dengan mempertandingkannya melawan bot baseline bernama RoeBot yang menggunakan random action (easy) dan alpha-beta pruning minimax (medium). Hasil eksperimen environment normal menunjukkan bahwa agen memiliki win rate sebesar 95,5% (1 vs 1), 98,0% (2 vs 2), dan 99,25% (3 vs 3) saat melawan RoeBot easy. Pada saat melawan RoeBot medium, agen memiliki win rate sebesar 38,125% (1 vs 1), 82,125% (2 vs 2), dan 85,375% (3 vs 3). Hasil ini menunjukkan bahwa kinerja agen lebih baik dari RoeBot pada pertandingan yang melibatkan lebih dari satu agen per tim. Pada environment alternate, agen berhasil menemukan strategi yang mendekati perfect strategy. Eksperimen pada kedua environment menunjukkan behavior agen yang mampu bekerja sama dan saling berbagi tugas untuk memenangkan pertandingan,