digilib@itb.ac.id +62 812 2508 8800

ABSTRAK Hani'ah Wafa
PUBLIC Open In Flipbook Alice Diniarti


BAB 1 Hani'ah Wafa
PUBLIC Open In Flipbook Alice Diniarti

BAB 2 Hani'ah Wafa
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan

BAB 3 Hani'ah Wafa
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan

BAB 4 Hani'ah Wafa
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan

BAB 5 Hani'ah Wafa
PUBLIC Open In Flipbook Alice Diniarti

PUSTAKA Hani'ah Wafa
PUBLIC Open In Flipbook Alice Diniarti

Permainan hide and seek merupakan permainan yang menerapkan sistem multiagent dengan jenis task kompetitif sehingga akan diselesaikan dengan multiagent reinforcement learning. Pada tugas akhir ini dikaji bagaimana pengaplikasian salah satu jenis metode policy gradient, yaitu Trust Region Policy Optimization (TRPO) untuk menyelesaikan lingkungan permainan hide and seek. Selain itu juga dikaji konfigurasi yang memberikan kinerja terbaik pada penggunaan algoritma TRPO dan perbandingannya dengan algoritma Vanilla Policy Gradient (VPG). Dari evaluasi terhadap eksperimen yang dilakukan, didapatkan bahwa dengan pembelajaran yang dilakukan dalam rentang 1000 hingga 4000 epoch, secara umum algoritma VPG memberikan reward lebih besar dari algoritma TRPO saat diuji dalam lingkungan yang sama dengan lingkungan latih. Namun sebaliknya, secara umum algoritma TRPO memberikan reward yang lebih besar dari algoritma VPG saat diuji dalam lingkungan yang berbeda dengan lingkungan latih. Hasil lain yang didapatkan adalah perbandingan jumlah hider dan seeker juga akan memengaruhi kinerja agen.