Tugas akhir ini membahas simulasi multiagent pada permainan Hide and Seek menggunakan pendekatan Policy Gradient Trust Region Policy Optimization (TRPO). Haniah Wafa, mahasiswa Teknik Informatika ITB, mengkaji penerapan algoritma TRPO untuk menyelesaikan permainan kompetitif ini, membandingkannya dengan Vanilla Policy Gradient (VPG). Hasil eksperimen menunjukkan bahwa VPG memberikan reward lebih besar dalam lingkungan latih yang sama, sementara TRPO unggul dalam lingkungan yang berbeda. Perbandingan jumlah hider dan seeker juga mempengaruhi kinerja agen. Penelitian ini diharapkan memberikan manfaat dalam bidang keilmuan informatika, khususnya multiagent reinforcement learning.