Di Indonesia, terdapat beberapa persimpangan di mana lebih dari 10.000 kendaraan
melintas setiap jam. Di persimpangan tersebut biasanya tidak ada lampu lalu lintas
adaptif, yang mengakibatkan pengaturan lalu lintas dilakukan secara manual oleh
petugas. Hal tersebut berdampak pada durasi lampu merah yang terlalu lama pada
salah satu ruas jalan dan menyebabkan waktu tunggu kendaraan serta panjang
antrean yang berlebihan. Studi ini bertujuan untuk membuat environment simulasi
yang secara akurat merepresentasikan kondisi dunia nyata di Persimpangan Samsat,
mengevaluasi kinerja pelatihan Reinforcement Learning (RL), menilai metode RL
yang paling efisien untuk mengatur lampu lalu lintas. Penelitian ini menyajikan
simulasi SUMO untuk membandingkan tiga kondisi di Persimpangan Samsat di
Kota Bandung, Indonesia: Proximal Policy Optimization (PPO), Deep Q Network
(DQN), dan tanpa RL. Simulasi lampu lalu lintas adaptif, khususnya menggunakan
PPO dan DQN, menunjukkan potensi untuk meningkatkan efisiensi kinerja
simpang dan mengurangi kemacetan. Hasil penelitian menunjukkan bahwa
penerapan lampu lalu lintas adaptif dapat menurunkan panjang antrean rata-rata
13,09% (PPO) dan 11,74% (DQN), mengurangi waktu tunggu 45,9% (PPO) dan
39,1% (DQN), serta menurunkan durasi lampu merah maksimal 22,69% (PPO) dan
25,7 (DQN). Hasil ini menunjukan efektivitas strategi berbasis RL dalam
mengurangi kemacetan lalu lintas dan menjadi referensi untuk perbaikan
manajemen lalu lintas di perkotaan.