Kemacetan lalu lintas merupakan permasalahan utama di daerah perkotaan yang
berdampak negatif terhadap waktu perjalanan, konsumsi bahan bakar, emisi gas
buang, serta kesehatan mental dan fisik masyarakat. Sistem kontrol lampu lalu lintas
yang berbasis durasi tetap tidak dapat beradaptasi dengan kondisi lalu lintas yang
dinamis. Oleh karena itu, diperlukan solusi berupa sistem kontrol durasi lampu lalu
lintas yang lebih adaptif dengan objektif menurunkan kemacetan.
Penelitian ini bertujuan untuk mengembangkan sistem kontrol lampu lalu lintas
berbasis Reinforcement Learning (RL) yang mampu mengontrol durasi lampu lalu
lintas secara real-time. Metodologi penelitian menggunakan CRISP-DM (Cross
Industry Standard Process for Data Mining) yang mencakup tahapan: Business
Understanding, Data Understanding, Data Preparation, Modelling, Evaluation,
dan Deployment. Data lalu lintas diperoleh melalui Google Maps API, kemudian
dilakukan sintesis data rute kendaraan menggunakan simulator SUMO untuk
membangun lingkungan simulasi. Model RL dilatih dengan delapan algoritma
berbeda: SARSA, Q-Learning, Deep Q-Network (DQN), Double Deep Q-Network
(DDQN), REINFORCE, Deep Deterministic Policy Gradient (DDPG), Proximal
Policy Optimization (PPO), dan Soft Actor-Critic (SAC). Proses optimasi dilakukan
melalui pendekatan grid search untuk menentukan hyperparameter terbaik bagi
setiap algoritma.
Dalam penelitian ini, hasil evaluasi menunjukkan bahwa algoritma berbasis policy
gradient off-policy, yaitu DDPG, memiliki kinerja terbaik dalam mengurangi
kemacetan dibandingkan model lain. Pada lalu lintas hari kerja, model ini mampu
mengurangi waktu perjalanan 30%, mengurangi jumlah antrian sebesar 23%, serta
mengurangi jumlah antrian di persimpangan sebesar 79%. Pada lalu lintas hari libur,
mampu mengurangi waktu perjalanan 16% mengurangi jumlah antrian sebesar 14%,
serta mengurangi jumlah antrian di persimpangan sebesar 75%.