Kebutuhan sistem pengatur lalu lintas otomatis semakin nyata karena meningkatnya kompleksitas jaringan sistem lalu lintas di kota-kota besar. Fluktuasi kondisi lalu lintas dari waktu ke waktu yang tidak menentu dan sistem pengaturan lalu lintas yang konvensional meningkatkan resiko kemacetan. Reinforcement Learning, khususnya Q-Learning, sebagai sistem pengatur lalu lintas mampu mengatasi perubahan tersebut untuk mengurangi resiko kemacetan dan secara adil membagi fase sinyal lalu lintas. Dikembangkan hardware accelerator Q-learning pada FPGA untuk mengatur persimpangan yang kondisi lalu lintasnya dimodelkan berdasarkan data lalu lintas nyata dalam SUMO untuk menguji efektivitas Q-learning dalam menghadapi kondisi nyata serta untuk mempercepat proses learning dari Q-learning. Telah dibuat model Q-learning berbasis software dan gabungan hardware-software yang dibandingkan waktu eksekusinya. Diperoleh model hardware-software yang mampu mengakselerasi waktu eksekusi dari Q-update hingga 3200 kali lipat lebih cepat dibandingkan model software. Q-learning efektif dalam mengatur lalu lintas berdasarkan metrik waiting time dan queue length yang terdistribusi secara merata untuk tiap jalur.
Perpustakaan Digital ITB