Metode Monte Carlo paralel dalam permasalahan reinforcement learning terbukti
mampu mempercepat peningkatan kualitas pengalaman agen dengan penambahan
jumlah agen pada jumlah episode agen yang sama. Penelitian terdahulu telah menguji
hingga 16 agen yang digunakan secara paralel. Perkembangan GPGPU yang
pesat, terutama NVIDIA CUDA, membuka peluang penggunaan GPU untuk jumlah
agen yang lebih tinggi. Namun hal ini juga membuka masalah baru, yaitu meningkatnya
beban pembagian pengalaman yan perlu dilakukan tiap agen. Pada penelitian
ini diusulkan dua implementasi dengan penggunaan CUDA Dynamic Parallelism
(CDP) untuk mengatasi hal ini pada permasalahan grid world. Kedua implementasi
tersebut adalah Monte Carlo paralel asinkron dan Monte Carlo paralel asinkron
bertingkat. Berdasarkan eksperimen yang dilakukan, terdapat peningkatan waktu
eksekusi hingga 22%. Akan tetapi seiring dengan penambahan jumlah agen dan
episode yang besar overhead yang didapatkan dari pemanggilan kernel CDP akan
menutupi peningkatan performa yang didapatkan.
Perpustakaan Digital ITB