ABSTRAK Faza Fahleraz
PUBLIC Alice Diniarti COVER Faza Fahleraz
PUBLIC Alice Diniarti
BAB 1 Faza Fahleraz
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan
BAB 2 Faza Fahleraz
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan
BAB 3 Faza Fahleraz
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan
BAB 4 Faza Fahleraz
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan
BAB 5 Faza Fahleraz
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan
Terbatas  Alice Diniarti
» Gedung UPT Perpustakaan
PUSTAKA Faza Fahleraz
PUBLIC Alice Diniarti
Multi-agent reinforcement learning (MARL) merupakan salah satu pengembangan
yang paling mutakhir dalam bidang kecerdasan buatan. Reinforcement learning
(RL) adalah kemampuan suatu agent untuk belajar menyelesaikan masalah dalam
suatu environment secara mandiri melalui trial-and-error. MARL merupakan
pengembangan dari RL untuk permasalahan yang bersifat multi-agent. MARL juga
memiliki potensi untuk merevolusi industri logistik. Salah satu sektor terbesar dari
industri logistik adalah pergudangan yang mana terdapat beberapa permasalahan
yang dapat diotomatisasi. Salah satu permasalahan tersebut adalah pemindahan
barang-barang dari rak-rak dalam suatu gudang layanan pengiriman.
Berangkat dari sana, pada tugas akhir ini dilakukan studi terhadap MARL dengan
mengembangkan sebuah environment multi-agent yang mensimulasikan
permasalahan tersebut. Dilakukan juga pengujian performa satu algoritma RL yang
paling mutakhir, yaitu Soft Actor-Critic (SAC), pada environment yang
dikembangkan.
Environment yang dikembangkan bernama Warehouse. Environment ini dapat
mensimulasikan pemindahan barang-barang pada rak-rak dalam suatu gudang
menggunakan robot-robot otonom. Terdapat dua variasi ukuran dan jumlah agent
dari environment Warehouse yaitu WarehouseSmall dan WarehouseMedium.
Dikembangkan juga 3 solusi baseline yang akan dibandingkan performanya dengan
algoritma SAC, yaitu solusi acak, greedy, dan campuran.
Algoritma SAC berhasil diujikan pada kedua varian environment Warehouse dan
mendapat performa terbaik dibandingkan dengan ketiga solusi baseline dimana
SAC mendapat nilai average return per agent 28,63% dan 18,91% lebih tinggi
dibandingkan dengan solusi greedy yang menempati posisi kedua untuk masingmasing
varian WarehouseSmall dan WarehouseMedium. Analisis terhadap hasil
pengujian juga menunjukkan bahwa masing-masing agent pada solusi SAC dapat
melakukan kerja sama. Terdapat tiga emergent behavior yang dapat diobservasi yang menjelaskan hasil pengujian yang didapat yaitu collision avoidance,
coordinated assignment, dan sub-optimal movement.