Article Details

SIMULASI MULTI-AGENT REINFORCEMENT LEARNING UNTUK PERMASALAHAN PERGUDANGAN DENGAN ALGORITMA SOFT ACTOR-CRITIC

Oleh   Faza Fahleraz [13516095]
Kontributor / Dosen Pembimbing : Dr. Judhi Santoso, M.Sc.;
Jenis Koleksi : S1-Tugas Akhir
Penerbit : STEI - Teknik Informatika
Fakultas : Sekolah Teknik Elektro dan Informatika (STEI)
Subjek :
Kata Kunci : multi-agent reinforcement learning, Soft Actor-Critic, pergudangan.
Sumber :
Staf Input/Edit : Alice Diniarti  
File : 1 file
Tanggal Input : 2020-07-01 15:27:48

Multi-agent reinforcement learning (MARL) merupakan salah satu pengembangan yang paling mutakhir dalam bidang kecerdasan buatan. Reinforcement learning (RL) adalah kemampuan suatu agent untuk belajar menyelesaikan masalah dalam suatu environment secara mandiri melalui trial-and-error. MARL merupakan pengembangan dari RL untuk permasalahan yang bersifat multi-agent. MARL juga memiliki potensi untuk merevolusi industri logistik. Salah satu sektor terbesar dari industri logistik adalah pergudangan yang mana terdapat beberapa permasalahan yang dapat diotomatisasi. Salah satu permasalahan tersebut adalah pemindahan barang-barang dari rak-rak dalam suatu gudang layanan pengiriman. Berangkat dari sana, pada tugas akhir ini dilakukan studi terhadap MARL dengan mengembangkan sebuah environment multi-agent yang mensimulasikan permasalahan tersebut. Dilakukan juga pengujian performa satu algoritma RL yang paling mutakhir, yaitu Soft Actor-Critic (SAC), pada environment yang dikembangkan. Environment yang dikembangkan bernama Warehouse. Environment ini dapat mensimulasikan pemindahan barang-barang pada rak-rak dalam suatu gudang menggunakan robot-robot otonom. Terdapat dua variasi ukuran dan jumlah agent dari environment Warehouse yaitu WarehouseSmall dan WarehouseMedium. Dikembangkan juga 3 solusi baseline yang akan dibandingkan performanya dengan algoritma SAC, yaitu solusi acak, greedy, dan campuran. Algoritma SAC berhasil diujikan pada kedua varian environment Warehouse dan mendapat performa terbaik dibandingkan dengan ketiga solusi baseline dimana SAC mendapat nilai average return per agent 28,63% dan 18,91% lebih tinggi dibandingkan dengan solusi greedy yang menempati posisi kedua untuk masingmasing varian WarehouseSmall dan WarehouseMedium. Analisis terhadap hasil pengujian juga menunjukkan bahwa masing-masing agent pada solusi SAC dapat melakukan kerja sama. Terdapat tiga emergent behavior yang dapat diobservasi yang menjelaskan hasil pengujian yang didapat yaitu collision avoidance, coordinated assignment, dan sub-optimal movement.