digilib@itb.ac.id +62 812 2508 8800

Abstrak
PUBLIC karya

Abstract
PUBLIC karya

COVER Azis Adi Kuncoro
Terbatas  karya
» Gedung UPT Perpustakaan

BAB 1 Azis Adi Kuncoro
Terbatas  karya
» Gedung UPT Perpustakaan

BAB 2 Azis Adi Kuncoro
Terbatas  karya
» Gedung UPT Perpustakaan

BAB 3 Azis Adi Kuncoro
Terbatas  karya
» Gedung UPT Perpustakaan

BAB 4 Azis Adi Kuncoro
Terbatas  karya
» Gedung UPT Perpustakaan

BAB 5 Azis Adi Kuncoro
Terbatas  karya
» Gedung UPT Perpustakaan

PUSTAKA Azis Adi Kuncoro
Terbatas  karya
» Gedung UPT Perpustakaan

Reinforcement learning merupakan salah satu sub permasalahan dari machine learning dimana agen belajar bagaimana melakukan tindakan terbaik pada suatu kondisi di sebuah lingkungan. Deep learning mampu membantu reinforcement learning dalam merepresentasikan state space yang besar. Dengan menggunakan deep reinforcement learning agen dapat bermain pada lingkungannya tanpa pengetahuan awal. Permainan soccer simulation 2D merupakan lingkungan permainan yang mensimulasikan permainan sepak bola. Salah satu pengembangan dari soccer simulation 2D adalah Half Field Offense (HFO). HFO menyediakan fitur-fitur yang membantu dalam pembelajaran reinforcement learning seperti pembelajaran episodik, pilihan untuk menggunakan high level atau low level action maupun state space, ketersediaan agen hand-coded dan juga agen random sebagai baseline, tersedia dalam bahasa python dan C++. Pada tugas akhir ini, digunakan metode advantage actor critic (A2C). Dalam implementasinya, A2C memiliki dua deep neural network, yaitu network actor dan network critic. Network actor bertugas memilih aksi untuk agen. Network actor menerima input berupa state dari permainan HFO pada suatu timestep dan output-nya berupa kode dari aksi yang bersifat diskrit. Sedangkan network critic bertugas menilai seberapa baik aksi yang dihasilkan berdasarkan state-nya. Network critic menerima input berupa state dan aksi yang dipilih oleh agen dan output-nya berupa nilai evaluasi dari melakukan aksi pada state tersebut. Terdapat dua jenis agen yang dilatih, yaitu agen penyerang dan agen bertahan. Skenario permainan yang dipilih adalah 5 vs 5, hal ini didasarkan pada permainan futsal yang menggunakan jumlah pemain sebanyak itu. Untuk setiap agen terdapat model A2C-nya tersendiri. Strategi koordinasi antar agen dipelajari oleh agen saat fase pembelajaran. Pembelajaran agen dilakukan sejumlah 10.000 epoch melawan agen hand-coded. Hasil yang didapat adalah A2C mampu melampaui baseline yang berupa agen random. Namun, masih sedikit dibawah performa agen hand-coded.