digilib@itb.ac.id +62 812 2508 8800

Permainan euro merupakan salah satu jenis permainan yang berfokus pada penentuan strategi. The Gallerist adalah permainan papan yang tergolong pada jenis permainan ini. Secara umum, pemilihan strategi terbaik dari permainan euro cenderung tidak berubah. Meskipun begitu, permainan euro memiliki ratusan hingga ribuan urutan pemilihan aksi yang membuat pemain kesulitan untuk menentukan strategi terbaik dari permainan ini. Hal ini dapat diatasi menggunakan metode pembelajaran penguatan mendalam. Pada metode ini, setiap keadaan dan aksi dari permainan akan diaproksimasi sebagai nilai tertentu menggunakan jaringan saraf tiruan. Kemudian, Pembelajaran penguatan akan memetakan nilai suatu keadaan ke nilai suatu aksi untuk memaksimalkan hasil yang didapatkan. Data yang digunakan pada metode ini didapatkan melalui proses eksplorasi agen terhadap lingkungan permainan selama pembelajaran berlangsung. Terdapat beberapa algoritma pembelajaran penguatan yang akan digunakan yaitu deep Q-network, double deep Qnetwork, vanilla policy gradient, dan proximal policy optimization. Berdasarkan algoritma tersebut, akan dicari algoritma yang dapat mempelajari lingkungan permainan dengan baik. Algoritma tersebut akan digunakan untuk mendapatkan hasil akhir berupa urutan aksi yang menjadi strategi terbaik dalam permainan The Gallerist.