Permainan euro merupakan salah satu jenis permainan yang berfokus pada
penentuan strategi. The Gallerist adalah permainan papan yang tergolong pada
jenis permainan ini. Secara umum, pemilihan strategi terbaik dari permainan
euro cenderung tidak berubah. Meskipun begitu, permainan euro memiliki ratusan
hingga ribuan urutan pemilihan aksi yang membuat pemain kesulitan untuk menentukan
strategi terbaik dari permainan ini. Hal ini dapat diatasi menggunakan metode
pembelajaran penguatan mendalam. Pada metode ini, setiap keadaan dan aksi dari
permainan akan diaproksimasi sebagai nilai tertentu menggunakan jaringan saraf
tiruan. Kemudian, Pembelajaran penguatan akan memetakan nilai suatu keadaan ke
nilai suatu aksi untuk memaksimalkan hasil yang didapatkan. Data yang digunakan
pada metode ini didapatkan melalui proses eksplorasi agen terhadap lingkungan
permainan selama pembelajaran berlangsung. Terdapat beberapa algoritma pembelajaran
penguatan yang akan digunakan yaitu deep Q-network, double deep Qnetwork,
vanilla policy gradient, dan proximal policy optimization. Berdasarkan
algoritma tersebut, akan dicari algoritma yang dapat mempelajari lingkungan
permainan dengan baik. Algoritma tersebut akan digunakan untuk mendapatkan
hasil akhir berupa urutan aksi yang menjadi strategi terbaik dalam permainan The
Gallerist.