digilib@itb.ac.id +62 812 2508 8800

Pada dasarnya reinforcement learning menerapkan prinsip trial dan error sehingga jenis pembelajaran ini membutuhkan waktu yang sangat lama untuk dapat menyelesaikan masalah. Selain itu berbeda dengan jenis pembelajaran lainnya, terdapat sebuah tantangan pada reinforcement learning yaitu adanya trade off antara eksplorasi dan eksploitasi. Di sisi lain peneliti menemukan bahwa penerapan komputasi kuantum dapat mempercepat komputasi pada beragam masalah secara kuadratik atau bahkan eksponensial. Sehingga peniliti mulai menggunakan komputasi kuantum pada bidang pembelajaran mesin termasuk pada reinforcement learning. Penelitian sebelumnya oleh Dong, dkk. (2008) menyelesaikan reinforcement learning dengan metode tabular dan pemilihan aksi yang terinspirasi dari algoritma kuantum, yaitu iterasi Grover. Penelitian ini menunjukkan bahwa penggunaan komputasi kuantum dapat menyeimbangkan trade off antara eksplorasi dan eksploitasi. Namun penggunaan metode tabular tentunya membuat metode ini tidak scalable. Penelitian lain yang dilakukan oleh Chen, dkk. (2019) menyelesaikan reinforcement learning dengan metode aproksimasi menggunakan Variational Quantum Circuit (VQC). Namun penelitian ini lebih berfokus pada penggunaan parameter dan memori yang jauh lebih sedikit dibanding pada metode reinforcement learning klasik. Untuk mengisi kekurangan satu sama lain dari kedua metode tersebut, penelitian tesis ini pada dasarnya menggabungkan metode yang diusulkan oleh Dong, dkk. (2008) dan Chen, dkk. (2019) dengan beberapa modifikasi. Pada penelitian tesis ini dilakukan perbandingan antara kinerja dari metode yang diusulkan pada tesis ini, kinerja dari metode yang diusulkan oleh Dong, dkk. (2008), metode yang diusulkan oleh Chen, dkk. (2019) dan metode reinforcement learning klasik, yaitu algoritma DQN yang diimplementasi oleh Stable Baseline. Perbandingan tersebut dilakukan pada lingkungan frozen lake yang dikembangkan oleh Gym OpenAI. Pada lingkungan frozen lake dengan peta berukuran 4x4, kinerja terbaik didapatkan dari metode Grover, kinerja terbaik kedua didapatkan dari metode yang diusulkan pada tesis ini. Sebaliknya pada lingkungan yang lebih besar, yaitu peta berukuran 8x8 secara umum metode yang diusulkan pada tesis ini memberikan kinerja terbaik atau dengan kata lain metode tersebut lebih ii scalable. Baik pada peta berukuran 4x4 maupun peta berukuran 8x8, kinerja dari metode VQC dan RL klasik secara umum lebih buruk dibanding kinerja dari metode yang diusulkan. Hasil pengujian juga menunjukkan bahwa metode yang diusulkan berhasil membuat agen melakukan eksplorasi dengan baik. Dibandingkan dari segi waktu, metode Grover dan RL klasik membutuhkan waktu yang lebih singkat dari metode yang diusulkan pada tesis ini. Namun metode yang diusulkan membutuhkan waktu yang lebih singkat dari metode VQC. Dibandingkan dari segi konsumsi memori atau parameter, metode Grover membutuhkan penyimpanan sebanyak N dimana N adalah jumlah anggota ruang state dan metode RL klasik membutuhkan parameter sebanyak 64 x (N + 68). Sedangkan parameter untuk metode yang diusulkan pada tesis ini dan metode VQC hanya membutuhkan parameter sebanyak 3 log N. Namun komputasi dari metode yang diusulkan sedikit lebih kompleks dari metode VQC karena pada dasarnya metode yang diusulkan merupakan gabungan dari metode Grover dan metode VQC sehingga membutuhkan lebih banyak qubit.