Pada dasarnya reinforcement learning menerapkan prinsip trial dan error
sehingga jenis pembelajaran ini membutuhkan waktu yang sangat lama untuk
dapat menyelesaikan masalah. Selain itu berbeda dengan jenis pembelajaran
lainnya, terdapat sebuah tantangan pada reinforcement learning yaitu adanya
trade off antara eksplorasi dan eksploitasi. Di sisi lain peneliti menemukan bahwa
penerapan komputasi kuantum dapat mempercepat komputasi pada beragam
masalah secara kuadratik atau bahkan eksponensial. Sehingga peniliti mulai
menggunakan komputasi kuantum pada bidang pembelajaran mesin termasuk
pada reinforcement learning.
Penelitian sebelumnya oleh Dong, dkk. (2008) menyelesaikan reinforcement
learning dengan metode tabular dan pemilihan aksi yang terinspirasi dari
algoritma kuantum, yaitu iterasi Grover. Penelitian ini menunjukkan bahwa
penggunaan komputasi kuantum dapat menyeimbangkan trade off antara
eksplorasi dan eksploitasi. Namun penggunaan metode tabular tentunya membuat
metode ini tidak scalable. Penelitian lain yang dilakukan oleh Chen, dkk. (2019)
menyelesaikan reinforcement learning dengan metode aproksimasi menggunakan
Variational Quantum Circuit (VQC). Namun penelitian ini lebih berfokus pada
penggunaan parameter dan memori yang jauh lebih sedikit dibanding pada metode
reinforcement learning klasik. Untuk mengisi kekurangan satu sama lain dari
kedua metode tersebut, penelitian tesis ini pada dasarnya menggabungkan metode
yang diusulkan oleh Dong, dkk. (2008) dan Chen, dkk. (2019) dengan beberapa
modifikasi.
Pada penelitian tesis ini dilakukan perbandingan antara kinerja dari metode yang
diusulkan pada tesis ini, kinerja dari metode yang diusulkan oleh Dong, dkk.
(2008), metode yang diusulkan oleh Chen, dkk. (2019) dan metode reinforcement
learning klasik, yaitu algoritma DQN yang diimplementasi oleh Stable Baseline.
Perbandingan tersebut dilakukan pada lingkungan frozen lake yang dikembangkan
oleh Gym OpenAI. Pada lingkungan frozen lake dengan peta berukuran 4x4,
kinerja terbaik didapatkan dari metode Grover, kinerja terbaik kedua didapatkan
dari metode yang diusulkan pada tesis ini. Sebaliknya pada lingkungan yang lebih
besar, yaitu peta berukuran 8x8 secara umum metode yang diusulkan pada tesis
ini memberikan kinerja terbaik atau dengan kata lain metode tersebut lebih
ii
scalable. Baik pada peta berukuran 4x4 maupun peta berukuran 8x8, kinerja dari
metode VQC dan RL klasik secara umum lebih buruk dibanding kinerja dari
metode yang diusulkan. Hasil pengujian juga menunjukkan bahwa metode yang
diusulkan berhasil membuat agen melakukan eksplorasi dengan baik.
Dibandingkan dari segi waktu, metode Grover dan RL klasik membutuhkan
waktu yang lebih singkat dari metode yang diusulkan pada tesis ini. Namun
metode yang diusulkan membutuhkan waktu yang lebih singkat dari metode
VQC. Dibandingkan dari segi konsumsi memori atau parameter, metode Grover
membutuhkan penyimpanan sebanyak N dimana N adalah jumlah anggota ruang
state dan metode RL klasik membutuhkan parameter sebanyak 64 x (N + 68).
Sedangkan parameter untuk metode yang diusulkan pada tesis ini dan metode
VQC hanya membutuhkan parameter sebanyak 3 log N. Namun komputasi dari
metode yang diusulkan sedikit lebih kompleks dari metode VQC karena pada
dasarnya metode yang diusulkan merupakan gabungan dari metode Grover dan
metode VQC sehingga membutuhkan lebih banyak qubit.