Penelitian ini menghasilkan model deep reinforcement learning untuk melakukan
algorithmic trading cryptocurrency. Pembuatan model ditujukan untuk menghasilkan
solusi yang mampu membantu trader memperoleh keuntungan yang lebih besar
dibandingkan strategi tradisional. Strategi tradisional mampu digunakan untuk
memperoleh keuntungan. Namun, strategi ini cenderung memerlukan pengetahuan,
pengalaman, dan waktu yang lebih banyak dibandingkan dengan solusi berbasis
machine learning agar dapat menghasilkan keuntungan yang optimal. Model akan
dilatih untuk berdagang pada pasar cryptocurrency. Masukan model adalah data
candlestick interval 1 menit dan technical indicator untuk pasangan cryptocurrency
BTC/USDT. Model akan menghasilkan keluaran berupa sinyal buy, hold, atau sell.
Pengembangan model dilakukan berdasarkan metodologi CRISP-DM. Model akan
dibuat dengan algoritma PPO dan environment custom yang mengikuti interface gym.
Transaction fee rate sebesar 0,1% akan ikut menjadi pertimbangan model dalam
menentukan strategi. Model akan dilatih dan diuji dalam episode-episode yang
berukuran konstan sebesar 720 timestep menit (12 jam). Posisi yang bisa dilakukan oleh
model adalah netral (aset yang dimiliki berjumlah 0) dan long. Keuntungan yang
diperoleh pada setiap posisi akan menjadi reward bagi model. Sistem reward juga akan
dilengkapi dengan sistem pemberian penalti tertentu untuk mencegah model selalu
menerapkan strategi Buy and Hold atau tidak pernah melakukan long. Kinerja model
ditingkatkan melalui optimasi nilai hyperparameter dengan menggunakan Optuna.
Kinerja model dibandingkan dengan strategi Buy and Hold. Pengujian yang telah
dilakukan menunjukkan bahwa model yang dihasilkan pada penelitian ini masih belum
dapat mengalahkan strategi Buy and Hold.