Sayuran tergolong produk yang mudah rusak dengan umur simpan terbatas yang menyebabkan konsumen cenderung menghindari produk yang mendekati waktu kadaluarsa. Tantangan utama penjual sayur adalah memaksimalkan penjualan sebelum kesegaran menurun. Penelitian ini bertujuan mengoptimalkan dinamika harga sayuran untuk meningkatkan penjualan dan mengurangi limbah makanan menggunakan pembelajaran penguatan dengan algoritma Q-Learning dan pengembangannya, Deep Q-Learning. Q-Learning adalah algoritma yang menemukan kebijakan optimal yang dalam kasus ini adalah harga optimal melalui percobaan, namun algoritma ini memiliki keterbatasan karena membutuhkan tabel nilai Q yang besar. Deep Q-Learning mengatasi keterbatasan ini dengan menggunakan jaringan saraf tiruan untuk memperkirakan nilai Q, sehingga lebih efisien dalam menangani lingkungan kompleks.
Performa model dinilai dari hasil simulasi dan waktu komputasi. Hasil simulasi dievaluasi berdasarkan kebijakan harga, tingkat penjualan, jumlah limbah, dan total profit yang membaik seiring bertambahnya episode. Penggunaan Deep Q-Learning terbukti memberikan profit lebih besar dan limbah lebih sedikit dibandingkan Q-Learning, meskipun Deep Q-Learning memiliki waktu komputasi yang lebih lama dibandingkan Q-Learning.