Perubahan iklim global mendorong pemerintah Indonesia untuk meningkatkan bauran energi listrik, salah satunya lewat pemasangan mikrogrid pada bangunan. Namun, sifat intermiten dari produksi PV dapat menyebabkan turunnya keandalan pembangkit. Kemudian, dari sisi bangunan, profil konsumsi listrik pada bangunan universitas bersifat kompleks dan dinamis, sehingga dibutuhkan suatu manajemen sistem energi pada bangunan. Salah satu parameter dari manajemen sistem energi bangunan adalah swakonsumsi produksi PV yang dikonsumsi langsung. Maka dari itu, dilakukan peningkatan swakonsumsi fotovoltaik dengan melakukan pengontrolan manajemen energi pada bangunan, salah satunya lewat manajemen charge dan discharge Sistem Baterai Penyimpan Energi (SBPE).
Pada penelitian ini, pengontrol yang dibangun adalah pengontrol Reinforcement Learning (RL) dengan algoritma pembelajaran Proximal Policy Optimization (PPO). Metodologi dari penelitian ini adalah dengan membuat model bangunan dan mikrogrid serta profil produksi PV dan konsumsi listriknya pada bulan September, Desember, Maret dan Juni, lalu membangun pengontrol berbasis aturan sebagai referensi, lalu membuat agen pengontrol Reinforcement Learning dengan penalaan nilai learning rate dan membangun fungsi reward, yang kemudian dievaluasi dan dianalisa dari sisi peningkatan swakonsumsi. Seluruh tahapan dilakukan pada lingkungan MATLAB dan Simulink.
Hasil yang didapatkan menunjukkan agen RL yang optimal dengan nilai learning rate dari aktor dan kritik sebesar 0,001 dan 0,0001. Didapatkan peningkatan nilai swakonsumsi yang sangat baik oleh pengontrol berbasis aturan yang dijadikan referensi, lalu peningkatan yang baik oleh pengontrol RL dengan rentang kenaikan 2,42% - 16,7%. Pengontrol RL juga membuktikan bahwa pengontrol RL lebih baik untuk menjaga kesehatan SBPE dengan meminimalisir deep discharge hingga Depth of Discharge maksimum dibandingkan dengan pengontrol berbasis aturan.