Dunia saat ini tengah menghadapi isu krisis ketahanan energi dengan menipisnya cadangan energi fosil yang berdampak pada ketersedian energi. Kesadaran akan pentingnya Energi Terbarukan (ET) yang ramah lingkungan dan jauh dari pencemaran emisi karbon sangat dibutuhkan. Optimalisasi operasi Mikrogrid (MG) cerdas dan Sistem Baterai Penyimpanan Energi (SBPE) untuk menghadapi sifat intermintensi pada pembangkit ET merupakan suatu solusi untuk mengintegrasikan seluruh komponen dalam menghadapi fluktuasi konsumsi beban listrik dan intermitensi dari pembangkit ET yang mempengaruhi profil dari Renewable Fraction (RF) atau persentase penggunaan ET pada MG. Agar dapat mengoptimalkan operasi SBPE pada MG diperlukan algoritma manajamen energi untuk menjadwalkan operasi pengisian dan pemakaian baterai. Untuk keperluan optimasi kinerjanya dapat digunakan pemodelan hibrida yang merupakan kombinasi antara pemodelan pembelajaran mesin dan pemodelan berbasis kaidah fisika dengan memodelkan SBPE, Pembangkit Listrik Tenaga Surya (PLTS), dan beban listrik.
Pada penelitian ini, digunakan pemodelan SBPE yang mengacu pada data state of charge (SOC) baterai, pemodelan PLTS dilakukan dengan model berbasis kaidah fisika menggunakan PVLib dikombinasi dengan metode pembelajaran mesin, serta beban listrik dimodelkan dengan metode prediksi pembelajaran mesin yaitu deep Q-Learning. Dikembangkan algoritma manajamen energi untuk meningkatkan kinerja RF pada MG dengan mengoptimalkan penjadwalan operasi pengisian dan pemakaian baterai menggunakan metode deep Q-Learning. Algoritma ini dapat diterapkan dalam kerangka kerja MG digital twin (MGDT) yang memodelkan objek fisik menjadi model digital. Dalam penerapan algoritma manajemen energi berbasis deep Q-Learning ini dilakukan beberapa skenario berdasarkan punishment pada reward function dari pengaruh kondisi pada operasi SBPE yang terbagi menjadi high dan low punishment. Didapatkan hasil nilai rata-rata RF selama tujuh hari secara berurutan pada penerapan high dan low punishment yaitu 43,71 dan 45,52 dimana nilai rata-rata RF mengalami peningkatan dari perbandingan algoritma berbasis aturan pada penerapan high dan low punishment secara berurutan yaitu 2,8% dan 6,67%. Disamping itu, didapatkan informasi bahwa
seiring dengan kenaikan hasil nilai reward dan menaikan jumlah iterasi simulasi dapat meningkatkan nilai rata-rata RF.
Penerapan skenario low punishment memiliki keunggulan reward dan nilai rata-rata RF yang meningkat namun memiliki kekurangan pada operasi SBPE yang mengalami kondisi operasi diluar rentang operasi yang diinginkan diakibatkan oleh tidak adanya hukuman atas kondisi operasi tersebut demikian pula dengan skenario high punishment. Pada penerapan skenario high punishment walaupun menghasilkan nilai rata-rata RF yang lebih rendah namun cenderung mengoperasikan SBPE pada rentang operasi yang sangat berpengaruh pada umur baterai.