Mikrogrid (MG), sebagai entitas sistem energi listrik cerdas yang mewujudkan integrasi sumber energi terbarukan, menjadi jawaban atas kebutuhan energi listrik yang terus meningkat bersamaan dengan menipisnya cadangan energi fosil. Namun, sifat intermiten dari sumber energi terbarukan menjadi kendala bagi MG, karena dapat menyebabkan menurunnya kinerja MG yang ditandai dengan tidak maksimalnya renewable fraction (RF) dan battery utilization (BU). Hal ini dapat diatasi oleh penerapan kontrol pada komponen-komponen MG, dengan salah satu komponennya adalah sistem baterai penyimpan energi (SBPE). Reinforcement learning (RL), salah satu cabang dari machine learning, adalah salah satu metode yang menjanjikan untuk diaplikasikan pada kontrol manajemen energi pada MG cerdas. Penggunaan algoritma-algoritma RL dalam MG cerdas dapat mewujudkan agen yang dapat dilatih untuk melaksanakan suatu tugas, dalam kasus ini meregulasi pengisian dan pengosongan SBPE untuk manajemen energi, untuk memenuhi sebuah fungsi reward yang diinginkan yaitu operasi MG cerdas yang efisien berdasarkan parameter kinerjanya. Salah satu metode RL yang akan dimanfaatkan pada penelitian ini adalah deep Q-learning. Algoritma deep reinforcement learning (DRL) khusus yang disebut DQN diaplikasikan ke manajemen energi yang optimal MG dengan ketidakpastian. Tujuannya adalah untuk menemukan jadwal pembangkitan yang paling hemat biaya dari MG dengan memanfaatkan sistem penyimpan energi sepenuhnya. Pada praktiknya, kapasitas daya yang dihasilkan oleh panel surya seringkali melebihi daya yang dibutuhkan beban. Akan tetapi, sistem tidak menerima sepenuhnya daya yang diproduksi panel surya akibat keterbatasan kebutuhan daya beban dan kapasitas baterai. Hal ini disebabkan oleh konsep derating yang diterapkan pada PV inverter di mana terdapat pengurangan daya keluaran tergantung pada kebutuhan kondisi sebagai tindakan perlindungan komponen dari kerusakan dengan meningkatkan frekuensi inverter. Pemanfaatan daya PV yang tidak optimal menyebabkan nilai renewable fraction (RF) rendah. Salah satu cara untuk meningkatkan nilai RF adalah dengan menyuplai daya ke jaringan listrik publik atau disebut dengan grid feed. Trilema Energi didefinisikan sebagai kebutuhan untuk menemukan keseimbangan antara keamanan energi (energy security), keterjangkauan (affordability), dan keberlanjutan (sustainability) serta dampaknya. Ketiga sisi dari trilema ini berfokus pada hal yang berbeda, dengan tujuan dan rekomendasi aksi yang seringkali bertolak belakang. Algoritma yang dibuat pada penelitian ini diharapkan dapat memperhitungkan pengaturan pola pengisian dan pengosongan SBPE dengan memperhitungkan levelized cost of electricity (LCOE) untuk menunjang sisi keterjangkauan dari trilema energi serta efisiensi komponen inverter hibrida untuk menunjang sisi keberlanjutan trilemma energi. Pada penelitian ini diterapkan penjadwalan aksi SBPE berbasis optimasi dengan menggunakan salah satu jenis metode reinforcement learning, yaitu deep Q- learning berdasarkan optimasi efisiensi inverter hibrida dan levelized cost of electricity (LCOE). Efisiensi inverter hibrida dioptimalkan dengan mengoperasikan inverter pada rentang daya masukan yang menghasilkan efisiensi terbaik. Algoritma yang sudah dioptimasi kemudian digunakan untuk membuat rekomendasi penjadwalan baterai. Pengaturan penjadwalan pengisian dan pengosongan baterai serta penjadwalan grid feed ini mengakibatkan peningkatan RF dan BU. Algoritma kontrol ditempatkan dalam kerangka kerja MG digital twin (MGDT) yang memodelkan objek fisik menjadi objek digital. Berdasarkan hasil uji dan analisis, diperoleh kenaikan RF dan BU masing-masing sebesar 8,78% dan 51,79% dibandingkan dengan algoritma decisiton tree. Terdapat kenaikan rata-rata nilai LCOE pada algoritma DQN untuk baterai VRLA sebesar Rp278,44/kWh yang tidak diharapkan. Penggantian baterai menggunakan LFP dapat menurunkan nilai LCOE sebesar Rp101,05/kWh. Berdasarkan hasil uji dan analisis, penggunaan baterai LFP dapat meningkatkan nilai RF dan BU serta menurunkan nilai LCOE.