Sekitar 36% konsumsi energi dunia dan 38% emisi karbon disebabkan oleh sektor bangunan. Indonesia telah membuat komitmen untuk mencapai pengurangan emisi karbon sebesar 29% pada tahun 2030, dengan menerapkan langkah-langkah yang berfokus pada konservasi energi. Selain itu, terdapat target khusus untuk mencapai 23% pemanfaatan energi baru terbarukan pada tahun 2025. Fakta bahwa konsumsi energi paling besar pada sistem bangunan adalah HVAC, hal ini merupakan fokus para peneliti untuk melakukan upaya meningkatkan efisiensi energi bangunan tanpa mengorbankan kenyamanan termal. Namun, kenyamanan termal penghuni dengan konsumsi energi yang lebih rendah merupakan tantangan signifikan bagi para peneliti. Oleh karena itu, dalam penelitian ini disajikan pendekatan baru yang cerdas, yang memiliki kemampuan untuk mengontrol secara akurat sistem HVAC bangunan berdasarkan kenyamanan termal melalui analisis Predicted Mean Vote dan Energy Efficiency Utilization dalam bangunan untuk mengurangi konsumsi energi sistem HVAC.
Berbagai penelitian yang menggunakan pengontrol Reinforcement Learning saat ini sudah sangat banyak dilakukan khususnya diobjek penelitian HVAC. Fokus penelitian ini adalah pengembangan sebuah pengontrol berbasis reinforcement learning, guna menurunkan konsumsi HVAC pada bangunan universitas dengan cara meminimalisir penggunaan energi berdasarkan sistem pengaturan temperature setpoint sehingga energy efficiency utilization menjadi minimum tanpa mengorbankan kenyamanan termal. Pada penelitian ini melakukan pendekatan berdasarkan pemodelan dan simulasi. Objek studi kasus yang digunakan adalah Gedung Labtek XIX SBM ITB Gedung Freeport dimana bangunan tersebut dimodelkan menggunakan SketchUp, kemudian redesign pada OpenStudio untuk mendefenisikan berbagai parameter sesuai kondisi bangunan nyata.
Bangunan yang dimodelkan terbatas pada lantai 2 dengan 4 zona termal untuk kesederhanaan perancangan. Setpoint temperatur sistem HVAC pada model ditetapkan konstan 24°C sebagai nilai awal. Model bangunan yang telah dibuat kemudian divalidasi dengan menganalisis pola konsumsi daya sistem HVAC hasil simulasi dengan hasil pengukuran dari Sistem Energi Listrik dan Air (SiElisA). Setelah model bangunan tersedia, dilakukan perancangan pengontrol
Reinforcement Learning pada perangkat lunak Python. Algoritma pengontrol yang dipilih pada penelitian ini adalah Proximal Policy Optimization (PPO) karena sifatnya yang stabil untuk banyak kasus sistem bangunan, sederhana, berbasis policy dan tidak memerlukan sumber daya komputasi yang besar. Meskipun demikian, pada penelitian ini telah dilakukan penalaan hyperparameter berupa learning rate. Learning rate ditala pada nilai 0,1, 0,01, 0,001, 0,0001, 0,00001 dan 0,000001. Dari penalaan kedua tersebut, dipilih pengontrol dengan learning rate sebesar 0,001 karena reward saat ujung penalaan lebih tinggi dibanding dengan penalaan reward lainnya.
Pengontrol yang telah ditraining, kemudian diuji pada total 4 minggu di mana terdapat peristiwa musim kemarau, musim penghujan, ekuinoks I, dan ekuinoks II. Parameter yang dievaluasi untuk 4 zona termal meliputi perubahan setpoint temperatur, perubahan kenyamanan termal dan penghematan biaya. Pada penelitian ini diperoleh bahwa pengontrol mampu menurunkan efisiensi bangunan sebesar 7,4% pada ekuinoks I (Maret), 11,8% pada pada ekuinoks II (September), 10,9% pada musim kemarau (Mei) dan 14% pada musim penghujan (Desember). Hasil evaluasi didapatkan penurunan konsumsi energi untuk objek studi kasus Lantai 2 Gedung Labtek XIX SBM ITB adalah sebesar 11,02% dan mampu meningkatkan kenyamanan termal 25% dibandingkan tanpa adanya pengontrol.