Objektif teori kendali optimal adalah untuk merancang sinyal kendali agar keluaran
sistem yang dikendalikan mampu mencapai referensi yang diinginkan dan pada saat
bersamaan mampu mengoptimisasi indeks kinerja. Sistem kendali optimal konvensional
memerlukan penyelesaian Persamaan Hamilton-Jacobi-Bellman (HJB) untuk
menghasilkan hukum kendali optimal. Penyelesaian Persamaan HJB memerlukan
model kendalian. Pada praktiknya, model dinamika sistem sulit untuk didapatkan
secara akurat karena adanya faktor-faktor ketidakpastian dan berubahnya
dinamika sistem setiap waktu. Di sisi lain, metode Pembelajaran Penguatan (PP)
merupakan salah satu metode kecerdasan buatan untuk menentukan solusi optimal,
sehingga dapat dipergunakan sebagai alternatif untuk menyelesaikan persoalan
kendali optimal. Oleh sebab itu, PP merupakan metode yang beririsan antara teori
sistem kendali dan kecerdasan buatan. PP juga merupakan metode yang bertujuan
untuk mengoptimisasi suatu indeks kinerja. Indeks kinerja tersebut merupakan
nilai yang digunakan untuk mendefinisikan seberapa baik peran agen PP dalam
memberikan sinyal kendali pada lingkungannya. Sebuah paradigma tergerak data
(data-driven) untuk PP akan memungkinkan agen mampu belajar secara efisien.
Pendekatan inilah yang memiliki kemungkinan untuk menyelesaikan permasalahan
sistem kendali optimal konvensional. Metode PP diklasifikasikan berbasis model
dan tanpa model. Pada penelitian disertasi ini ditelaah pendekatan PP berbasis
model untuk kasus Gaussian Kuadratik Linier (GKL), selanjutnya disebut sebagai
Metode Tergerak Data Untuk GKL. Selanjutnya pendekatan PP tanpa model
ditelaah untuk kasus Umpan Balik Keluaran (UBK), selanjutnya disebut sebagai
Metode Tergerak Data Untuk UBK.
Pada Metode Tergerak Data Untuk GKL, pengendali GKL yang mengkombinasikan
peranan filter Kalman serta Regulator Kuadratik Linier (RKL) sebagai estimator dan
pengendali. Kombinasi metode ini mampu menangani persoalan regulasi sistem
linier dengan faktor gangguan dengan karakteristik statistik Gaussian. Kelemahan
dari metode ini adalah dinamika kendalian bersifat linier dan harus diketahui, selain
itu faktor gangguan sistem dan pengukuran bersifat stokastik yang karakteristik
statistiknya juga diketahui. Metode yang diusulkan pada penelitian ini adalah
kombinasi KalmanNet dan algoritma Iterasi Nilai untuk merancang pengendali pada
sistem stokastik waktu diskrit. Prinsip kerja Metode Tergerak Data Untuk GKL
ini diawali dengan mempersiapkan kumpulan data sinyal masukan dan keluaran
dari sebuah kendalian. Kemudian, secara eksplisit dilakukan identifikasi sistem
hingga diperoleh pendekatan model. Selanjutnya, algoritma KalmanNet digunakan
untuk membangun estimasi status. KalmanNet merupakan algoritma yang berfokus
menggantikan peranan filter Kalman dengan menggunakan Jaringan Saraf Rekuren
(JSR) yang pada penelitian ini adalah jaringan Long-Short Term Memory (LSTM).
Pada bagian pengendali, algoritma Iterasi Nilai digunakan untuk menghasilkan
penguat pengendali. Sehingga, sinyal kendali yang diimplementasikan ke kendalian
dan menghasilkan sinyal keluaran. Pengujian kinerja yang dianalisis pada Metode
Tergerak Data Untuk GKL ini meliputi konvergensi dari penguat pengendali
berbasis PP tergerak data dan metode kendali optimal konvensional.
Pada Metode Tergerak Data Untuk UBK, pengendali UBK berfokus untuk
merancang kendali tanpa melalui skema umpan balik status (full state feedback).
Tujuan pengendalian menggunakan skema UBK adalah (1) memenuhi kondisi
kestabilan sistem lingkar tertutup, (2) sistem kendali mampu melakukan penjejakan
terhadap sinyal referensi yang diinginkan. Penyelesaian persamaan HJB
pada skema UBK membutuhkan model dinamika sistem, yang secara praktik sulit
didapatkan. Selain itu, pada skema UBK diperlukan sebuah observer (estimator)
untuk menghasilkan trayektori status selama proses pembelajaran. Pada Metode
Tergerak Data Untuk UBK diusulkan skema kendali optimal menggunakan Deep
Recurrent Q-Networks (DRQN) untuk menghasilkan trayektori sinyal kendali
optimal berdasarkan kumpulan data sinyal masukan dan keluaran dari sistem itu
sendiri. Pendekatan yang diusulkan dalam penelitian ini berdasarkan metode QLearning
dari skema PP. Jaringan LSTM digunakan untuk memperkirakan fungsi
Q dan menentukan sinyal kendali untuk sistem tanpa model yang diketahui.
Metode Tergerak Data Untuk GKL dan Metode Tergerak Data Untuk UBK pada
penelitian ini mampu menghasilkan pengendali optimal yang membutuhkan waktu
konvergensi lebih cepat jika dibandingkan dengan metode konvensional. Metode
Tergerak Data Untuk GKL dan Metode Tergerak Data Untuk UBK pada penelitian
ini diuji pada tiga buah studi kasus yakni sistem cart-pole, kolom distilasi tipe
batch, dan sebuah sistem yang bersifat tidak stabil (unstable system). Berdasarkan
hasil pengujian, nilai norma dari sinyal kendali dari Metode Tergerak Data Untuk
GKL untuk studi kasus pertama hingga ketiga adalah 49,83%, 75,68%, dan 88,50%
lebih kecil jika dibandingkan dengan metode GKL. Waktu komputasi 98,52%,
98,50%, dan 14,66% lebih cepat dibandingkan metode konvensional. Pengendali
yang diperoleh dari Metode Tergerak Data Untuk GKL mampu mengadopsi peranan
GKL konvensional, terbukti dari nilai galatnya yang cenderung mengecil, yakni
sebesar 5,31E-02 2,68E-02 1,06E-02 untuk studi kasus pertama hingga ketiga.
Sedangkan, nilai norma dari sinyal kendali yang dihasilkan Metode Tergerak Data
Untuk UBK untuk studi kasus pertama hingga ketiga adalah 46,72%, 99,22%,
dan 23,03% lebih kecil dibandingkan metode UBK. Waktu konvergensi yang
dibutuhkan Metode Tergerak Data Untuk UBK pada studi kasus pertama hingga
ketiga, lebih cepat 80%, 76,92%, dan 25% dibandingkan metode UBK konvensional.
Pengendali yang diperoleh dari Metode Tergerak Data Untuk UBK juga
terjamin kestabilannya, jika meninjau norma dari trayektori augmentasi status yang
berhingga, yakni 0,3162, 5,35E-28, dan 1,40E-45 untuk studi kasus pertama hingga
ketiga.