digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
PUBLIC Dessy Rondang Monaomi

Objektif teori kendali optimal adalah untuk merancang sinyal kendali agar keluaran sistem yang dikendalikan mampu mencapai referensi yang diinginkan dan pada saat bersamaan mampu mengoptimisasi indeks kinerja. Sistem kendali optimal konvensional memerlukan penyelesaian Persamaan Hamilton-Jacobi-Bellman (HJB) untuk menghasilkan hukum kendali optimal. Penyelesaian Persamaan HJB memerlukan model kendalian. Pada praktiknya, model dinamika sistem sulit untuk didapatkan secara akurat karena adanya faktor-faktor ketidakpastian dan berubahnya dinamika sistem setiap waktu. Di sisi lain, metode Pembelajaran Penguatan (PP) merupakan salah satu metode kecerdasan buatan untuk menentukan solusi optimal, sehingga dapat dipergunakan sebagai alternatif untuk menyelesaikan persoalan kendali optimal. Oleh sebab itu, PP merupakan metode yang beririsan antara teori sistem kendali dan kecerdasan buatan. PP juga merupakan metode yang bertujuan untuk mengoptimisasi suatu indeks kinerja. Indeks kinerja tersebut merupakan nilai yang digunakan untuk mendefinisikan seberapa baik peran agen PP dalam memberikan sinyal kendali pada lingkungannya. Sebuah paradigma tergerak data (data-driven) untuk PP akan memungkinkan agen mampu belajar secara efisien. Pendekatan inilah yang memiliki kemungkinan untuk menyelesaikan permasalahan sistem kendali optimal konvensional. Metode PP diklasifikasikan berbasis model dan tanpa model. Pada penelitian disertasi ini ditelaah pendekatan PP berbasis model untuk kasus Gaussian Kuadratik Linier (GKL), selanjutnya disebut sebagai Metode Tergerak Data Untuk GKL. Selanjutnya pendekatan PP tanpa model ditelaah untuk kasus Umpan Balik Keluaran (UBK), selanjutnya disebut sebagai Metode Tergerak Data Untuk UBK. Pada Metode Tergerak Data Untuk GKL, pengendali GKL yang mengkombinasikan peranan filter Kalman serta Regulator Kuadratik Linier (RKL) sebagai estimator dan pengendali. Kombinasi metode ini mampu menangani persoalan regulasi sistem linier dengan faktor gangguan dengan karakteristik statistik Gaussian. Kelemahan dari metode ini adalah dinamika kendalian bersifat linier dan harus diketahui, selain itu faktor gangguan sistem dan pengukuran bersifat stokastik yang karakteristik statistiknya juga diketahui. Metode yang diusulkan pada penelitian ini adalah kombinasi KalmanNet dan algoritma Iterasi Nilai untuk merancang pengendali pada sistem stokastik waktu diskrit. Prinsip kerja Metode Tergerak Data Untuk GKL ini diawali dengan mempersiapkan kumpulan data sinyal masukan dan keluaran dari sebuah kendalian. Kemudian, secara eksplisit dilakukan identifikasi sistem hingga diperoleh pendekatan model. Selanjutnya, algoritma KalmanNet digunakan untuk membangun estimasi status. KalmanNet merupakan algoritma yang berfokus menggantikan peranan filter Kalman dengan menggunakan Jaringan Saraf Rekuren (JSR) yang pada penelitian ini adalah jaringan Long-Short Term Memory (LSTM). Pada bagian pengendali, algoritma Iterasi Nilai digunakan untuk menghasilkan penguat pengendali. Sehingga, sinyal kendali yang diimplementasikan ke kendalian dan menghasilkan sinyal keluaran. Pengujian kinerja yang dianalisis pada Metode Tergerak Data Untuk GKL ini meliputi konvergensi dari penguat pengendali berbasis PP tergerak data dan metode kendali optimal konvensional. Pada Metode Tergerak Data Untuk UBK, pengendali UBK berfokus untuk merancang kendali tanpa melalui skema umpan balik status (full state feedback). Tujuan pengendalian menggunakan skema UBK adalah (1) memenuhi kondisi kestabilan sistem lingkar tertutup, (2) sistem kendali mampu melakukan penjejakan terhadap sinyal referensi yang diinginkan. Penyelesaian persamaan HJB pada skema UBK membutuhkan model dinamika sistem, yang secara praktik sulit didapatkan. Selain itu, pada skema UBK diperlukan sebuah observer (estimator) untuk menghasilkan trayektori status selama proses pembelajaran. Pada Metode Tergerak Data Untuk UBK diusulkan skema kendali optimal menggunakan Deep Recurrent Q-Networks (DRQN) untuk menghasilkan trayektori sinyal kendali optimal berdasarkan kumpulan data sinyal masukan dan keluaran dari sistem itu sendiri. Pendekatan yang diusulkan dalam penelitian ini berdasarkan metode QLearning dari skema PP. Jaringan LSTM digunakan untuk memperkirakan fungsi Q dan menentukan sinyal kendali untuk sistem tanpa model yang diketahui. Metode Tergerak Data Untuk GKL dan Metode Tergerak Data Untuk UBK pada penelitian ini mampu menghasilkan pengendali optimal yang membutuhkan waktu konvergensi lebih cepat jika dibandingkan dengan metode konvensional. Metode Tergerak Data Untuk GKL dan Metode Tergerak Data Untuk UBK pada penelitian ini diuji pada tiga buah studi kasus yakni sistem cart-pole, kolom distilasi tipe batch, dan sebuah sistem yang bersifat tidak stabil (unstable system). Berdasarkan hasil pengujian, nilai norma dari sinyal kendali dari Metode Tergerak Data Untuk GKL untuk studi kasus pertama hingga ketiga adalah 49,83%, 75,68%, dan 88,50% lebih kecil jika dibandingkan dengan metode GKL. Waktu komputasi 98,52%, 98,50%, dan 14,66% lebih cepat dibandingkan metode konvensional. Pengendali yang diperoleh dari Metode Tergerak Data Untuk GKL mampu mengadopsi peranan GKL konvensional, terbukti dari nilai galatnya yang cenderung mengecil, yakni sebesar 5,31E-02 2,68E-02 1,06E-02 untuk studi kasus pertama hingga ketiga. Sedangkan, nilai norma dari sinyal kendali yang dihasilkan Metode Tergerak Data Untuk UBK untuk studi kasus pertama hingga ketiga adalah 46,72%, 99,22%, dan 23,03% lebih kecil dibandingkan metode UBK. Waktu konvergensi yang dibutuhkan Metode Tergerak Data Untuk UBK pada studi kasus pertama hingga ketiga, lebih cepat 80%, 76,92%, dan 25% dibandingkan metode UBK konvensional. Pengendali yang diperoleh dari Metode Tergerak Data Untuk UBK juga terjamin kestabilannya, jika meninjau norma dari trayektori augmentasi status yang berhingga, yakni 0,3162, 5,35E-28, dan 1,40E-45 untuk studi kasus pertama hingga ketiga.