Dalam lingkungan komunikasi nirkabel millimeter-wave (mmWave) yang sangat dinamis, menjaga keselarasan sinyal (beam alignment) secara konsisten antara access point (AP) dan user equipment (UE) merupakan hal yang krusial untuk mempertahankan spectral efficiency (SE) yang tinggi. Namun, adanya hambatan sementara serta perubahan lingkungan yang cepat sering kali mengharuskan proses pelatihan ulang sinyal yang berulang. Proses ini tidak hanya meningkatkan beban sistem secara signifikan, tetapi juga dapat menyebabkan ketergantungan pada informasi kanal (CSI) yang telah usang, sehingga mengganggu kinerja sistem secara keseluruhan. Penelitian ini bertujuan untuk mengatasi tantangan tersebut dengan mengoptimalkan total SE jaringan sambil meminimalkan beban komputasi dan sinyal yang disebabkan oleh estimasi ulang kanal yang tidak diperlukan. Selain itu, fokus utama lainnya adalah memastikan pemulihan kualitas komunikasi yang cepat setelah terjadi gangguan mendadak. Untuk mencapai tujuan tersebut, penelitian ini mengusulkan pendekatan yang mengombinasikan pembelajaran penguatan dalam (deep reinforcement learning/DRL) berbasis curriculum learning (CL) dengan mekanisme estimasi ulang kanal berbasis peristiwa (event-triggered) untuk merancang strategi hybrid beamforming baik di sisi AP maupun UE.
Inti dari pendekatan ini terletak pada pelatihan agen DRL untuk mempelajari kebijakan beamforming analog pada bagian frekuensi radio (RF). Proses pembelajaran ini dipandu oleh kurikulum yang disusun secara bertahap, di mana agen diperkenalkan secara progresif pada kondisi kanal yang semakin kompleks. Pendekatan bertahap ini meningkatkan kemampuan adaptasi agen dalam menghadapi kondisi lingkungan nyata. Sementara itu, komponen beamforming digital pada pita dasar (baseband/BB) dihitung secara analitik menggunakan metode pemrosesan sinyal yang sudah teruji. Untuk meningkatkan efisiensi pelatihan, penelitian ini menerapkan teknik prioritized experience replay (PER), yang memungkinkan agen untuk lebih fokus pada transisi dengan kesalahan temporal-difference (TD) tinggi. Transisi semacam ini biasanya muncul akibat perubahan lingkungan yang diperkenalkan oleh kurikulum, dan memberikan informasi penting dalam proses pembelajaran kebijakan yang tangguh. Dengan berfokus pada pengalaman-pengalaman berdampak tinggi, proses pelatihan menjadi lebih efisien dan adaptif.
Salah satu inovasi utama dalam metode ini adalah penerapan strategi estimasi ulang kanal yang dipicu oleh kejadian tertentu. Alih-alih melakukan estimasi ulang secara terus-menerus—yang menambah beban sistem secara signifikan—proses ini hanya dijalankan ketika terdeteksi adanya pemulihan pada kualitas koneksi, yang menunjukkan bahwa kondisi kanal telah cukup membaik untuk memperoleh CSI yang relevan. Strategi ini memaksa agen untuk mengembangkan kebijakan beamforming yang tetap efektif meskipun menggunakan CSI yang terbatas atau sudah kadaluarsa, sehingga memperkuat daya tahan sistem dalam kondisi yang sangat dinamis.
Hasil simulasi secara menyeluruh menunjukkan bahwa kerangka kerja yang diusulkan mampu memulihkan kembali total SE jaringan ke rata-rata sebelum gangguan dalam waktu singkat setelah terjadi hambatan besar. Sebaliknya, metode baseline terkemuka menunjukkan penurunan kinerja yang signifikan, dengan kehilangan efisiensi hingga 29% pada kondisi yang sama. Temuan ini mengonfirmasi bahwa integrasi DRL, curriculum learning, dan mekanisme estimasi ulang berbasis peristiwa merupakan solusi yang kuat dan efisien untuk menjaga kualitas komunikasi mmWave yang andal dalam berbagai kondisi dunia nyata.
Perpustakaan Digital ITB