Pengujian konsolidasi Constant Rate of Deformation (CRD) mampu memperpendek durasi pengujian dari sekitar 20 hari menjadi 48 jam dibandingkan metode pembebanan inkremental konvensional, namun validitas hasilnya sangat bergantung pada kemampuan menjaga rasio tekanan pori berlebih (excess pore pressure ratio, Ru) dalam rentang 3 ? 15% sebagaimana ditetapkan dalam ASTM D4186. Pendekatan laju regangan statis menghadapi trilema fundamental: tidak terdapat satu laju tunggal yang secara simultan mampu meminimalkan durasi pengujian, memenuhi batasan Ru, dan menghasilkan estimasi indeks kompresi (Cc) yang akurat, karena laju optimal bergantung pada sifat tanah yang tidak diketahui sebelumnya dan berevolusi selama proses konsolidasi. Penelitian ini memformulasikan pengujian CRD sebagai Constrained Markov Decision Process dan mengembangkan strategi kendali adaptif berbasis deep reinforcement learning dengan ruang aksi kontinu. Tiga algoritma actor–critic, yaitu Soft Actor-Critic (SAC), Twin Delayed Deep Deterministic Policy Gradient (TD3), dan Proximal Policy Optimization (PPO), dilatih untuk menyesuaikan laju regangan secara dinamis berdasarkan observasi sensor waktu nyata tanpa memerlukan pengetahuan eksplisit mengenai parameter tanah. Proses pelatihan dilakukan menggunakan digital twin berketelitian tinggi yang didasarkan pada teori konsolidasi regangan hingga, dengan domain randomization yang mencakup variasi sifat tanah, derau sensor, dan keterlambatan aktuator guna menjamin kekokohan kebijakan. Fungsi reward dirancang menggunakan single-sided logarithmic barrier dengan pusat pada target #! yang dipilih berdasarkan analisis pengujian laju statis, sehingga durasi pengujian diminimalkan secara implisit sekaligus penegakan batasan dilakukan secara eksplisit. Hasil evaluasi pada kondisi nominal (tanah lempung Bandung) menunjukkan bahwa PPO memberikan kinerja terbaik dengan durasi pengujian 31,1 jam (reduksi 29.3% dibandingkan laju statis 44,4 jam), Ru maksimal = 0,353 yang berada di bawah ambang 0,50, serta galat estimasi CC sebesar 0,1%. Evaluasi kekokohan menunjukkan bahwa SAC mempertahankan tingkat keberhasilan 73,3% di bawah ketidakpastian parameter, sementara PPO mencapai 85% dengan stabilitas tertinggi. Formulasi aksi kontinu berhasil mengeliminasi discretization loss dan menghasilkan perilaku adaptif yang cerdas.
Perpustakaan Digital ITB