Salah satu langkah meningkatkan kemampuan perseptif dan penalaran robot adalah memberi robot kemampuan untuk membedakan orang yang berbicara dengan robot tersebut. Dalam konteks ini, penelitian yang dilakukan diimplementasi pada robot pengantar yang memerlukan batasan pada kontrol dan interaksi, sehinga memastikan bahwa tindakan yang diambil oleh robot sesuai dengan prosedur yang ditetapkan. Pengunaan sistem speaker recognition untuk robot pengiriman dirancang agar robot hanya menjalankan perintah dari pembicara yang terotorisasi, sebaliknya menolak perintah tersebut jika pembicara tidak diotorisasi. Hal ini memotivasi untuk melakukan pengenalan pembicara tidak bergantung pada teks dalam konteks interaksi manusia-robot. Dalam membangun sistem pengenalan
pembicara, menggunakan representasi speaker embedding d-vector dengan arsitektur MobileNet V3 dan membandingkan kinerja metode yang diusulkan dengan arsitektur Fast ResNet-34. Pengujian juga dilakukan terhadap representasi ektraksi fitur MFCC dan Mel-scaled spectogram untuk mengetahui representasi fitur yang sesuai dengan arsitektur yang digunakan. Sistem yang diusulkan telah dievaluasi pada dataset dalam Bahasa Indonesia dengan berbagai lingkungan akustik. Fast ResNet-34 memiliki AER 5,756% dan akurasi 94,78%, sementara MobileNet V3 memiliki AER 7,014% dan akurasi 93,88%. Walaupun Fast ResNet-34 memiliki performa lebih baik, pendekatan MobileNet V3 meningkatkan efisiensi komputasi sebesar 98,27%, mengurangi ukuran model sebesar 87,47%, dan mempercepat waktu inferensi sekitar 7 ms dibandingkan dengan Fast ResNet-34.