Revolusi Industri 4.0 memiliki potensi yang luar biasa dalam mengubah berbagai
aspek kehidupan manusia. Revolusi industri tersebut mengacu pada peningkatan
otomatisasi, komunikasi mesin ke mesin, interaksi manusia-mesin, dan kecerdasan
buatan. Salah satu faktor pendorongnya adalah bentuk baru interaksi manusiamesin yang menggunakan berbagai modalitas, seperti ucapan, gerakan, deteksi
wajah dan pelacakan kerangka atau melalui gawai pintar.
Penelitian sebelumnya tentang sistem interaksi manusia-mesin telah mencapai arah
yang menggembirakan baik dalam hal akurasi atau pun pengembangan sistem.
Namun demikian, masih terdapat beberapa permasalahan yang sering dijumpai
pada sistem interaksi manusia-mesin, terutama bagi sistem interaksi yang
menggunakan beberapa masukan modalitas secara bersamaan. Masalah tersebut
antara lain bagaimana merancang sistem antarmuka sehingga mesin mampu
memahami konteks percakapan yang sedang terjadi. Beberapa masalah lain yang
dihadapi adalah kemampuan mengaktifkan sistem dengan menggunakan berbagai
modalitas, kemampuan mesin untuk memahami maksud manusia melalui
pengenalan ucapan bahasa Indonesia dan gerakan sehingga terjalin dialog yang baik
antara manusia dan mesin, serta bagaimana metode pembelajaran bagi mesin dalam
mengembangkan pengetahuannya.
Penelitian ini mengusulkan solusi untuk masalah kemampuan sistem interaksi
dalam mengintegrasikan beberapa masukan modalitas melalui algoritme fusi
multimodal pada level keputusan dengan menggunakan konsep gerbang logika
sehingga mesin mampu memahami pesan dengan lebih baik bila dibandingkan
dengan modalitas tunggal, selain itu mesin mampu memahami konteks percakapan
manusia yang diberikan sehingga mesin dapat membedakan apakah manusia
tersebut sedang berbicara dengan mesin atau dengan sesama manusia. Masukan
modalitas pada sistem interaksi manusia-mesin yang dikembangkan pada penelitian
ini ada dua jenis, yaitu modalitas yang ada dalam tubuh manusia dan modalitas pada
alat yang biasa digunakan manusia, seperti gawai cerdas. Masukan modalitas yang
ditangkap melalui sensor Kinect, yaitu (1) deteksi wajah dengan membaca tiga
keadaan, seperti posisi wajah, posisi bola mata dan kondisi mulut; (2) pelacakan
skeleton untuk mengetahui jumlah manusia yang tertangkap kamera Kinect; (3)
ii
pengenalan ucapan; dan (4) pengenalan gerakan tangan. Adapun masukan
modalitas yang digunakan melalui aplikasi gawai cerdas berbasis Android, yaitu
sentuhan layar (tap) dan ucapan yang direkam melalui mikrofon gawai cerdas
sehingga manusia tetap dapat berinteraksi dengan mesin di mana pun.
Penelitian ini juga mengusulkan solusi agar mesin memiliki kemampuan untuk
lebih memahami maksud manusia dengan cara yang paling tepat dan mampu
mengembangkan pengetahuannya melalui sistem dialog berbasis reinforcement
learning. Sebelum masuk pada sistem dialog, ucapan dan gerakan manusia akan
diubah menjadi teks menggunakan Google Cloud Speech dan metode support
vector machine (SVM), kemudian metode natural language understanding (NLU)
digunakan untuk memahami teks tersebut melalui tiga tahapan, yaitu (1) proses
mengubah setiap kalimat menjadi kata dasar (stemming), (2) pelabelan kelas kata
dan pengisian slot dialog, dan (3) pemahaman maksud menggunakan algoritme
intent classification dengan teknik rule based. Intent yang didapat akan dilatih
menggunakan metode reinforcement learning dengan algoritme Q-learning,
kemudian akan dikategorikan sebagai keinginan pengguna untuk menyalakan atau
mematikan peralatan elektronik pada sistem rumah pintar. Proses pembelajaran
dapat dilakukan melalui reward dan punishment berdasarkan respon jawaban dari
pengguna.
Algoritme fusi multimodal dan sistem dialog berbasis reinforcement learning
diimplementasikan pada sistem rumah pintar. Tingkat akurasi rata-rata aktivasi
multimodal dan konteks dialog adalah 87,42% dan 88,75%. Tingkat akurasi
pengujian algoritme fusi multimodal adalah 93%. Hasil pengujian menunjukkan
bahwa algoritme fusi multimodal mampu memahami pesan dengan lebih baik bila
dibandingkan dengan modalitas tunggal. Di samping itu juga mesin mampu
memahami konteks percakapan manusia yang diberikan sehingga mesin dapat
membedakan apakah manusia tersebut sedang berbicara dengan mesin atau dengan
sesama manusia. Validasi sistem dialog berbasis reinforcement learning dilakukan
dengan menggunakan confusion matrix. Hasil rata-rata tingkat akurasi, presisi,
sensitivitas (recall), dan f1-score secara berturut-turut adalah 83%, 95%, 78%, dan
84%. Tingkat akurasi pengujian sistem dialog adalah 92,11%. Hasil pengujian
menunjukkan bahwa sistem dialog berbasis reinforcement learning yang
dikembangkan dapat lebih memahami maksud manusia dan membangun basis data
pengetahuan mesin sehingga menghasilkan sistem interaksi manusia-mesin yang
memiliki kemampuan untuk menanggapi keinginan manusia dengan cara yang
paling tepat. Tingkat kepuasan pengguna terhadap sistem interaksi manusia-mesin
berbasis fusi multimodal dan sistem dialog dari 63 orang responden adalah 95%.
Sebanyak 76,2% pengguna menyetujui sistem interaksi ini sudah alami atau natural
dan 79,4% pengguna setuju bahwa mesin sudah mampu merespon dengan baik
keinginan pengguna.