digilib@itb.ac.id +62 812 2508 8800

Revolusi Industri 4.0 memiliki potensi yang luar biasa dalam mengubah berbagai aspek kehidupan manusia. Revolusi industri tersebut mengacu pada peningkatan otomatisasi, komunikasi mesin ke mesin, interaksi manusia-mesin, dan kecerdasan buatan. Salah satu faktor pendorongnya adalah bentuk baru interaksi manusiamesin yang menggunakan berbagai modalitas, seperti ucapan, gerakan, deteksi wajah dan pelacakan kerangka atau melalui gawai pintar. Penelitian sebelumnya tentang sistem interaksi manusia-mesin telah mencapai arah yang menggembirakan baik dalam hal akurasi atau pun pengembangan sistem. Namun demikian, masih terdapat beberapa permasalahan yang sering dijumpai pada sistem interaksi manusia-mesin, terutama bagi sistem interaksi yang menggunakan beberapa masukan modalitas secara bersamaan. Masalah tersebut antara lain bagaimana merancang sistem antarmuka sehingga mesin mampu memahami konteks percakapan yang sedang terjadi. Beberapa masalah lain yang dihadapi adalah kemampuan mengaktifkan sistem dengan menggunakan berbagai modalitas, kemampuan mesin untuk memahami maksud manusia melalui pengenalan ucapan bahasa Indonesia dan gerakan sehingga terjalin dialog yang baik antara manusia dan mesin, serta bagaimana metode pembelajaran bagi mesin dalam mengembangkan pengetahuannya. Penelitian ini mengusulkan solusi untuk masalah kemampuan sistem interaksi dalam mengintegrasikan beberapa masukan modalitas melalui algoritme fusi multimodal pada level keputusan dengan menggunakan konsep gerbang logika sehingga mesin mampu memahami pesan dengan lebih baik bila dibandingkan dengan modalitas tunggal, selain itu mesin mampu memahami konteks percakapan manusia yang diberikan sehingga mesin dapat membedakan apakah manusia tersebut sedang berbicara dengan mesin atau dengan sesama manusia. Masukan modalitas pada sistem interaksi manusia-mesin yang dikembangkan pada penelitian ini ada dua jenis, yaitu modalitas yang ada dalam tubuh manusia dan modalitas pada alat yang biasa digunakan manusia, seperti gawai cerdas. Masukan modalitas yang ditangkap melalui sensor Kinect, yaitu (1) deteksi wajah dengan membaca tiga keadaan, seperti posisi wajah, posisi bola mata dan kondisi mulut; (2) pelacakan skeleton untuk mengetahui jumlah manusia yang tertangkap kamera Kinect; (3) ii pengenalan ucapan; dan (4) pengenalan gerakan tangan. Adapun masukan modalitas yang digunakan melalui aplikasi gawai cerdas berbasis Android, yaitu sentuhan layar (tap) dan ucapan yang direkam melalui mikrofon gawai cerdas sehingga manusia tetap dapat berinteraksi dengan mesin di mana pun. Penelitian ini juga mengusulkan solusi agar mesin memiliki kemampuan untuk lebih memahami maksud manusia dengan cara yang paling tepat dan mampu mengembangkan pengetahuannya melalui sistem dialog berbasis reinforcement learning. Sebelum masuk pada sistem dialog, ucapan dan gerakan manusia akan diubah menjadi teks menggunakan Google Cloud Speech dan metode support vector machine (SVM), kemudian metode natural language understanding (NLU) digunakan untuk memahami teks tersebut melalui tiga tahapan, yaitu (1) proses mengubah setiap kalimat menjadi kata dasar (stemming), (2) pelabelan kelas kata dan pengisian slot dialog, dan (3) pemahaman maksud menggunakan algoritme intent classification dengan teknik rule based. Intent yang didapat akan dilatih menggunakan metode reinforcement learning dengan algoritme Q-learning, kemudian akan dikategorikan sebagai keinginan pengguna untuk menyalakan atau mematikan peralatan elektronik pada sistem rumah pintar. Proses pembelajaran dapat dilakukan melalui reward dan punishment berdasarkan respon jawaban dari pengguna. Algoritme fusi multimodal dan sistem dialog berbasis reinforcement learning diimplementasikan pada sistem rumah pintar. Tingkat akurasi rata-rata aktivasi multimodal dan konteks dialog adalah 87,42% dan 88,75%. Tingkat akurasi pengujian algoritme fusi multimodal adalah 93%. Hasil pengujian menunjukkan bahwa algoritme fusi multimodal mampu memahami pesan dengan lebih baik bila dibandingkan dengan modalitas tunggal. Di samping itu juga mesin mampu memahami konteks percakapan manusia yang diberikan sehingga mesin dapat membedakan apakah manusia tersebut sedang berbicara dengan mesin atau dengan sesama manusia. Validasi sistem dialog berbasis reinforcement learning dilakukan dengan menggunakan confusion matrix. Hasil rata-rata tingkat akurasi, presisi, sensitivitas (recall), dan f1-score secara berturut-turut adalah 83%, 95%, 78%, dan 84%. Tingkat akurasi pengujian sistem dialog adalah 92,11%. Hasil pengujian menunjukkan bahwa sistem dialog berbasis reinforcement learning yang dikembangkan dapat lebih memahami maksud manusia dan membangun basis data pengetahuan mesin sehingga menghasilkan sistem interaksi manusia-mesin yang memiliki kemampuan untuk menanggapi keinginan manusia dengan cara yang paling tepat. Tingkat kepuasan pengguna terhadap sistem interaksi manusia-mesin berbasis fusi multimodal dan sistem dialog dari 63 orang responden adalah 95%. Sebanyak 76,2% pengguna menyetujui sistem interaksi ini sudah alami atau natural dan 79,4% pengguna setuju bahwa mesin sudah mampu merespon dengan baik keinginan pengguna.