Dalam beberapa tahun terakhir, para peneliti telah mulai berfokus pada peningkatan
sistem dialog baik dalam task-oriented dialogue (ToD) maupun chitchat. Namun,
untuk menciptakan sistem dialog yang benar-benar meniru percakapan manusia,
kita perlu menggabungkan kedua task ini, karena interaksi manusia alami biasanya
melibatkan elemen yang menarik serta informatif. Sejauh ini, belum ada penelitian
yang menangani task ini dengan menggunakan kemampuan dari large language
model (LLM) yang bersifat open-source.
Tesis ini berisi eksplorasi komprehensif mengenai task fused dialogue system
menggunakan open-source LLM, beserta analisis kinerja dan pola kesalahan model
bahasa tersebut. Selain itu, tesis ini mengusulkan framework yang berguna untuk
mengatasi tugas ini dengan hanya memanfaatkan 'bpsn' (belief span). Pendekatan
yang diajukan pada tesis ini membuka penelitian baru pada eksperimen di task ini,
dengan cara memanfaatkan LLM pada task gabungan tersebut. Eksperimen yang
ada di dalam tesis ini meliputi eksperimen arsitektur usulan mdc-fuse menggunakan
Mistral-7B instruct dan GODEL-base, penggunaan pendekatan secara dasar (naive)
dalam beberapa subtask seperti dialogue state tracking, response generation, dan
end-to-end dialog pada dua jenis open-source LLM yakni Mistral-7B instruct dan
Llama-3 untuk melihat perbandingan kinerjanya, serta analisis kompatibilitas
antara InstructTODS sebagai baseline dan open-source LLM seperti Mistral-7B
instruct dan beberapa analisis pendukung terkait fused dialogue system.
Hasil eksperimen menunjukkan bahwa perbedaan model bahasa dan metode
pelatihan yang digunakan dalam memanfaatkan arsitektur mdc-fuse memberikan
dampak besar pada kinerja arsitektur tersebut. Selain itu, perbedaan jenis open-
source LLM juga berdampak signifikan pada task tersebut, yakni berdasarkan hasil
eksperimen, arsitektur yang menggunakan LLM seperti Llama-3 memiliki nilai
metrik yang jauh lebih baik dibandingkan Mistral-7B instruct. mdc-fuse yang
diperkuat oleh GODEL-base memiliki skor yang baik pada beberapa kasus
dibandingkan Mistral-7B instruct, dan hasil penelitian menunjukkan bahwa
penggunaan jumlah shot yang lebih banyak serta limitasi konteks dialog dapat
meningkatkan kinerja arsitektur.