digilib@itb.ac.id +62 812 2508 8800

Natural Language Inference (NLI) merupakan task yang berfokus dalam menentukan hubungan logis antara kalimat premis dan kalimat hipotesis dengan mengklasifikasikan pasangan kalimat tersebut menjadi “entailment”, “neutral”, dan “contradiction”. NLI telah berkembang pesat dalam bahasa Inggris. Namun, belum diketahui apakah model NLP mampu melakukan inferensi dalam bahasa lowresource, termasuk bahasa Jawa. Penelitian ini dimaksudkan untuk membangun model NLI yang dapat melakukan penalaran dalam bahasa Jawa Timuran dengan tingkat tutur “Ngoko”, serta mengamati kemampuan model untuk melakukan transfer knowledge dari bahasa Indonesia ke bahasa Jawa. Sebuah dataset lintas bahasa antara bahasa Indonesia-bahasa Jawa dibuat untuk mengatasi masalah tidak adanya korpus NLI untuk bahasa Jawa. Proses pembangunan dataset dilakukan dengan menerjemahkan hipotesis pada dataset IndoNLI ke bahasa Jawa dengan bantuan machine translation (MT), yaitu Google Translate, ChatGPT 3.5 OpenAI, dan Mongosilakan. Selanjutnya, proses anotasi dilakukan untuk memverifikasi data hasil terjemahan dengan cara memberikan penilaian antara 1-5 terhadap data hasil terjemahan dan melakukan rata-rata dari nilai anotasi. Gold label ditentukan dari voting terhadap mayoritas label pada suatu data. Penelitian dilanjutkan dengan mengujikan dataset yang telah dibangun dengan model-model bahasa pre-trained berbasis transformer yang merupakan model baseline dari penelitian ini. Kemudian, penelitian dilanjutkan dengan eksperimen pada metode transfer learning, diantaranya adalah metode knowledge distillation. Knowledge distillation dipilih untuk mengukur kemampuan transfer pengetahuan dari model guru yang dilatih dalam bahasa Indonesia ke model murid dalam bahasa Jawa. Analisis terhadap percobaan knowledge distillation menghasilkan keperluan untuk melakukan modifikasi pada arsitektur knowledge distillation. Modifikasi dilakukan dengan menghilangkan fungsi aktivasi Softmax pada token CLS dan menggantinya dengan feed-forward layer. Dari hasil pembangunan dataset didapatkan bahwa sistem MT masih mencampur kosakata dari berbagai varian bahasa Jawa. Bahkan dalam beberapa kasus, sistem MT mencoba untuk menggunakan kosakata bahasa Inggris. Oleh karena itu, proses pengecekan manual dilakukan terhadap dataset yang dihasilkan. Proses pengecekan manual kemudian menghasilkan Google Translate sebagai sistem MT ii terbaik dan beberapa data yang memiliki nilai anotasi kurang dari threshold dilakukan perbaikan. Hasil pengujian dengan menggunakan model knowledge distillation yang dimodifikasi menunjukkan peningkatan akurasi sebesar ±3% dari model baseline yang menggunakan metode fine-tuning dan ±11% dari model knowledge distillation yang tidak dimodifikasi.