digilib@itb.ac.id +62 812 2508 8800

33218011 Rini Wijayanti.pdf
PUBLIC Dessy Rondang Monaomi

Transfer learning merupakan sebuah konsep pembelajaran yang menggunakan pengetahuan dari penyelesaian sebuah masalah guna menyelesaikan permasalahan baru yang berbeda namun saling berkaitan. Saat ini, transfer learning semakin mendapat perhatian karena mampu menunjukkan kinerja yang baik ketika diberikan data latih yang sangat sedikit sehingga dapat membantu proses pembelajaran mesin. Pada bidang pemrosesan teks, transfer learning dapat digunakan untuk menyelesaikan permasalahan pada bahasa dengan sumber daya rendah (low-resource language) seperti Bahasa Indonesia yang hanya memiliki data berlabel dan library pemrosesan teks yang masih sedikit. Meskipun data tidak berlabel sangat banyak jumlahnya dan dapat diperoleh secara gratis dari internet, namun proses anotasi sangat mahal dan membutuhkan waktu yang lama. Melihat adanya ketimpangan sumber daya linguistik antar bahasa, maka pendekatan cross-lingual transfer learning dapat menjadi solusi, yakni dengan menggunakan sumber daya dari bahasa lain yang lebih berlimpah untuk membangun atau memperbaiki model NLP bahasa Indonesia. Proses transfer pengetahuan lintas bahasa dilakukan dengan cross-lingual word embedding (CLWE), yang dapat diibaratkan sebagai representasi sebuah kamus. Pendekatan CLWE statis berbasis mapping sangat sesuai untuk bahasa low-resource karena tidak memerlukan korpus paralel yang umumnya sulit diperoleh dan tidak memerlukan sumber daya komputasi yang tinggi. Namun proses inisialisasi secara unsupervised masih menjadi tantangan pada metode ini karena akan berpengaruh terhadap hasil pemetaan kedua bahasa. Untuk itu, diusulkan penggunaan ruang kosakata bersama dalam proses inisialisasi sehingga kata-kata yang sama di kedua korpus bahasa akan memiliki embedding yang sama. Proses pemetaan bahasa hanya akan dilakukan pada kata-kata yang tidak memiliki informasi sharing sama sekali. Selain itu, juga diusulkan pengembangan CLWE kontekstual berdasarkan model pralatih multilingual BERT. Meskipun model ini telah banyak digunakan pada kasus lintas bahasa, namun pelatihannya tidak melibatkan proses alignment antar bahasa. Kualitas CLWE diuji baik secara intrinsik maupun ekstrinsik, dimana pengujian secara intrinsik dilakukan dengan Bilingual Lexicon Induction, sedangkan iv pengujian secara ekstrinsik dilakukan pada task peringkasan teks berbasis cross- lingual transfer learning. Teknik transfer model yang digunakan adalah feature extraction karena mampu mempersingkat waktu komputasi, mengingat keterbatasan sumber daya komputasi yang dimiliki. Hasil eksperimen menunjukkan bahwa perbaikan proses inisialisasi mampu memperbaiki kinerja CLWE hingga setara dengan pendekatan yang menggunakan korpus paralel. Penggunaan CLWE statis dalam arsitektur peringkasan teks berbasis cross-lingual juga menghasilkan nilai ROUGE yang lebih baik dari peringkasan teks berbasis monolingual. Namun penggunaan CLWE kontekstual belum mampu memberikan peningkatan secara signifikan. CLWE kontekstual justru mampu meningkatkan kinerja peringkasan multilingual Bert. Penelitian ini diharapkan dapat berkontribusi dalam mengurangi kesenjangan riset di bidang pemrosesan bahasa alami antara bahasa yang kaya dengan sumber daya linguistik dan bahasa yang hanya memiliki sumber daya linguistik terbatas.