Transfer learning merupakan sebuah konsep pembelajaran yang menggunakan
pengetahuan dari penyelesaian sebuah masalah guna menyelesaikan permasalahan
baru yang berbeda namun saling berkaitan. Saat ini, transfer learning semakin
mendapat perhatian karena mampu menunjukkan kinerja yang baik ketika
diberikan data latih yang sangat sedikit sehingga dapat membantu proses
pembelajaran mesin. Pada bidang pemrosesan teks, transfer learning dapat
digunakan untuk menyelesaikan permasalahan pada bahasa dengan sumber daya
rendah (low-resource language) seperti Bahasa Indonesia yang hanya memiliki
data berlabel dan library pemrosesan teks yang masih sedikit. Meskipun data
tidak berlabel sangat banyak jumlahnya dan dapat diperoleh secara gratis dari
internet, namun proses anotasi sangat mahal dan membutuhkan waktu yang lama.
Melihat adanya ketimpangan sumber daya linguistik antar bahasa, maka
pendekatan cross-lingual transfer learning dapat menjadi solusi, yakni dengan
menggunakan sumber daya dari bahasa lain yang lebih berlimpah untuk
membangun atau memperbaiki model NLP bahasa Indonesia. Proses transfer
pengetahuan lintas bahasa dilakukan dengan cross-lingual word embedding
(CLWE), yang dapat diibaratkan sebagai representasi sebuah kamus. Pendekatan
CLWE statis berbasis mapping sangat sesuai untuk bahasa low-resource karena
tidak memerlukan korpus paralel yang umumnya sulit diperoleh dan tidak
memerlukan sumber daya komputasi yang tinggi. Namun proses inisialisasi secara
unsupervised masih menjadi tantangan pada metode ini karena akan berpengaruh
terhadap hasil pemetaan kedua bahasa. Untuk itu, diusulkan penggunaan ruang
kosakata bersama dalam proses inisialisasi sehingga kata-kata yang sama di kedua
korpus bahasa akan memiliki embedding yang sama. Proses pemetaan bahasa
hanya akan dilakukan pada kata-kata yang tidak memiliki informasi sharing sama
sekali. Selain itu, juga diusulkan pengembangan CLWE kontekstual berdasarkan
model pralatih multilingual BERT. Meskipun model ini telah banyak digunakan
pada kasus lintas bahasa, namun pelatihannya tidak melibatkan proses alignment
antar bahasa.
Kualitas CLWE diuji baik secara intrinsik maupun ekstrinsik, dimana pengujian
secara intrinsik dilakukan dengan Bilingual Lexicon Induction, sedangkan
iv
pengujian secara ekstrinsik dilakukan pada task peringkasan teks berbasis cross-
lingual transfer learning. Teknik transfer model yang digunakan adalah feature
extraction karena mampu mempersingkat waktu komputasi, mengingat
keterbatasan sumber daya komputasi yang dimiliki. Hasil eksperimen
menunjukkan bahwa perbaikan proses inisialisasi mampu memperbaiki kinerja
CLWE hingga setara dengan pendekatan yang menggunakan korpus paralel.
Penggunaan CLWE statis dalam arsitektur peringkasan teks berbasis cross-lingual
juga menghasilkan nilai ROUGE yang lebih baik dari peringkasan teks berbasis
monolingual. Namun penggunaan CLWE kontekstual belum mampu memberikan
peningkatan secara signifikan. CLWE kontekstual justru mampu meningkatkan
kinerja peringkasan multilingual Bert. Penelitian ini diharapkan dapat
berkontribusi dalam mengurangi kesenjangan riset di bidang pemrosesan bahasa
alami antara bahasa yang kaya dengan sumber daya linguistik dan bahasa yang
hanya memiliki sumber daya linguistik terbatas.