Pembangunan bilingual dictionary merupakan salah satu riset bidang pemrosesan bahasa alami
yang bertujuan untuk menghasilkan pasangan translasi kata dari dua bahasa yang berbeda.
Pembangunan bilingual dictionary sangat bergantung pada ketersediaan data berupa parallel
corpora atau comparable corpora. Pembangunan bilingual dictionary yang dibahas selanjutnya
adalah pembangunan bilingual dictionary untuk bahasa Jawa dan Sunda. Bahasa Jawa dan Sunda
termasuk dalam bahasa low-resource languages. Sulit ditemukan data berupa korpus parallel dan
comparable untuk bahasa tersebut. Data yang tersedia berupa korpus monolingual. Karena
keterbatasan data korpus paralel dan comparable untuk bahasa Jawa dan Sunda, pembangunan
bilingual dictionary dilakukan dengan memanfaatkan representasi cross-lingual kata. Representasi
cross-lingual kata memungkinkan penalaran arti kata pada konteks multilingual.
Solusi pembangunan bilingual dictionary untuk bahasa Jawa dan Sunda ini dilakukan melalui dua
pendekatan pembentukan representasi cross-lingual kata, yaitu pendekatan pseudo-bilingual
corpora dan monolingual mapping. Pembentukan representasi kata dengan pendekatan pseudobilingual
corpora dilakukan dengan menggabungkan korpus bahasa Jawa dan Sunda
menggunakan metode length-ratio shuffle. Pembentukan representasi cross-lingual kata dengan
pendekatan monolingual mapping dilakukan dengan memetakan ruang vektor kata bahasa Jawa
ke bahasa Sunda. Monolingual mapping dapat dilakukan secara supervised dan unsupervised.
Untuk setiap pendekatan pembentukan representasi cross-lingual kata, dilakukan eksperimen
konfigurasi pembentukan representasi vektor kata dengan menggunakan model Word2Vec, pretrained
FastText, dan feature extraction model pre-trained multilingual BERT. Untuk pendekatan
monolingual mapping juga dilakukan eksperimen dengan model supervised dan unsupervised
MUSE. Pengambilan pasangan translasi dilakukan menggunakan metode nearest-neighbors (NN)
dan cross-domain similarity local scaling (CSLS). Konfigurasi model terbaik akan digunakan
untuk pembangunan bilingual dictionary bahasa Jawa dan Sunda. Berdasarkan hasil eksperimen
yang dilakukan, model supervised MUSE dengan pembentukan representasi kata menggunakan
pre-trained model FastText menghasilkan kinerja terbaik. Model ini mampu mencapai nilai
akurasi f1-score NN sebesar 0,423006 dan f1-score CSLS sebesar 0,446847 untuk k = 1