ABSTRAK
MEMBANGKITKAN GAMBAR DARI TEKS DESKRIPSI BAHASA
INDONESIA MENGGUNAKAN GENERATIVE ADVERSARIAL
NETWORKS
Oleh
Made Raharja Surya Mahadi
NIM 23520022
(Program Studi Magister Informatika)
Text-to-image merupakan sebuah task dimana model menerima inputan kalimat
teks, lalu memvisualisasikanya menjadi gambar yang realistis. Kebanyakan model
deep learning yang digunakan saat ini menggunakan dua buah arsitektur yang digabung
secara berurutan, yaitu text encoder dan image generator. Text encoder
bertugas untuk mengekstraksi fitur pada kalimat sedangkan image generator bertugas
untuk membangkitkan gambar dari fitur kalimat yang diberikan.
Penelitian mengenai text-to-image generation masih sedikit dilakukan, hal ini
disebabkan oleh perbedaan domain antara gambar dan teks sehingga tingkat kesulitanya
cukup tinggi. Kebanyakan riset mengenai topik ini masih membahas
bagaimana menghasilkan gambar dengan resolusi yang tinggi, sedangkan salah satu
bagian penting lainya yaitu bahasa masih sangat sedikit dilakukan penelitian. Kebanyakan
penelitian yang dilakukan hanya menggunakan bahasa Inggris sebagai
sumber informasi untuk menghasilkan gambar, padahal ada banyak bahasa di dunia
ini. Hal ini disebabkan karena sulitnya melakukan alih bahasa yang baik agar menghasilkan
model bahasa yang baik pula. Oleh sebab itu diperlukan penelitian mengenai
text-to-image generation dengan memfokuskan bahasa yang digunakan, akan
tetapi tidak mengurangi resolusi gambar yang dihasilkan. Bahasa Indonesia sebagai
bahasa resmi di Indonesia merupakan bahasa yang cukup populer, bahasa ini
diajarkan di berbagai negara seperti Filipina, Australia, dan Jepang.
Pada penelitian ini menggunakan bahasa Indonesia sebagai input untuk menghasilkan
gambar dengan resolusi yang tinggi dan akurat. Untuk mencapai hal ini,
Sentence BERT digunakan sebagai text encoder, sedangkan FastGAN sebagai image
generator. Dengan memanfaatkan skip-connection dan auto-encoder, FastGAN
dapat dilatih dengan cepat dan menghasilkan gambar dengan resolusi 512×512×3,
2 kali lipat daripada resolusi arsitektur state-of-the-art untuk text-generation saat
ini, yaitu StackGAN (Zhang dkk., 2019). Selain itu Arsitektur ini juga mendapi
atkan 4.76±0.43 dan 46.401 pada Inception Score dan Fr´echet inception distance.
Hasil ini menunjukkan bahwa gambar yang dihasilkan memiliki kualitas objek yang
tinggi, dan memiliki skor yang tidak terpaut jauh dari arsitektur text-to-image generation
yang menggunakan bahasa Inggris. Selain itu hasil survei yang dilakukan
menunjukan bahwa secara kasar gambar yang dihasilkan oleh mode conditional
lebih baik daripada mode unconditional.
Kata kunci: Generative Adversarial Networks, Text-to-Image Synthesis, Bahasa Indonesia
ii
Perpustakaan Digital ITB