digilib@itb.ac.id +62 812 2508 8800

ABSTRAK - MADE RAHARJA SURYA MAHADI
PUBLIC Open In Flipbook Didin Syafruddin Asa, S.Sos

ABSTRAK MEMBANGKITKAN GAMBAR DARI TEKS DESKRIPSI BAHASA INDONESIA MENGGUNAKAN GENERATIVE ADVERSARIAL NETWORKS Oleh Made Raharja Surya Mahadi NIM 23520022 (Program Studi Magister Informatika) Text-to-image merupakan sebuah task dimana model menerima inputan kalimat teks, lalu memvisualisasikanya menjadi gambar yang realistis. Kebanyakan model deep learning yang digunakan saat ini menggunakan dua buah arsitektur yang digabung secara berurutan, yaitu text encoder dan image generator. Text encoder bertugas untuk mengekstraksi fitur pada kalimat sedangkan image generator bertugas untuk membangkitkan gambar dari fitur kalimat yang diberikan. Penelitian mengenai text-to-image generation masih sedikit dilakukan, hal ini disebabkan oleh perbedaan domain antara gambar dan teks sehingga tingkat kesulitanya cukup tinggi. Kebanyakan riset mengenai topik ini masih membahas bagaimana menghasilkan gambar dengan resolusi yang tinggi, sedangkan salah satu bagian penting lainya yaitu bahasa masih sangat sedikit dilakukan penelitian. Kebanyakan penelitian yang dilakukan hanya menggunakan bahasa Inggris sebagai sumber informasi untuk menghasilkan gambar, padahal ada banyak bahasa di dunia ini. Hal ini disebabkan karena sulitnya melakukan alih bahasa yang baik agar menghasilkan model bahasa yang baik pula. Oleh sebab itu diperlukan penelitian mengenai text-to-image generation dengan memfokuskan bahasa yang digunakan, akan tetapi tidak mengurangi resolusi gambar yang dihasilkan. Bahasa Indonesia sebagai bahasa resmi di Indonesia merupakan bahasa yang cukup populer, bahasa ini diajarkan di berbagai negara seperti Filipina, Australia, dan Jepang. Pada penelitian ini menggunakan bahasa Indonesia sebagai input untuk menghasilkan gambar dengan resolusi yang tinggi dan akurat. Untuk mencapai hal ini, Sentence BERT digunakan sebagai text encoder, sedangkan FastGAN sebagai image generator. Dengan memanfaatkan skip-connection dan auto-encoder, FastGAN dapat dilatih dengan cepat dan menghasilkan gambar dengan resolusi 512×512×3, 2 kali lipat daripada resolusi arsitektur state-of-the-art untuk text-generation saat ini, yaitu StackGAN (Zhang dkk., 2019). Selain itu Arsitektur ini juga mendapi atkan 4.76±0.43 dan 46.401 pada Inception Score dan Fr´echet inception distance. Hasil ini menunjukkan bahwa gambar yang dihasilkan memiliki kualitas objek yang tinggi, dan memiliki skor yang tidak terpaut jauh dari arsitektur text-to-image generation yang menggunakan bahasa Inggris. Selain itu hasil survei yang dilakukan menunjukan bahwa secara kasar gambar yang dihasilkan oleh mode conditional lebih baik daripada mode unconditional. Kata kunci: Generative Adversarial Networks, Text-to-Image Synthesis, Bahasa Indonesia ii