digilib@itb.ac.id +62 812 2508 8800

33218302 Agus Nursikuwagus.pdf
PUBLIC Open In Flip Book Dessy Rondang Monaomi

Captioning citra merupakan gabungan task computer vision dan natural language processing (NLP). Proses yang dilakukan adalah mentranslasikan suatu gambar menjadi teks atau caption. Task computer vision adalah melakukan proses rekognisi citra untuk ekstraksi citra, sedangkan pada NLP yang digunakan adalah pembangkitan teks menggunakan metode recurrent neural network (RNN) yang merupakan prediksi kata dari fitur citra. Pemanfaatan captioning citra untuk memberikan caption pada citra telah dilakukan oleh berbagai peneliti dengan menggunakan citra MSCOCO dan FLICKr. Penelitian ini memiliki perbedaan objek yaitu objek geologi bebatuan yang belum direpresentasikan pada dataset MSCOCO dan FLICKr. Domain objek ini merupakan objek terbatas pada geologi bebatuan dan deskripsi dari citra tersebut yang divalidasi langusng oleh ahli geologi. Model Captioning citra merupakan gabungan model convolutional neural network (CNN) dan model bahasa seperti long short-term memory (LSTM), Transformers, dan model attention. Pada model bahasa dikembangkan kembali dengan merekayasa model dengan menambah metode attention dan selanjutnya Transformers. Proses rekognisi yang dilakukan pada citra ialah dengan menggunakan metode regular CNN dan separable CNN. Identifikasi objek yang berupa fitur citra diinterpretasikan sebagai model bahasa untuk diprediksi kata yang berkesesuaian dengan fitur citra. Interpretasi fitur citra ini dilakukan berdasarkan citra dan referensi citra geologi bebatuan sehingga mendapatkan semantik yang berkesesuaian dengan interpretasi ahli geologi. Pembelajaran mesin pada captioning citra memiliki dua bagian yaitu encoder dan decoder. Task encoder merupakan proses yang melakukan rekognisi pada citra. Task decoder merupakan bagian proses yang memberdayakan model bahasa sebagai pembangkit kata yang menerima masukan berupa gabungan ekstraksi fitur citra dan word embedding. Penelitian ini melakukan telaah terhadap kedua bagian ini dengan mengeksplorasi metode CNN sebagai encoder dan metode LSTM ii sebagai decoder. Model pembangkit kata dimulai dengan metode LSTM dengan penambahan metode attention, kemudian dilanjutkan dengan mengeksplorasi metode Transformers. Pendekatan semantic attention merupakan pendekatan task yang menekankan pada bagian decoder dengan maksud mendapatkan kata yang berkesesuaian semantiknya dengan fitur citra. Model yang sudah dikembangkan dengan menggunakan MSCOCO dan FLICKr seperti model Szegedy dan Karpathy, belum dapat memprediksi caption geologi bebatuan yang mendekati referensi. Kontribusi dari penelitian ini adalah menggabungkan state-of-the-art arsitektur captioning citra dengan pendekatan CNN, metode LSTM, atau Transformers yang dapat membangkitkan caption dari citra geologi bebatuan. Pendekatan identifikasi fitur citra latar belakang yang menjadi kontribusi penelitian adalah usulan rekayasa arsitektur semantic attention (SemATT). Pertimbangan arsitektur menjadi target eksperimen penelitian yang menggabungkan metode CNN dengan model bahasa. Pada bagian model bahasa seperti penggunaan metode LSTM, metode attention, dan Transformers menjadi target eksperimen sebagai model pembangkit teks. Usulan metode word embedding juga menjadi target encoding untuk memperbaiki kinerja fitur value encoding. Penggunaan ukuran citra 224x224 dan 299x299 piksel menjadi input ketetapan ukuran citra. Hasil penelitian ini merupakan model captioning citra geologi bebatuan yang merupakan ensemble deep learning machine yang terdiri dari model ekstraksi citra, model ekstraksi teks, dan model pembangkit kata. Model ekstraksi citra merupakan rekayasa arsitektur CNN dengan model regular maupun separable. Model ekstraksi teks adalah pemberdayaan model word embedding dengan menggunakan word2vec sebagai encoding. Pada model pembangkit kata yaitu dengan memberdayakan model LSTM atau model Transformers. Hasil dari deep learning yaitu berupa fully connected (FC) unit. Hasil penggabungan ini kemudian diproses dengan fungsi softmax untuk memprediksi kata yang sesuai dengan area citra. Pembentukan caption secara lengkap dibantu oleh algoritma greedy search atau beam search sehingga mendapatkan semantik kalimat yang memiliki relasi dengan citra geologi bebatuan. Evaluasi kinerja model captioning citra yaitu dengan menggunakan skor BLEU dan RougeL telah menunjukkan hasil prediksi caption yang memiliki ketepatan dan ketersediaan hasil dari kata yang diprediksi. Visual Attention (VaT) yang terdiri dari separable CNN dan Semantic Transformers (SeTrans) memiliki nilai skor BLEU antara lain BLEU-1=0,908, BLEU-2=0,877, BLEU-3=0,750, BLEU-4=0.510. VaT yang terdiri separable CNN dan LSTM (SemATT) memiliki nilai BLEU skor antara lain BLEU-1=0,933, BLEU-2=0,843, BLEU-3=0,743, BLEU-4=0.542. Model SemATT yang merupakan gabungan separable CNN dan LSTM terkonfirmasi memiliki hasil lebih baik dibandingkan dengan Model VaT-SeTrans serta model rekayasa sebelumnya. Selain itu, model SemATT juga memiliki hasil yang melebihi model VGG16-LSTM-word2vec, termasuk model VGG16- LSTM-Att. Bahdanau, dan VGG16 - LSTM - Att.Luong. iii Setelah melakukan berbagai eksperimen dengan model VGG16, Resnet50, InceptionV3, dan SemATT, maka diperoleh hasil model SemATT yang terdiri separable CNN dan LSTM terkonfirmasi memiliki hasil lebih baik daripada model VGG16-LSTM. Penggunaan lapis konvolusi yang disusun secara reguler memiliki ekstraksi fitur cenderung tereduksi sehingga berpotensi kehilangan fitur penting ketika jumlah lapis semakin dalam. Sementara, model separable CNN dengan 36 layer mampu mempertahankan fitur yang dibutuhkan untuk proses caption. Pada sisi pembangkit bahasa, LSTM sebagai semantic attention mampu membangkitkan kata yang memiliki relasi antara kata sebelum dan yang sudah diproduksi. Model Transformers memiliki keunggulan jika jumlah kalimat atau kata yang sangat besar. Sedangkan pada masalah yang diteliti, jumlah kata hanya mencapai 397 kata unik dari 4215 kalimat. Sehingga kemungkinan masih ada peluang penelitian untuk keberlanjutan penelitian ini baik dari sisi rekognisi citra, pembangkit kata, dan pengolah mula teks.