Captioning citra merupakan gabungan task computer vision dan natural language
processing (NLP). Proses yang dilakukan adalah mentranslasikan suatu gambar
menjadi teks atau caption. Task computer vision adalah melakukan proses rekognisi
citra untuk ekstraksi citra, sedangkan pada NLP yang digunakan adalah
pembangkitan teks menggunakan metode recurrent neural network (RNN) yang
merupakan prediksi kata dari fitur citra. Pemanfaatan captioning citra untuk
memberikan caption pada citra telah dilakukan oleh berbagai peneliti dengan
menggunakan citra MSCOCO dan FLICKr. Penelitian ini memiliki perbedaan
objek yaitu objek geologi bebatuan yang belum direpresentasikan pada dataset
MSCOCO dan FLICKr. Domain objek ini merupakan objek terbatas pada geologi
bebatuan dan deskripsi dari citra tersebut yang divalidasi langusng oleh ahli
geologi. Model Captioning citra merupakan gabungan model convolutional neural
network (CNN) dan model bahasa seperti long short-term memory (LSTM),
Transformers, dan model attention. Pada model bahasa dikembangkan kembali
dengan merekayasa model dengan menambah metode attention dan selanjutnya
Transformers. Proses rekognisi yang dilakukan pada citra ialah dengan
menggunakan metode regular CNN dan separable CNN. Identifikasi objek yang
berupa fitur citra diinterpretasikan sebagai model bahasa untuk diprediksi kata yang
berkesesuaian dengan fitur citra. Interpretasi fitur citra ini dilakukan berdasarkan
citra dan referensi citra geologi bebatuan sehingga mendapatkan semantik yang
berkesesuaian dengan interpretasi ahli geologi.
Pembelajaran mesin pada captioning citra memiliki dua bagian yaitu encoder dan
decoder. Task encoder merupakan proses yang melakukan rekognisi pada citra.
Task decoder merupakan bagian proses yang memberdayakan model bahasa
sebagai pembangkit kata yang menerima masukan berupa gabungan ekstraksi fitur
citra dan word embedding. Penelitian ini melakukan telaah terhadap kedua bagian
ini dengan mengeksplorasi metode CNN sebagai encoder dan metode LSTM
ii
sebagai decoder. Model pembangkit kata dimulai dengan metode LSTM dengan
penambahan metode attention, kemudian dilanjutkan dengan mengeksplorasi
metode Transformers. Pendekatan semantic attention merupakan pendekatan task
yang menekankan pada bagian decoder dengan maksud mendapatkan kata yang
berkesesuaian semantiknya dengan fitur citra. Model yang sudah dikembangkan
dengan menggunakan MSCOCO dan FLICKr seperti model Szegedy dan Karpathy,
belum dapat memprediksi caption geologi bebatuan yang mendekati referensi.
Kontribusi dari penelitian ini adalah menggabungkan state-of-the-art arsitektur
captioning citra dengan pendekatan CNN, metode LSTM, atau Transformers yang
dapat membangkitkan caption dari citra geologi bebatuan. Pendekatan identifikasi
fitur citra latar belakang yang menjadi kontribusi penelitian adalah usulan rekayasa
arsitektur semantic attention (SemATT). Pertimbangan arsitektur menjadi target
eksperimen penelitian yang menggabungkan metode CNN dengan model bahasa.
Pada bagian model bahasa seperti penggunaan metode LSTM, metode attention,
dan Transformers menjadi target eksperimen sebagai model pembangkit teks.
Usulan metode word embedding juga menjadi target encoding untuk memperbaiki
kinerja fitur value encoding. Penggunaan ukuran citra 224x224 dan 299x299 piksel
menjadi input ketetapan ukuran citra.
Hasil penelitian ini merupakan model captioning citra geologi bebatuan yang
merupakan ensemble deep learning machine yang terdiri dari model ekstraksi citra,
model ekstraksi teks, dan model pembangkit kata. Model ekstraksi citra merupakan
rekayasa arsitektur CNN dengan model regular maupun separable. Model ekstraksi
teks adalah pemberdayaan model word embedding dengan menggunakan word2vec
sebagai encoding. Pada model pembangkit kata yaitu dengan memberdayakan
model LSTM atau model Transformers. Hasil dari deep learning yaitu berupa fully
connected (FC) unit. Hasil penggabungan ini kemudian diproses dengan fungsi
softmax untuk memprediksi kata yang sesuai dengan area citra. Pembentukan
caption secara lengkap dibantu oleh algoritma greedy search atau beam search
sehingga mendapatkan semantik kalimat yang memiliki relasi dengan citra geologi
bebatuan.
Evaluasi kinerja model captioning citra yaitu dengan menggunakan skor BLEU dan
RougeL telah menunjukkan hasil prediksi caption yang memiliki ketepatan dan
ketersediaan hasil dari kata yang diprediksi. Visual Attention (VaT) yang terdiri dari
separable CNN dan Semantic Transformers (SeTrans) memiliki nilai skor BLEU
antara lain BLEU-1=0,908, BLEU-2=0,877, BLEU-3=0,750, BLEU-4=0.510. VaT
yang terdiri separable CNN dan LSTM (SemATT) memiliki nilai BLEU skor antara
lain BLEU-1=0,933, BLEU-2=0,843, BLEU-3=0,743, BLEU-4=0.542. Model
SemATT yang merupakan gabungan separable CNN dan LSTM terkonfirmasi
memiliki hasil lebih baik dibandingkan dengan Model VaT-SeTrans serta model
rekayasa sebelumnya. Selain itu, model SemATT juga memiliki hasil yang
melebihi model VGG16-LSTM-word2vec, termasuk model VGG16- LSTM-Att.
Bahdanau, dan VGG16 - LSTM - Att.Luong.
iii
Setelah melakukan berbagai eksperimen dengan model VGG16, Resnet50,
InceptionV3, dan SemATT, maka diperoleh hasil model SemATT yang terdiri
separable CNN dan LSTM terkonfirmasi memiliki hasil lebih baik daripada model
VGG16-LSTM. Penggunaan lapis konvolusi yang disusun secara reguler memiliki
ekstraksi fitur cenderung tereduksi sehingga berpotensi kehilangan fitur penting
ketika jumlah lapis semakin dalam. Sementara, model separable CNN dengan 36
layer mampu mempertahankan fitur yang dibutuhkan untuk proses caption. Pada
sisi pembangkit bahasa, LSTM sebagai semantic attention mampu membangkitkan
kata yang memiliki relasi antara kata sebelum dan yang sudah diproduksi. Model
Transformers memiliki keunggulan jika jumlah kalimat atau kata yang sangat besar.
Sedangkan pada masalah yang diteliti, jumlah kata hanya mencapai 397 kata unik
dari 4215 kalimat. Sehingga kemungkinan masih ada peluang penelitian untuk
keberlanjutan penelitian ini baik dari sisi rekognisi citra, pembangkit kata, dan
pengolah mula teks.