digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
PUBLIC Open In Flipbook Dessy Rondang Monaomi

Scene Text Recognition (STR) adalah salah satu bidang dalam visi komputer dan pemrosesan citra yang bertujuan untuk mengembangkan teknologi yang mampu mengenali teks dalam gambar atau video. STR memiliki dua tugas utama, yaitu pendeteksian teks dan pengenalan teks. Pendeteksian teks bertujuan menentukan lokasi teks dalam gambar, yang biasanya direpresentasikan dalam bentuk kotak pembatas. Pengenalan teks, di sisi lain, bertujuan mengubah gambar teks menjadi string yang dapat dibaca oleh mesin. Dalam STR, terdapat sejumlah tantangan yang disebabkan oleh variasi ukuran dan jenis font, orientasi teks, warna teks, serta lingkungan pencahayaan yang beragam. Salah satu tantangan utama dalam pengenalan teks adalah orientasi teks yang tidak teratur, seperti teks melengkung, miring, atau terdistorsi. Untuk mengatasi masalah ini, penelitian ini menggunakan Spatial Transformer Network (STN) untuk melakukan rektifikasi gambar. STN bertugas memperbaiki distorsi geometris dan proyeksi pada gambar, sehingga menghasilkan gambar teks yang lebih teratur, mempermudah ekstraksi fitur, dan meningkatkan akurasi pengenalan teks. Selain rektifikasi gambar, penelitian ini meningkatkan kualitas ekstraksi fitur visual dengan menambahkan Convolutional Block Attention Module (CBAM) pada backbone CNN ResNet50. CBAM bekerja dengan memberikan perhatian lebih pada area penting dalam gambar teks dan mengabaikan area yang tidak relevan, seperti noise atau latar belakang. Dengan penggunaan CBAM, model menghasilkan fitur visual yang lebih informatif dan relevan, sehingga meningkatkan kinerja model secara keseluruhan. Penelitian ini juga memanfaatkan kombinasi dataset real dan sintetik untuk melatih model. Dataset sintetik seperti MJSynth dan SynthText digunakan karena menyediakan data dalam jumlah besar dan beragam, sedangkan dataset real yang diperoleh dari kompetisi International Conference on Document Analysis and Recognition (ICDAR) mencerminkan pola teks yang ditemukan di dunia nyata, termasuk distorsi perspektif, resolusi rendah, dan variasi font. Kombinasi kedua jenis dataset ini memungkinkan model belajar dari pola data yang lebih luas dan relevan. Untuk menerjemahkan fitur visual menjadi urutan karakter, penelitian ini menggunakan arsitektur Bidirectional Long Short Term Memory (BiLSTM) dan transformer decoder dengan mekanisme decoding dua arah. Decoding dua arah (bidirectional decoding) memungkinkan model untuk memahami konteks teks iii secara global, baik dari kiri ke kanan (L2R) maupun dari kanan ke kiri (R2L). Pendekatan ini meningkatkan akurasi pengenalan teks, terutama pada teks dengan hubungan karakter yang kompleks. Metode yang diusulkan dalam penelitian ini dibandingkan dengan 18 metode state-of-the-art (SOTA) sebelumnya pada berbagai dataset benchmark yang mencakup teks beraturan maupun tidak beraturan. Hasil eksperimen menunjukkan bahwa metode yang diusulkan menghasilkan kinerja terbaik pada dataset teks tidak beraturan seperti IC15, SVTP, dan CUTE80, dengan akurasi masing-masing sebesar 88,1%, 90,7%, dan 94,4%, yang menunjukkan peningkatan rata-rata akurasi sebesar 3,4% dibandingkan metode sebelumnya. Pada dataset beraturan seperti IIIT5k, SVTP, IC03 dan IC13, model juga menunjukkan performa kompetitif dengan akurasi yang mendekati atau melampaui metode SOTA lainnya yaitu dengan akurasi 95,5% untuk IIIT5k, 94,8 untuk SVT, 97,1% untuk IC03 dan 96,9% untuk IC13. Meskipun model STR yang diusulkan memiliki kinerja yang baik, pada analisis kesalahan menunjukkan bahwa model masih memiliki keterbatasan dalam mengenali gambar teks dengan simbol khusus, gaya teks kaligrafi dan artistik, gambar teks, teks beresolusi rendah dan dengan oklusi berat. Selain itu, kesalahan pelabelan pada data uji juga menjadi faktor yang memengaruhi hasil evaluasi. Secara keseluruhan, penelitian ini menunjukkan bahwa kombinasi rektifikasi gambar dengan STN, peningkatan fitur visual dengan CBAM pada ResNet50 backbone CNN, penggabungan dataset real dan dataset sintetik, dan bidirectional transforemer decoder mampu meningkatkan akurasi pengenalan teks secara signifikan.