Article Details

EKSTRAKSI INFORMASI TABEL MENGGUNAKAN DATA AUGMENTATION PADA DEEP LEARNING DAN IMAGE PROCESSING

Oleh   Izuardo Zulkarnain [23518039]
Kontributor / Dosen Pembimbing : Dr. Fazat Nur Azizah, S.T., M.Sc.;
Jenis Koleksi : S2 - Tesis
Penerbit : STEI - Informatika
Fakultas : Sekolah Teknik Elektro dan Informatika (STEI)
Subjek :
Kata Kunci : ekstraksi informasi tabel, pendeteksian tabel, data augmentation, deep learning, mask RCNN-FPN, image processing
Sumber :
Staf Input/Edit : Alice Diniarti  
File : 1 file
Tanggal Input : 2021-12-27 14:32:51

Umumnya, ekstraksi informasi pada tabel dilakukan dengan mudah jika tabel berada dalam dokumen berstruktur tabel. Tetapi, dalam kasus tabel tersaji dalam dokumen citra diperlukan langkah untuk mendeteksi tabel terlebih dahulu. Pendeteksian tabel pada dokumen citra menjadi lebih sulit jika tabel yang akan dideteksi tidak memiliki batas yang jelas. Penelitian ini berfokus pada ekstraksi informasi tabel yang tidak berbatas yang tersaji dalam dokumen citra. Penelitian ini menerapkan model deep learning Mask RCNN-FPN untuk mendeteksi tabel tidak berbatas dengan menggunakan data augmentation. Penggunaan data augmentation diharapkan dapat meningkatkan akurasi model deep learning walaupun data latih yang tersedia hanya sedikit. Teknik data augmentation yang diusulkan dalam penelitian ini adalah dengan metode fine tuning dengan data augmentation CutMask. Untuk pembentukan model dan pengujian, penelitian ini menggunakan data set UNLV. Data set ini terdiri dari gambar dokumen yang dipindai dari berbagai sumber, termasuk laporan keuangan, jurnal, dan berbagai makalah penelitian tabel. Total jumlah data yang digunakan adalah 427 sampel. Setelah dilakukan data augmentation, jumlah data yang digunakan menjadi 854 sampel. Model pendeteksian tabel dibuat berdasarkan Mask RCNN dibuat dengan bahasa pemrograman Python. Parameter pengujian yang digunakan untuk menguji kualitas pendeteksian tabel adalah: deteksi tepat, deteksi parsial, deteksi tidak akurat, precision, recall, dan F-measure. Kualitas pengenalan struktur tabel diukur dari nilai perpotongan pendeteksian, yaitu baris, kolom, dan sel yang dibandingkan dengan ground truth. Hasil pengujian menunjukkan bahwa penggunaan data augmentation dengan teknik CutMask dapat meningkatkan kinerja model deep learning untuk mendeteksi tabel tidak berbatas, demikian pula penggunaan image processing untuk segmentasi tabel. Namun demikian, pengenalan struktur tabel masih belum memberikan hasil yang cukup baik dibandingkan dengan penelitian yang ada.