digilib@itb.ac.id +62 812 2508 8800

ABSTRAK Izuardo Zulkarnain
PUBLIC Alice Diniarti

Umumnya, ekstraksi informasi pada tabel dilakukan dengan mudah jika tabel berada dalam dokumen berstruktur tabel. Tetapi, dalam kasus tabel tersaji dalam dokumen citra diperlukan langkah untuk mendeteksi tabel terlebih dahulu. Pendeteksian tabel pada dokumen citra menjadi lebih sulit jika tabel yang akan dideteksi tidak memiliki batas yang jelas. Penelitian ini berfokus pada ekstraksi informasi tabel yang tidak berbatas yang tersaji dalam dokumen citra. Penelitian ini menerapkan model deep learning Mask RCNN-FPN untuk mendeteksi tabel tidak berbatas dengan menggunakan data augmentation. Penggunaan data augmentation diharapkan dapat meningkatkan akurasi model deep learning walaupun data latih yang tersedia hanya sedikit. Teknik data augmentation yang diusulkan dalam penelitian ini adalah dengan metode fine tuning dengan data augmentation CutMask. Untuk pembentukan model dan pengujian, penelitian ini menggunakan data set UNLV. Data set ini terdiri dari gambar dokumen yang dipindai dari berbagai sumber, termasuk laporan keuangan, jurnal, dan berbagai makalah penelitian tabel. Total jumlah data yang digunakan adalah 427 sampel. Setelah dilakukan data augmentation, jumlah data yang digunakan menjadi 854 sampel. Model pendeteksian tabel dibuat berdasarkan Mask RCNN dibuat dengan bahasa pemrograman Python. Parameter pengujian yang digunakan untuk menguji kualitas pendeteksian tabel adalah: deteksi tepat, deteksi parsial, deteksi tidak akurat, precision, recall, dan F-measure. Kualitas pengenalan struktur tabel diukur dari nilai perpotongan pendeteksian, yaitu baris, kolom, dan sel yang dibandingkan dengan ground truth. Hasil pengujian menunjukkan bahwa penggunaan data augmentation dengan teknik CutMask dapat meningkatkan kinerja model deep learning untuk mendeteksi tabel tidak berbatas, demikian pula penggunaan image processing untuk segmentasi tabel. Namun demikian, pengenalan struktur tabel masih belum memberikan hasil yang cukup baik dibandingkan dengan penelitian yang ada.