Umumnya, ekstraksi informasi pada tabel dilakukan dengan mudah jika tabel
berada dalam dokumen berstruktur tabel. Tetapi, dalam kasus tabel tersaji dalam
dokumen citra diperlukan langkah untuk mendeteksi tabel terlebih dahulu.
Pendeteksian tabel pada dokumen citra menjadi lebih sulit jika tabel yang akan
dideteksi tidak memiliki batas yang jelas. Penelitian ini berfokus pada ekstraksi
informasi tabel yang tidak berbatas yang tersaji dalam dokumen citra.
Penelitian ini menerapkan model deep learning Mask RCNN-FPN untuk
mendeteksi tabel tidak berbatas dengan menggunakan data augmentation.
Penggunaan data augmentation diharapkan dapat meningkatkan akurasi model
deep learning walaupun data latih yang tersedia hanya sedikit. Teknik data
augmentation yang diusulkan dalam penelitian ini adalah dengan metode fine
tuning dengan data augmentation CutMask.
Untuk pembentukan model dan pengujian, penelitian ini menggunakan data set
UNLV. Data set ini terdiri dari gambar dokumen yang dipindai dari berbagai
sumber, termasuk laporan keuangan, jurnal, dan berbagai makalah penelitian tabel.
Total jumlah data yang digunakan adalah 427 sampel. Setelah dilakukan data
augmentation, jumlah data yang digunakan menjadi 854 sampel.
Model pendeteksian tabel dibuat berdasarkan Mask RCNN dibuat dengan bahasa
pemrograman Python. Parameter pengujian yang digunakan untuk menguji kualitas
pendeteksian tabel adalah: deteksi tepat, deteksi parsial, deteksi tidak akurat,
precision, recall, dan F-measure. Kualitas pengenalan struktur tabel diukur dari
nilai perpotongan pendeteksian, yaitu baris, kolom, dan sel yang dibandingkan
dengan ground truth.
Hasil pengujian menunjukkan bahwa penggunaan data augmentation dengan
teknik CutMask dapat meningkatkan kinerja model deep learning untuk
mendeteksi tabel tidak berbatas, demikian pula penggunaan image processing
untuk segmentasi tabel. Namun demikian, pengenalan struktur tabel masih belum
memberikan hasil yang cukup baik dibandingkan dengan penelitian yang ada.