digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
PUBLIC Open In Flipbook Dessy Rondang Monaomi

Kemajuan teknologi kecerdasan buatan, khususnya dalam bidang deep learning, telah mendorong perkembangan sistem pendukung keputusan klinis berbasis citra medis. Salah satu pendekatan yang berkembang pesat adalah medical image captioning, yaitu proses otomatis untuk menghasilkan deskripsi teks dari citra radiologi. Pendekatan ini memiliki potensi besar untuk membantu proses pelaporan, terutama di lingkungan dengan keterbatasan tenaga ahli radiologi. Penelitian ini mengembangkan model medical image captioning berbasis arsitektur encoder-decoder Transformer, dengan menggunakan Swin Transformer sebagai visual encoder dan GPT-2 sebagai text decoder. Berbeda dengan penelitian terdahulu yang umumnya hanya mengandalkan fitur visual atau memiliki keterbatasan dalam menangkap konteks semantik, studi ini melakukan integrasi eksplisit informasi semantik berupa Concept Unique Identifier (CUI) ke dalam caption melalui pra-pemrosesan dan decoding pada decoder. Tujuannya adalah meningkatkan kesesuaian klinis caption yang dihasilkan. Untuk menjawab rumusan masalah (RM), dilakukan eksperimen dengan tujuan mengukur efektivitas model (menjawab RM3) dan membandingkan arsitektur Transformer yang dikembangkan (RM1) serta dampak integrasi CUI (RM2). Eksperimen dilakukan menggunakan seluruh dataset ROCOv2. Terdapat dua skenario utama: (1) baseline menggunakan caption asli tanpa pemrosesan tambahan; dan (2) caption yang telah dibersihkan serta ditambahkan konteks konsep medis atau CUI dari Unified Medical Language System (UMLS). Model yang diusulkan ini kemudian dibandingkan dengan pendekatan baseline lain seperti CNN-LSTM dan ViT-BioMedLM, dan dievaluasi menggunakan metrik BLEU, ROUGE, CIDEr, BERTScore, serta BioClinicalBERTScore. Hasil eksperimen ini secara langsung menjawab rumusan masalah mengenai efektivitas model (RM3) dan dampak integrasi CUI (RM2). Integrasi CUI terbukti meningkatkan performa captioning. Model Swin Transformer-GPT2 dengan integrasi CUI memperoleh skor BLEU-1 sebesar 0,371, ROUGE-L 0,305, CIDEr 0,275, BERTScore-F1 0,719, dan BioClinicalBERTScore-F1 0,793. Skor ini melampaui baseline CNN-LSTM (BLEU-1: 0,228; ROUGE-L: 0,146; CIDEr: 0,052; BERTScore-F1: 0,628; BioClinicalBERTScore-F1: 0,733) dan ViT-BioMedLM (BLEU-1: 0,276; ROUGE-L: 0,185; CIDEr: 0,063; BERTScore-F1: 0,645; BioClinicalBERTScore-F1: 0,738) (RM1). Penambahan konsep medis pada pra-pemrosesan caption dan proses decoding ini terbukti memperkuat kesesuaian semantik dan relevansi klinis dari caption yang dihasilkan. Validasi dilakukan oleh ahli radiologi terhadap 42 sampel caption. Sampel ini terbatas pada modalitas X-ray dan CT Scan, serta bagian tubuh tertentu yaitu dada, bagian kepala, abdomen, dan paru-paru. Dengan fokus pada analisis kesalahan, validasi menunjukkan skor rata-rata Kejelasan Bahasa (4,81), Kelengkapan Deskripsi (2,98), Akurasi Diagnosis (2,50), dan Kesesuaian Klinis (2,43), berdasarkan penilaian skala Likert 1–5. Penelitian ini berkontribusi dalam menunjukkan efektivitas integrasi knowledge-based preprocessing ke dalam model Transformer untuk tugas captioning citra radiologi, dengan novelty terletak pada integrasi CUI ke model Swin Transformer-GPT2. Penelitian ini juga membuka peluang penerapan nyata dalam sistem pendukung keputusan klinis berbasis AI.