digilib@itb.ac.id +62 812 2508 8800

Kanker telah diidentifikasi sebagai tantangan utama dalam bidang kesehatan di seluruh dunia. Jenis-jenis kanker yang menjadi penyebab utama kematian di Indonesia adalah kanker payudara, serviks, paru, dan kolorektal. Deteksi dan intervensi dini penting dalam mereduksi tingkat morbiditas dan mortalitas, dengan menggunakan skrining pada tahap awal kanker. Analisis data ekspresi genetik dengan menggunakan struktur autoencoder digunakan dalam penelitian ini. Diperkirakan autoencoder ini dapat digunakan untuk mendeteksi predisposisi terhadap kanker dan mengidentifikasi individu dengan risiko tinggi. Autoencoder dipilih dikarenakan metode ini dipandang memiliki kemampuan dalam menghadapi data yang berdimensi tinggi dan memiliki noise tinggi. Dengan menggunakan data multiomics, hal ini dilakukan untuk memperkaya informasi dari fitur, diharapkan proses biologi dari kanker dapat lebih dipahami oleh model. Data profil RNA-seq dan proteom yang digunakan diperoleh dari basis data publik TCGA. Metode autoencoder ini kemudian dibandingkan dengan metode-metode lain dalam memproses data multiomics tersebut seperti PCA (Principal Component Analysis), Jaringan Syaraf Tiruan, Regresi Logistik dan Support Vector Machine. Berdasarkan hasil penelitian, model multiomics berbasis autoencoder memiliki performa yang lebih baik dalam mempelajari fitur dari data yang tidak seimbang dibanding model lain. Model akhir yang dihasilkan adalah gabungan dari encoder ekspresi gen dan encoder proteom dengan supervised learning. Dilakukan evaluasi terhadap sistem ini dan performa dapat dilihat tidak hanya dari komparasi akurasi tetapi dengan metrik yang berkaitan dengan kelas (F1-Score Model Autoencoder kelas positif kanker 86% dibandingkan dengan model Neural Network 31%). Setelah melakukan pembelajaran pada data, dengan menggunakan metode SHAP dan Random Forest Classifier sebagai pembanding, tiap fitur ekspresi gen atau protein yang paling berkontribusi dalam klasifikasi kanker dapat diurutkan. Dari 10 fitur terpenting, 9/10 untuk ekspresi gen, dan 8/10 dari proteom ditemukan memiliki pondasi dari literatur klinis. Implikasi yang signifikan dari temuan ini dapat berkontribusi pada strategi deteksi dini dan penelitian tentang kanker khususnya dengan melakukan penelitian bioinformatika pada populasi Indonesia.