Kanker telah diidentifikasi sebagai tantangan utama dalam bidang kesehatan di
seluruh dunia. Jenis-jenis kanker yang menjadi penyebab utama kematian di
Indonesia adalah kanker payudara, serviks, paru, dan kolorektal. Deteksi dan
intervensi dini penting dalam mereduksi tingkat morbiditas dan mortalitas, dengan
menggunakan skrining pada tahap awal kanker.
Analisis data ekspresi genetik dengan menggunakan struktur autoencoder
digunakan dalam penelitian ini. Diperkirakan autoencoder ini dapat digunakan
untuk mendeteksi predisposisi terhadap kanker dan mengidentifikasi individu
dengan risiko tinggi. Autoencoder dipilih dikarenakan metode ini dipandang
memiliki kemampuan dalam menghadapi data yang berdimensi tinggi dan memiliki
noise tinggi. Dengan menggunakan data multiomics, hal ini dilakukan untuk
memperkaya informasi dari fitur, diharapkan proses biologi dari kanker dapat lebih
dipahami oleh model. Data profil RNA-seq dan proteom yang digunakan diperoleh
dari basis data publik TCGA. Metode autoencoder ini kemudian dibandingkan
dengan metode-metode lain dalam memproses data multiomics tersebut seperti
PCA (Principal Component Analysis), Jaringan Syaraf Tiruan, Regresi Logistik
dan Support Vector Machine.
Berdasarkan hasil penelitian, model multiomics berbasis autoencoder memiliki
performa yang lebih baik dalam mempelajari fitur dari data yang tidak seimbang
dibanding model lain. Model akhir yang dihasilkan adalah gabungan dari encoder
ekspresi gen dan encoder proteom dengan supervised learning. Dilakukan evaluasi
terhadap sistem ini dan performa dapat dilihat tidak hanya dari komparasi akurasi
tetapi dengan metrik yang berkaitan dengan kelas (F1-Score Model Autoencoder
kelas positif kanker 86% dibandingkan dengan model Neural Network 31%).
Setelah melakukan pembelajaran pada data, dengan menggunakan metode SHAP
dan Random Forest Classifier sebagai pembanding, tiap fitur ekspresi gen atau
protein yang paling berkontribusi dalam klasifikasi kanker dapat diurutkan. Dari 10
fitur terpenting, 9/10 untuk ekspresi gen, dan 8/10 dari proteom ditemukan
memiliki pondasi dari literatur klinis. Implikasi yang signifikan dari temuan ini
dapat berkontribusi pada strategi deteksi dini dan penelitian tentang kanker
khususnya dengan melakukan penelitian bioinformatika pada populasi Indonesia.