Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Leukemia merupakan salah satu jenis kanker dengan jumlah kasus terbanyak di
dunia dan di Indonesia. Keterlambatan diagnosis menjadi salah satu penyebab
tingginya jumlah kasus ini. Gejala dari leukemia yang tidak spesifik menjadi
tantangan dalam melakukan diagnosis. Selain itu, jenis kanker ini dapat menyerang
berbagai tipe sel darah putih dengan karakteristik yang berbeda-beda sehingga
menyulitkan diagnosis yang tepat. Diagnosis leukemia tidak cukup hanya dengan
menentukan apakah seseorang memiliki leukemia, tetapi juga dengan mencari tahu
tipe leukemia yang diderita oleh pasien agar dapat diberikan pengobatan yang tepat
dan spesifik. Kemajuan teknologi sequencing DNA mendukung pengambilan
informasi genetik pada manusia yang lebih cepat. Sequencing keseluruhan data
genetik manusia dapat dilakukan dengan lebih cepat dan mudah.
RNA-seq sebagai salah satu metode sequencing keseluruhan data genetik semakin
sering digunakan dalam studi-studi terkait kanker. Peningkatan penggunaan RNAseq
dalam studi-studi ini meningkatkan potensi pemanfaatan data ekspresi gen
dalam membantu diagnosis kanker, terutama leukemia. Kesulitan dalam
penggunaan data ekspresi gen adalah dimensinya yang tinggi. Hal ini menyulitkan
analisis data secara manual. Beberapa riset telah mencoba memanfaatkan machine
learning untuk melakukan klasifikasi leukemia dari data ekspresi gen ini. Namun,
riset-riset yang berfokus pada data dari RNA-seq masih terbatas. Selain itu, risetriset
yang dilakukan kebanyakan hanya melakukan klasifikasi terhadap 2 kelas
leukemia saja.
Tugas akhir ini berfokus pada identifikasi gen dan klasifikasi leukemia dari data
ekspresi gen yang diperoleh dari RNA-seq. Dataset yang digunakan memiliki 5
kelas, yaitu ALL, AML, CLL, CML, dan non-leukemia. Dataset diambil dari basis
data TCGA dan GEO. 39 dataset yang diperoleh ini diintegrasi menjadi satu dataset
besar. Dataset ini melalui beberapa tahapan preprocessing sebelum dilakukan
pemilihan fitur. Data ekspresi gen yang belum diproses ini perlu melalui tahapan
normalisasi antarsampel dan transformasi data. Untuk mengurangi batch effect
akibat sumber data yang berbeda-beda, dilakukan koreksi batch effect. Analisis
2
differentially expressed genes (DEG) dilakukan untuk memperoleh gen-gen yang
memiliki nilai ekspresi berbeda. Fitur-fitur penting dipilih melalui 3 metode, yaitu
MRMR, LASSO, dan Random Forest. Fitur-fitur ini kemudian diuji pada 4 model
machine learning, yaitu SVM, KNN, Random Forest, dan Naive Bayes. Pengaruh
pengurangan dimensi dengan PCA juga diuji pada model ini. Dari pemilihan fitur,
diambil 30, 40, dan 50 fitur penting dari masing-masing metode. Fitur-fitur terpilih
ini merupakan fitur-fitur yang memiliki korelasi tinggi terhadap label dan memiliki
ekspresi yang tinggi pada salah satu label.
Model-model machine learning menunjukkan performa di atas 90% untuk metrik
akurasi, f1 score, precision, recall, dan AUC. Performa paling baik ditunjukkan
oleh model Random Forest yang menggunakan 4 principal component dari 30 fitur
yang dipilih MRMR-MIQ. Model ini menunjukkan performa 100% pada metrik
yang digunakan. Dari model ini, gen C21orf2, SSSCA1, dan LINC00282
merupakan fitur dengan nilai relevansi tertinggi terhadap label. Model Random
Forest juga dicoba terhadap 2 fitur tertinggi dari masing-masing metode. Model
dengan 2 fitur tertinggi dari MRMR ini menunjukkan performa lebih dari 99% pada
seluruh metrik. Hasil ini menunjukkan potensi penggunaan data ekspresi gen dari
RNA-seq dengan machine learning sebagai metode klasifikasi leukemia multi-class
yang akurat.
Perpustakaan Digital ITB