digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Leukemia merupakan salah satu jenis kanker dengan jumlah kasus terbanyak di dunia dan di Indonesia. Keterlambatan diagnosis menjadi salah satu penyebab tingginya jumlah kasus ini. Gejala dari leukemia yang tidak spesifik menjadi tantangan dalam melakukan diagnosis. Selain itu, jenis kanker ini dapat menyerang berbagai tipe sel darah putih dengan karakteristik yang berbeda-beda sehingga menyulitkan diagnosis yang tepat. Diagnosis leukemia tidak cukup hanya dengan menentukan apakah seseorang memiliki leukemia, tetapi juga dengan mencari tahu tipe leukemia yang diderita oleh pasien agar dapat diberikan pengobatan yang tepat dan spesifik. Kemajuan teknologi sequencing DNA mendukung pengambilan informasi genetik pada manusia yang lebih cepat. Sequencing keseluruhan data genetik manusia dapat dilakukan dengan lebih cepat dan mudah. RNA-seq sebagai salah satu metode sequencing keseluruhan data genetik semakin sering digunakan dalam studi-studi terkait kanker. Peningkatan penggunaan RNAseq dalam studi-studi ini meningkatkan potensi pemanfaatan data ekspresi gen dalam membantu diagnosis kanker, terutama leukemia. Kesulitan dalam penggunaan data ekspresi gen adalah dimensinya yang tinggi. Hal ini menyulitkan analisis data secara manual. Beberapa riset telah mencoba memanfaatkan machine learning untuk melakukan klasifikasi leukemia dari data ekspresi gen ini. Namun, riset-riset yang berfokus pada data dari RNA-seq masih terbatas. Selain itu, risetriset yang dilakukan kebanyakan hanya melakukan klasifikasi terhadap 2 kelas leukemia saja. Tugas akhir ini berfokus pada identifikasi gen dan klasifikasi leukemia dari data ekspresi gen yang diperoleh dari RNA-seq. Dataset yang digunakan memiliki 5 kelas, yaitu ALL, AML, CLL, CML, dan non-leukemia. Dataset diambil dari basis data TCGA dan GEO. 39 dataset yang diperoleh ini diintegrasi menjadi satu dataset besar. Dataset ini melalui beberapa tahapan preprocessing sebelum dilakukan pemilihan fitur. Data ekspresi gen yang belum diproses ini perlu melalui tahapan normalisasi antarsampel dan transformasi data. Untuk mengurangi batch effect akibat sumber data yang berbeda-beda, dilakukan koreksi batch effect. Analisis 2 differentially expressed genes (DEG) dilakukan untuk memperoleh gen-gen yang memiliki nilai ekspresi berbeda. Fitur-fitur penting dipilih melalui 3 metode, yaitu MRMR, LASSO, dan Random Forest. Fitur-fitur ini kemudian diuji pada 4 model machine learning, yaitu SVM, KNN, Random Forest, dan Naive Bayes. Pengaruh pengurangan dimensi dengan PCA juga diuji pada model ini. Dari pemilihan fitur, diambil 30, 40, dan 50 fitur penting dari masing-masing metode. Fitur-fitur terpilih ini merupakan fitur-fitur yang memiliki korelasi tinggi terhadap label dan memiliki ekspresi yang tinggi pada salah satu label. Model-model machine learning menunjukkan performa di atas 90% untuk metrik akurasi, f1 score, precision, recall, dan AUC. Performa paling baik ditunjukkan oleh model Random Forest yang menggunakan 4 principal component dari 30 fitur yang dipilih MRMR-MIQ. Model ini menunjukkan performa 100% pada metrik yang digunakan. Dari model ini, gen C21orf2, SSSCA1, dan LINC00282 merupakan fitur dengan nilai relevansi tertinggi terhadap label. Model Random Forest juga dicoba terhadap 2 fitur tertinggi dari masing-masing metode. Model dengan 2 fitur tertinggi dari MRMR ini menunjukkan performa lebih dari 99% pada seluruh metrik. Hasil ini menunjukkan potensi penggunaan data ekspresi gen dari RNA-seq dengan machine learning sebagai metode klasifikasi leukemia multi-class yang akurat.