Deteksi dini kanker menjadi sangat diperlukan seiring dengan meningkatnya
jumlah kasus baru dan angka kematian yang disebabkan oleh kanker setiap
tahunnya. Salah satu faktor meningkatnya angka kematian karena kanker yaitu
terlambatnya pasien memeriksakan dirinya sehingga diagnosanya menjadi
terlambat. Keterlambatan tersebut menyebabkan kanker tersebut sudah dalam
stadium yang lebih tinggi sehingga pengobatannya menjadi kurang efektif. Deteksi
dini kanker dapat dilakukan dengan melakukan tes DNA dari sample darah pasien.
Sedangkan solid tumor biopsy relatif sulit dilakukan jika kanker tidak membentuk
tumor atau letak organ yang terinfeksi kanker sulit dijangkau. Kanker ditandai
dengan abnormalitas pada DNA yang dapat disebabkan oleh keturunan atau mutasi
gen yang berhubungan dengan kanker. Mutasi yang terjadi dapat berupa point
mutation, insertion, dan deletion. Setiap jenis kanker akan menyebabkan mutasi
pada gen-gen tertentu.
Dalam bidang bioinformatika, untuk mendeteksi mutasi secara umum dilakukan
menggunakan dua pendekatan, yaitu pendekatan alignment dan machine learning.
Masing-masing pendekatan memiliki kelemahan dan kelebihan. Pendekatan
alignment unggul dalam keakuratan deteksi tetapi memiliki waktu uji yang lama
karena untuk mendeteksi mutasi dari suatu sekuens baru maka sekuens tersebut
harus dibandingkan dengan seluruh sekuens referensi yang tersedia. Sedangkan
pendekatan machine learning memiliki waktu uji yang lebih cepat karena sekuens
baru yang akan diuji dimasukkan ke dalam model deteksi yang optimal untuk
mendapatkan hasilnya, tanpa membandingkan sekuens baru tersebut dengan
sekuens-sekuens referensi. Akan tetapi pada penelitian-penelitian yang telah
dilakukan, pendekatan machine learning memiliki hanya mengklasifikasikan label
mutasi atau normal dari sebuah sekuens dan membutuhkan tools serta data
penunjang lainnya.
Oleh karena itu, penelitian disertasi yang diusulkan bertujuan untuk membangun
model sequential labeling berbasis Deep Learning (IM_SelaTCN) untuk
mendeteksi jenis dan indeks mutasi pada data sekuens DNA. Data yang digunakan
meliputi dataset COSMIC kanker payudara dan paru-paru yang diakuisisi dari
ii
Catalogue of Somatic Mutation in Cancer (COSMIC) database, serta dataset
RSCM yang diakuisisi dari pasien kanker payudara di Rumah Sakit Cipto
Mangunkusumo (RSCM), Jakarta, Indonesia. Dataset COSMIC kanker payudara
terdiri dari gabungan 21 gen yang terkait dengan kanker payudara dengan total
81.272 sekuens pasien, dataset COSMIC kanker paru-paru terdiri dari gabungan 10
gen yang terkait dengan kanker paru-paru dengan total 143.111 sekuens pasien,
serta dataset RSCM terdiri dari 24 pasien dengan total 11.384.164 sekuens pendek.
Penelitian yang diajukan dimulai dari akuisisi data, preprocessing data dan DNA
mapping untuk mengkonvesi sekuesn DNA menjadi sekuens numerik, desain dan
implementasi sistem deteksi mutasi, pengujian dan analisa sistem, dan penulisan
laporan atau jurnal.
Model Deep Learning yang digunakan meliputi Temporal Convolutional Network
(TCN), Bidirectional Long Short-Term Memory (BiLSTM), dan Convolutional
Neural Network satu dimensi (1D-CNN). Model TCN memiliki keunggulan dalam
mengolah informasi pada data sekuensial dan time series, dapat memproses input
sekuens secara paralel sehingga waktu komputasi yang dibutuhkan menjadi lebih
cepat, memiliki ukuran receptive field yang fleksibel, dapat menghindari adanya
exploding ataupun vanishing gradient, serta memiliki shared filter yang dapat
digunakan pada layer yang berbeda sehingga membutuhnya memori komputasi
yang lebih kecil. BiLSTM juga memiliki keunggulan dalam memproses informasi
pada data sekuensial, dapat menangani panjang input yang bervariasi, serta jumlah
parameter yang perlu dioptimasi tidak meningkat jumlahnya seiring meningkatnya
panjang sekuens yang akan diproses. Sedangkan, model 1D-CNN terbukti dapat
mengekstraksi fitur dalam data sekuens DNA, akan tetapi dalam penelitian yang
telah dilakukan masih memerlukan hasil dari tools lain sebagai data penunjang.
Berdasarkan proses pelatihan dan pengujian pada model sequential labeling
berbasis Deep Learning yang dibangun, performansi model deteksi dapat
ditingkatkan dengan observasi hyperparameter dan pemilihan model Deep
Learning yang digunakan. Pada observasi teknik mapping pada dataset COSMIC
kanker payudara, teknik 2-mers dan 3-mers mapping dapat meningkatkan F1-score
ujisebesar 30-34% dibandingkan dengan teknik integer mapping. Model TCN yang
diajukan lebih unggul dalam mendeteksi indeks mutasi daripada model BiLSTM
dan 1D-CNN pada dataset COSMIC kanker paru-paru dan RSCM, serta memiliki
waktu deteksi lima kali lebih cepat daripada model BiLSTM. Hal ini membuktikan
bahwa model TCN lebih robust dalam mendeteksi data yang memiliki jumlah data
yang lebih besar dengan heterogenitas yang tinggi. F1-score tertinggi yang berhasil
dicapai menggunakan model TCN yaitu 0.9443 untuk dataset COSMIC kanker
payudara, 0.9591 untuk dataset COSMIC kanker paru-paru, 0.9629 untuk dataset
RSCM; dan model BiLSTM mencapai F1-score tertinggi 0.9634 untuk dataset
COSMIC kanker payudara, 0.9457 untuk dataset COSMIC kanker paru-paru, dan
0.9576 untuk dataset RSCM.