digilib@itb.ac.id +62 812 2508 8800

Deteksi dini kanker menjadi sangat diperlukan seiring dengan meningkatnya jumlah kasus baru dan angka kematian yang disebabkan oleh kanker setiap tahunnya. Salah satu faktor meningkatnya angka kematian karena kanker yaitu terlambatnya pasien memeriksakan dirinya sehingga diagnosanya menjadi terlambat. Keterlambatan tersebut menyebabkan kanker tersebut sudah dalam stadium yang lebih tinggi sehingga pengobatannya menjadi kurang efektif. Deteksi dini kanker dapat dilakukan dengan melakukan tes DNA dari sample darah pasien. Sedangkan solid tumor biopsy relatif sulit dilakukan jika kanker tidak membentuk tumor atau letak organ yang terinfeksi kanker sulit dijangkau. Kanker ditandai dengan abnormalitas pada DNA yang dapat disebabkan oleh keturunan atau mutasi gen yang berhubungan dengan kanker. Mutasi yang terjadi dapat berupa point mutation, insertion, dan deletion. Setiap jenis kanker akan menyebabkan mutasi pada gen-gen tertentu. Dalam bidang bioinformatika, untuk mendeteksi mutasi secara umum dilakukan menggunakan dua pendekatan, yaitu pendekatan alignment dan machine learning. Masing-masing pendekatan memiliki kelemahan dan kelebihan. Pendekatan alignment unggul dalam keakuratan deteksi tetapi memiliki waktu uji yang lama karena untuk mendeteksi mutasi dari suatu sekuens baru maka sekuens tersebut harus dibandingkan dengan seluruh sekuens referensi yang tersedia. Sedangkan pendekatan machine learning memiliki waktu uji yang lebih cepat karena sekuens baru yang akan diuji dimasukkan ke dalam model deteksi yang optimal untuk mendapatkan hasilnya, tanpa membandingkan sekuens baru tersebut dengan sekuens-sekuens referensi. Akan tetapi pada penelitian-penelitian yang telah dilakukan, pendekatan machine learning memiliki hanya mengklasifikasikan label mutasi atau normal dari sebuah sekuens dan membutuhkan tools serta data penunjang lainnya. Oleh karena itu, penelitian disertasi yang diusulkan bertujuan untuk membangun model sequential labeling berbasis Deep Learning (IM_SelaTCN) untuk mendeteksi jenis dan indeks mutasi pada data sekuens DNA. Data yang digunakan meliputi dataset COSMIC kanker payudara dan paru-paru yang diakuisisi dari ii Catalogue of Somatic Mutation in Cancer (COSMIC) database, serta dataset RSCM yang diakuisisi dari pasien kanker payudara di Rumah Sakit Cipto Mangunkusumo (RSCM), Jakarta, Indonesia. Dataset COSMIC kanker payudara terdiri dari gabungan 21 gen yang terkait dengan kanker payudara dengan total 81.272 sekuens pasien, dataset COSMIC kanker paru-paru terdiri dari gabungan 10 gen yang terkait dengan kanker paru-paru dengan total 143.111 sekuens pasien, serta dataset RSCM terdiri dari 24 pasien dengan total 11.384.164 sekuens pendek. Penelitian yang diajukan dimulai dari akuisisi data, preprocessing data dan DNA mapping untuk mengkonvesi sekuesn DNA menjadi sekuens numerik, desain dan implementasi sistem deteksi mutasi, pengujian dan analisa sistem, dan penulisan laporan atau jurnal. Model Deep Learning yang digunakan meliputi Temporal Convolutional Network (TCN), Bidirectional Long Short-Term Memory (BiLSTM), dan Convolutional Neural Network satu dimensi (1D-CNN). Model TCN memiliki keunggulan dalam mengolah informasi pada data sekuensial dan time series, dapat memproses input sekuens secara paralel sehingga waktu komputasi yang dibutuhkan menjadi lebih cepat, memiliki ukuran receptive field yang fleksibel, dapat menghindari adanya exploding ataupun vanishing gradient, serta memiliki shared filter yang dapat digunakan pada layer yang berbeda sehingga membutuhnya memori komputasi yang lebih kecil. BiLSTM juga memiliki keunggulan dalam memproses informasi pada data sekuensial, dapat menangani panjang input yang bervariasi, serta jumlah parameter yang perlu dioptimasi tidak meningkat jumlahnya seiring meningkatnya panjang sekuens yang akan diproses. Sedangkan, model 1D-CNN terbukti dapat mengekstraksi fitur dalam data sekuens DNA, akan tetapi dalam penelitian yang telah dilakukan masih memerlukan hasil dari tools lain sebagai data penunjang. Berdasarkan proses pelatihan dan pengujian pada model sequential labeling berbasis Deep Learning yang dibangun, performansi model deteksi dapat ditingkatkan dengan observasi hyperparameter dan pemilihan model Deep Learning yang digunakan. Pada observasi teknik mapping pada dataset COSMIC kanker payudara, teknik 2-mers dan 3-mers mapping dapat meningkatkan F1-score ujisebesar 30-34% dibandingkan dengan teknik integer mapping. Model TCN yang diajukan lebih unggul dalam mendeteksi indeks mutasi daripada model BiLSTM dan 1D-CNN pada dataset COSMIC kanker paru-paru dan RSCM, serta memiliki waktu deteksi lima kali lebih cepat daripada model BiLSTM. Hal ini membuktikan bahwa model TCN lebih robust dalam mendeteksi data yang memiliki jumlah data yang lebih besar dengan heterogenitas yang tinggi. F1-score tertinggi yang berhasil dicapai menggunakan model TCN yaitu 0.9443 untuk dataset COSMIC kanker payudara, 0.9591 untuk dataset COSMIC kanker paru-paru, 0.9629 untuk dataset RSCM; dan model BiLSTM mencapai F1-score tertinggi 0.9634 untuk dataset COSMIC kanker payudara, 0.9457 untuk dataset COSMIC kanker paru-paru, dan 0.9576 untuk dataset RSCM.