digilib@itb.ac.id +62 812 2508 8800

23520050 Muhammad Anwari Leksono.pdf
PUBLIC Dessy Rondang Monaomi

Perkembangan teknologi mesin sequencing mempermudah identifikasi DNA sehingga jumlah data genetik semakin berlimpah. Agar data DNA dapat memberikan manfaat, anotasi genom perlu dilakukan terlebih dahulu untuk mengidentifikasi fungsi dan struktur gen pada genom tersebut. Jumlah data DNA yang semakin banyak melahirkan kebutuhan akan metode anotasi yang lebih efektif dan efisien. Untuk menjawab kebutuhan tersebut, berbagai metode kecerdasan buatan digunakan untuk analisis DNA. Salah satu proses yang terlibat pada anotasi genom adalah prediksi splice site yang bertujuan untuk mengidentifikasi ekson dan intron pada gen. Model deep learning seperti CNN dan LSTM telah digunakan untuk prediksi splice site dengan metode sequence classification. Namun demikian, prediksi splice site dengan model-model tersebut hanya bisa dilakukan pada sekuens dengan splice site yang berada di tengah. Untuk mengatasi hal ini, pendekatan pelabelan sekuensial diajukan sehingga splice site dapat ditemukan di lokasi mana pun pada sekuens. Model pelabelan sekuensial bernama DNABERT-SL dikembangkan dengan menggunakan model pretrained DNABERT dan data yang diperoleh dari RefSeq NCBI. Model pelabelan sekuensial berbasis BiLSTM dan BiGRU pun dikembangkan sebagai model pembanding (baseline). Eksperimen pada DNABERT-SL dilakukan pada aspek pelatihan fine-tuning dan feature-based, dan dengan menggunakan hyperparameter dari DNABERT dan BERT. Eksperimen pada model baseline dilakukan terhadap jenis RNN dan representasi data. Hasil validasi pada DNABERT-SL menunjukkan bahwa fine-tuning dengan hyperparameter BERT menghasilkan model yang paling baik. Eksperimen menyimpulkan nilai hyperparameter yang optimal adalah learning rate = 5.10-5 dan epsilon = 10-8 dengan AdamW. Hal ini ditandai dengan nilai F1 0.998 dan 0.996 untuk label intron dan ekson, dan nilai F1 yang berkisar antara 0.8 – 0.9 untuk label splice site. Selain itu, representasi data dalam bentuk token 3-mer menghasilkan model baseline yang lebih baik dengan nilai rata-rata F1 mencapai 0.9. Selain itu, eksperimen juga menunjukkan bahwa penggunaan BiGRU memberikan hasil prediksi yang sedikit lebih baik dari BiLSTM. Hasil pengujian menunjukkan bahwa model baseline dan model DNABERT-SL memiliki performa yang rendah tetapi serupa. Kedua model memiliki nilai rata-rata F1 0.85 pada label intron dan nilai rata-rata F1 0.48 untuk label lainnya. Nilai F1 terkecil ditemukan pada label acceptor (0.109). Hasil analisis terhadap hasil pengujian menunjukkan model mengalami overfit. Selain itu, hasil analisis pada tingkat token 3-mer dan sekuens menunjukkan bahwa model tidak mampu mengenali motif splice site GT-AG dengan benar berdasarkan informasi kontekstual.